Informácie

SpaCy Web App

DOMOV

Spracovanie prirodzeného jazyka

Tejto problematike sa venuje spracovanie prirodzeného jazyka. Spracovanie prirodzeného jazyka kategorizujeme ako podoblasť umelej inteligencie, špecificky podoblasť strojového učenia. Funguje na princípe štatistických modelov. Na to aby program dokázal spracovať hovorenú reč potrebuje poznať lexikálnu sémantiku, čiže porozumieť významu slov, kompozičnú sémantiku, ktorá skúma význam slovných spojení, fráz a viet, syntaktickú štruktúru, ktorá sa zaoberá spájaním slov do viet.

Hlavným cieľom spracovania prirodzeného jazyka je, aby bol počítač schopný spracovať a pochopiť prirodzenú reč hovorenú človekom. Za prirodzený jazyk sa považuje jazyk ktorým komunikujeme v bežnej komunikácií napríklad Slovenský jazyk, Anglický jazyk, Nemecký jazyk.

Tokenizácia

Prvým a základným krokom pri spracovaní prirodzeného jazyka je rozdelenie textu na menšie časti takzvané tokeny, s ktorými vieme neskôr pracovať. Proces spracovania prirodzeného jazyka je založený na hľadaní súvislostí medzi týmito tokenmi. Proces rozdelenia textu na tokeny sa nazýva tokenizácia. Tento krok je obzvlášť dôležitý, keďže sa od jeho výsledkov odvíja následné spracovanie jazyka.

Token je arbitrárna jednotka textu, ktorá rozširuje lingvistický význam pojmu slovo. Za token sa v automatickej segmentácii textu považuje akýkoľvek reťazec znakov medzi dvoma medzerami, aj jednotlivé znaky interpunkcie, ktoré nemusia byť oddelené medzerou od predchádzajúceho alebo nasledujúceho tokenu. Text sa teda z formálneho hľadiska skladá z tokenov a medzier.

Morfologická anotácia slovných druhov

Ďalším dôležitým krokom pri spracovaní prirodzeného jazyka je kategorizácia tokenov na základe morfologických a gramatických kategórií slova, tento proces sa nazýva značkovanie alebo morfologická anotácia, v angličtine tagging. V jednoduchom ponímaní môžeme povedať, že značkovanie je proces priradzovania značky tokenom s informáciami o ich tvare. Tieto informácie zahŕňajú ich slovné druhy a ich podkategórie. Značky využívame napríklad pri predpovedaní správania sa predtým nepoznaných slov vo vetách, analyzovaní využívania slov alebo v systémoch, ktoré prekladajú text na hovorenú reč.

Tag je teda súborom znakov vyjadrujúcim hodnoty formálnych kategórií, ktoré považujeme pri danom tvare za relevantné. Počet znakov je variabilný, ale ich poradie v tagu je záväzné.

Syntaktická analýza

Syntaktická analýza je proces, kedy každému slovu vo vete priradíme gramatické závislosti medzi týmito slovami. Závislostná syntaktická analýza alebo dependency parsing, je prístup k automatickej syntaktickej analýze prirodzeného jazyka, ktorá funguje na základe závistlostnej gramatiky. Syntaktická analýza nájde využitie v mnohých úlohách ktoré sa týkajú spracovania prirodzeného jazyka, keďže nám poskytuje informácie o tom v akom vzťahu sú tokeny vo vete. Typickým využitím syntaktickej analýzy pri spracovaní prirodzeného jazyka sú systémy na kontrolu pravopisu.

Rozpoznávanie pomenovaných entít

Rozpoznávanie pomenovaných entít je proces pri spracovaní prirodzeného jazyka, pri ktorom sa spracováva text a v ňom sa vyhľadávajú výrazy, ktoré nazývame menované entity. Pomenované entity sú slová alebo frázy ktoré sú pomenované alebo kategorizované v danej téme. Zvyčajne nesú kľúčové informácie vo vete, ktoré sú cieľom pre väčšinu systémov spracovania nie len prirodzeného jazyka.

Pomenované entity nachádzajú svoje uplatnenie pri rôznych úlohách týkajúcich sa spracovania jazyka napríklad pri monitorovaní sociálnych sietí, alebo článkov s cieľom nájsť mená osôb, lokácií alebo organizácií, ktoré sa dajú neskôr využiť na účely reklamy alebo inak cieleného obsahu.

SpaCy

SpaCy je open source knižnica pre pokročilé spracovanie prirodzeného jazyka a napísaná v jazyku Python a Cython vyvinutá Mattom Hannibalom. Prvá verzia bola publikovaná už v roku 2016. Je dizajnovaná špecificky pre vytváranie aplikácií ktoré sú schopné spracovať a porozumieť veľkým množstvám textu.

Spacy pri práci s textom využíva presne spísané pravidlá a štatistické modely. pri spracovaní prirodzeného jazyka spacy ako prvé rozdelí text na tokeny a vráti objekt Doc. Tento Doc objekt je následne spracovaný v niekoľkých nasledujúcich krokoch, tieto kroky môžeme nazvať jednotným názvom processing pipeline, vo všeobecnosti môžeme definovať ako techniky alebo pravidlá ktoré určujú ako budú dáta cestovať medzi štádiami spracovania pri paralelnom spracovaní dát v počítači.