HOME tokenizer tagger parser ner

Spracovanie prirodzeného jazyka

SpaCy Web App

TEXT

Tokenizér - TOKENIZER

Rozdelí text na segmenty a označí hranice segmentov.

Značkovač - TAGGER

Ďalším dôležitým krokom pri spracovaní prirodzeného jazyka je kategorizácia tokenov na základe morfologických a gramatických kategórií slova. Značkovanie je proces priradzovania značky tokenom s informáciami o ich tvare. Tieto informácie zahŕňajú ich slovné druhy a ich podkategórie. Značky využívame napríklad pri predpovedaní správania sa predtým nepoznaných slov vo vetách

Syntaktický analyzátor - PARSER

Syntaktická analýza je proces, kedy každému slovu vo vete priradíme gramatické závislosti medzi týmito slovami. Syntaktická analýza nájde využitie v mnohých úlohách ktoré sa týkajú spracovania prirodzeného jazyka, keďže nám poskytuje informácie o tom v akom vzťahu sú tokeny vo vete.
Pretože syntaktické vzťahy tvoria strom, každé slovo má presne jednu hlavu.

Text: Pôvodný text
Závislosť: Syntaktický vzťah spájajúci závislostne podradené slovo s hlavou
Head text: Text hlavy
Head tag: Tag hlavy
Dependent: Závislostne podradené slovo

TEXT Závislosť Hlava text Hlava tag Dependents

NER

Rozpoznávanie pomenovaných entít je proces pri spracovaní prirodzeného jazyka, pri ktorom sa spracováva text a v ňom sa vyhľadávajú výrazy, ktoré nazývame menované entity. Pomenované entity sú slová alebo frázy ktoré sú pomenované alebo kategorizované v danej téme.