Rozdelí text na segmenty a označí hranice segmentov.
Spracovanie prirodzeného jazyka
SpaCy Web App
TEXT
Tokenizér - TOKENIZER
Značkovač - TAGGER
Ďalším dôležitým krokom pri spracovaní prirodzeného jazyka je kategorizácia tokenov na základe morfologických a gramatických kategórií slova. Značkovanie je proces priradzovania značky tokenom s informáciami o ich tvare. Tieto informácie zahŕňajú ich slovné druhy a ich podkategórie. Značky využívame napríklad pri predpovedaní správania sa predtým nepoznaných slov vo vetách
Syntaktický analyzátor - PARSER
Syntaktická analýza je proces, kedy každému slovu vo vete priradíme gramatické závislosti medzi týmito slovami. Syntaktická analýza nájde využitie v mnohých úlohách ktoré sa týkajú spracovania prirodzeného jazyka, keďže nám poskytuje informácie o tom v akom vzťahu sú tokeny vo vete.
Pretože syntaktické vzťahy tvoria strom, každé slovo má presne jednu hlavu.
Text: Pôvodný text
Závislosť: Syntaktický vzťah spájajúci závislostne podradené slovo s hlavou
Head text: Text hlavy
Head tag: Tag hlavy
Dependent: Závislostne podradené slovo
NER
Rozpoznávanie pomenovaných entít je proces pri spracovaní prirodzeného jazyka, pri ktorom sa spracováva text a v ňom sa vyhľadávajú výrazy, ktoré nazývame menované entity. Pomenované entity sú slová alebo frázy ktoré sú pomenované alebo kategorizované v danej téme.