Problemi lematizacije priloga i veznika u hrvatskim tekstovima (CROSBI ID 46617)
Prilog u knjizi | izvorni znanstveni rad
Podaci o odgovornosti
Berović, Daša ; Merkler, Danijela
hrvatski
Problemi lematizacije priloga i veznika u hrvatskim tekstovima
Pri morfosintaktičkom označavanju korpusa koji čini hrvatski prijevod Orwellove "1984" uočili smo pogreške u lematizaciji. Dobivene rezultate lematizacije odlučili smo ručno pregledati kako bismo utvrdili u kojim se slučajevima najčešće pojavljuju pogreške. Uočili smo da je najveći broj pogrešaka zastupljen pri lematizaciji priloga i veznika, osobito složenih. Naime, mnoge su vrste riječi podložne adverbijalizaciji, osobito imenice u instrumentalu jednine (godinama, trkom). Osim toga, neke zamjenice (što, koji) i prilozi (kad, gdje) mogu imati funkciju veznika. Također smo uočili da više vezničkih riječi može sačinjavati jedan samostalni složeni veznik (zato što). Međutim, postoje i primjeri u kojima se složeni veznik sastoji od vezničke i nevezničke riječi koja može biti prijedlog (nakon što, osim što) i glagolski prilog sadašnji (budući da). U radu smo opisali postupak detekcije tih pogrešaka, te smo prikazali primjere u kojima je nužan njihov ispravak. Pri ispravljanju pogrešaka predložili smo i moguća rješenja lematiziranja i označavanja.
lematizacija, prilozi, veznici, označavanje vrsta riječi, označavanje morfosintaktičkih kategorija
nije evidentirano
engleski
Problems with lemmatization of adverbs and conjunctions in Croatian texts
nije evidentirano
lemmatization, adverbs, conjunctions, POS-tagging, MSD-tagging
nije evidentirano
Podaci o prilogu
67-79.
objavljeno
Podaci o knjizi
Aktualna istraživanja u primijenjenoj lingvistici
Pon, Leonard ; Karabalić, Vladimir ; Cimer, Sanja
Osijek: Hrvatsko društvo za primijenjenu lingvistiku (HDPL)
2012.
978-953-314-049-0