Pregled bibliografske jedinice broj: 592613
Problemi lematizacije priloga i veznika u hrvatskim tekstovima
Problemi lematizacije priloga i veznika u hrvatskim tekstovima // Aktualna istraživanja u primijenjenoj lingvistici / Pon, Leonard ; Karabalić, Vladimir ; Cimer, Sanja (ur.).
Osijek: Hrvatsko društvo za primijenjenu lingvistiku (HDPL), 2012. str. 67-79
CROSBI ID: 592613 Za ispravke kontaktirajte CROSBI podršku putem web obrasca
Naslov
Problemi lematizacije priloga i veznika u hrvatskim tekstovima
(Problems with lemmatization of adverbs and conjunctions in Croatian texts)
Autori
Berović, Daša ; Merkler, Danijela
Vrsta, podvrsta i kategorija rada
Poglavlja u knjigama, znanstveni
Knjiga
Aktualna istraživanja u primijenjenoj lingvistici
Urednik/ci
Pon, Leonard ; Karabalić, Vladimir ; Cimer, Sanja
Izdavač
Hrvatsko društvo za primijenjenu lingvistiku (HDPL)
Grad
Osijek
Godina
2012
Raspon stranica
67-79
ISBN
978-953-314-049-0
Ključne riječi
lematizacija, prilozi, veznici, označavanje vrsta riječi, označavanje morfosintaktičkih kategorija
(lemmatization, adverbs, conjunctions, POS-tagging, MSD-tagging)
Sažetak
Pri morfosintaktičkom označavanju korpusa koji čini hrvatski prijevod Orwellove "1984" uočili smo pogreške u lematizaciji. Dobivene rezultate lematizacije odlučili smo ručno pregledati kako bismo utvrdili u kojim se slučajevima najčešće pojavljuju pogreške. Uočili smo da je najveći broj pogrešaka zastupljen pri lematizaciji priloga i veznika, osobito složenih. Naime, mnoge su vrste riječi podložne adverbijalizaciji, osobito imenice u instrumentalu jednine (godinama, trkom). Osim toga, neke zamjenice (što, koji) i prilozi (kad, gdje) mogu imati funkciju veznika. Također smo uočili da više vezničkih riječi može sačinjavati jedan samostalni složeni veznik (zato što). Međutim, postoje i primjeri u kojima se složeni veznik sastoji od vezničke i nevezničke riječi koja može biti prijedlog (nakon što, osim što) i glagolski prilog sadašnji (budući da). U radu smo opisali postupak detekcije tih pogrešaka, te smo prikazali primjere u kojima je nužan njihov ispravak. Pri ispravljanju pogrešaka predložili smo i moguća rješenja lematiziranja i označavanja.
Izvorni jezik
Hrvatski
Znanstvena područja
Filologija