Pregled bibliografske jedinice broj: 472973
Morfološka normalizacija tekstova na hrvatskome jeziku za dubinsku analizu i pretraživanje informacija
Morfološka normalizacija tekstova na hrvatskome jeziku za dubinsku analizu i pretraživanje informacija, 2010., doktorska disertacija, Fakultet elektrotehnike i računarstva, Zagreb
CROSBI ID: 472973 Za ispravke kontaktirajte CROSBI podršku putem web obrasca
Naslov
Morfološka normalizacija tekstova na hrvatskome jeziku za dubinsku analizu i pretraživanje informacija
(Morphological Normalization of Texts in Croatian Language for Text Mining and Information Retrieval)
Autori
Šnajder, Jan
Vrsta, podvrsta i kategorija rada
Ocjenski radovi, doktorska disertacija
Fakultet
Fakultet elektrotehnike i računarstva
Mjesto
Zagreb
Datum
01.06
Godina
2010
Stranica
184
Mentor
Dalbelo Bašić, Bojana
Ključne riječi
Morfološka normalizacija; računalna obrada morfologije; obrada prirodnog jezika; hrvatski jezik; pretraživanje informacija; dubinska analiza teksta
(Morphological normalization; computational morphology; natural language processing; Croatian language; information retrieval; text mining)
Sažetak
Riječi u tekstu pojavljuju se u različitim morfološkim varijantama, odnosno flektivnim i derivacijskim oblicima. Morfološka varijacija ima negativan utjecaj na djelotvornost sustava za pretraživanje informacija i dubinsku analizu teksta, naročito kod morfološki složenih jezika kao što je hrvatski. Negativne utjecaje morfološke varijacije moguće je ukloniti primjenom postupaka morfološke normalizacije, odnosno sažimanjem različitih morfoloških varijanti jedne riječi na jedan reprezentativni oblik. U okviru ovog rada razvijen je postupak za flektivnu i flektivno-derivacijsku normalizaciju tekstova na hrvatskome jeziku temeljen na morfološkom leksikonu. Kako bi se zaobišao problem ograničenosti opsega leksikona te visoke cijene njegove izgradnje, razvijen je postupak za automatsku akviziciju flektivnoga leksikona iz neoznačenog korpusa. Akvizicija i normalizacija temelje se na računalnom generativno-redukcijskome modelu morfologije hrvatskoga jezika kojim je obuhvaćena fleksija i sufiksalna tvorba imenica, glagola i pridjeva. Model je inspiriran konceptima funkcijske programske paradigme, napose funkcijama višega reda kao načinu apstrakcije flektivnih i tvorbenih pravila. Provedeno je iscrpno eksperimentalno vrednovanje kojim je utvrđeno da postupak doseže visoku intrinzičnu kakvoću normalizacije, na flektivnoj razini usporedivu s onom ručno sastavljenog leksikona. Pristup opisan u ovome radu usredotočen je na hrvatski jezik, ali je primjenjiv i na druge, morfološki slične jezike.
Izvorni jezik
Hrvatski
Znanstvena područja
Računarstvo
POVEZANOST RADA
Projekti:
036-1300646-1986 - Otkrivanje znanja u tekstnim podacima (Dalbelo-Bašić, Bojana, MZO ) ( CroRIS)
Ustanove:
Fakultet elektrotehnike i računarstva, Zagreb