Pregled bibliografske jedinice broj: 425108
Postupak automatske restauracije dijakritičkih znakova u tekstovima na hrvatskom jeziku
Postupak automatske restauracije dijakritičkih znakova u tekstovima na hrvatskom jeziku, 2009., diplomski rad, preddiplomski, Fakultet elektrotehnike i računarstva, Zagreb
CROSBI ID: 425108 Za ispravke kontaktirajte CROSBI podršku putem web obrasca
Naslov
Postupak automatske restauracije dijakritičkih znakova u tekstovima na hrvatskom jeziku
(Automatic Diacritics Restoration in Croatian Texts)
Autori
Šantić, Nikola
Vrsta, podvrsta i kategorija rada
Ocjenski radovi, diplomski rad, preddiplomski
Fakultet
Fakultet elektrotehnike i računarstva
Mjesto
Zagreb
Datum
15.07
Godina
2009
Stranica
33
Mentor
Dalbelo Bašić, Bojana
Neposredni voditelj
Šnajder, Jan
Ključne riječi
restauracija dijakritika; jezični model; zaglađivanje
(diacritics restoration; language model; smoothing)
Sažetak
Izostanak dijakritičkih znakova tipičan je problem u tekstovima pisanim na jeziku čiji grafemski skup tradicionalno nije obuhvaćen standardom ASCII. Restauracija dijakritika prvi je korak u obradi takvih tekstova. No, taj zadatak je za ručnu obradu zamoran i dugotrajan pa ga je poželjno automatizirati. Osnovni problem u tom slučaju predstavljaju riječi koje imaju značenje s dijakriticima i bez njih. U okviru ovog rada opisan je restaurator temeljen na rječniku i jezičnom modelu. Višeznačnosti se rješavaju računanjem vjerojatnosti pomoću bigramskog modela s Witten-Bellovom metodom zaglađivanja. Postupak je evaluiran na novinskim člancima, ulomcima knjiga i porukama s internetskih foruma.
Izvorni jezik
Hrvatski
Znanstvena područja
Računarstvo
POVEZANOST RADA
Projekti:
036-1300646-1986 - Otkrivanje znanja u tekstnim podacima (Dalbelo-Bašić, Bojana, MZO ) ( CroRIS)
Ustanove:
Fakultet elektrotehnike i računarstva, Zagreb