Postupak automatske restauracije dijakritičkih znakova u tekstovima na hrvatskom jeziku (CROSBI ID 355211)
Ocjenski rad | sveučilišni preddiplomski završni rad
Podaci o odgovornosti
Šantić, Nikola
Dalbelo Bašić, Bojana
Šnajder, Jan
hrvatski
Postupak automatske restauracije dijakritičkih znakova u tekstovima na hrvatskom jeziku
Izostanak dijakritičkih znakova tipičan je problem u tekstovima pisanim na jeziku čiji grafemski skup tradicionalno nije obuhvaćen standardom ASCII. Restauracija dijakritika prvi je korak u obradi takvih tekstova. No, taj zadatak je za ručnu obradu zamoran i dugotrajan pa ga je poželjno automatizirati. Osnovni problem u tom slučaju predstavljaju riječi koje imaju značenje s dijakriticima i bez njih. U okviru ovog rada opisan je restaurator temeljen na rječniku i jezičnom modelu. Višeznačnosti se rješavaju računanjem vjerojatnosti pomoću bigramskog modela s Witten-Bellovom metodom zaglađivanja. Postupak je evaluiran na novinskim člancima, ulomcima knjiga i porukama s internetskih foruma.
restauracija dijakritika; jezični model; zaglađivanje
nije evidentirano
engleski
Automatic Diacritics Restoration in Croatian Texts
nije evidentirano
diacritics restoration; language model; smoothing
nije evidentirano
Podaci o izdanju
33
15.07.2009.
obranjeno
Podaci o ustanovi koja je dodijelila akademski stupanj
Fakultet elektrotehnike i računarstva
Zagreb