Nalazite se na CroRIS probnoj okolini. Ovdje evidentirani podaci neće biti pohranjeni u Informacijskom sustavu znanosti RH. Ako je ovo greška, CroRIS produkcijskoj okolini moguće je pristupi putem poveznice www.croris.hr
izvor podataka: crosbi !

Postupak automatske restauracije dijakritičkih znakova u tekstovima na hrvatskom jeziku (CROSBI ID 355211)

Ocjenski rad | sveučilišni preddiplomski završni rad

Šantić, Nikola Postupak automatske restauracije dijakritičkih znakova u tekstovima na hrvatskom jeziku / Dalbelo Bašić, Bojana (mentor); Šnajder, Jan (neposredni voditelj). Zagreb, Fakultet elektrotehnike i računarstva, . 2009

Podaci o odgovornosti

Šantić, Nikola

Dalbelo Bašić, Bojana

Šnajder, Jan

hrvatski

Postupak automatske restauracije dijakritičkih znakova u tekstovima na hrvatskom jeziku

Izostanak dijakritičkih znakova tipičan je problem u tekstovima pisanim na jeziku čiji grafemski skup tradicionalno nije obuhvaćen standardom ASCII. Restauracija dijakritika prvi je korak u obradi takvih tekstova. No, taj zadatak je za ručnu obradu zamoran i dugotrajan pa ga je poželjno automatizirati. Osnovni problem u tom slučaju predstavljaju riječi koje imaju značenje s dijakriticima i bez njih. U okviru ovog rada opisan je restaurator temeljen na rječniku i jezičnom modelu. Višeznačnosti se rješavaju računanjem vjerojatnosti pomoću bigramskog modela s Witten-Bellovom metodom zaglađivanja. Postupak je evaluiran na novinskim člancima, ulomcima knjiga i porukama s internetskih foruma.

restauracija dijakritika; jezični model; zaglađivanje

nije evidentirano

engleski

Automatic Diacritics Restoration in Croatian Texts

nije evidentirano

diacritics restoration; language model; smoothing

nije evidentirano

Podaci o izdanju

33

15.07.2009.

obranjeno

Podaci o ustanovi koja je dodijelila akademski stupanj

Fakultet elektrotehnike i računarstva

Zagreb

Povezanost rada

Računarstvo