Pretražite po imenu i prezimenu autora, mentora, urednika, prevoditelja

Napredna pretraga

Pregled bibliografske jedinice broj: 425108

Postupak automatske restauracije dijakritičkih znakova u tekstovima na hrvatskom jeziku


Šantić, Nikola
Postupak automatske restauracije dijakritičkih znakova u tekstovima na hrvatskom jeziku, 2009., diplomski rad, preddiplomski, Fakultet elektrotehnike i računarstva, Zagreb


CROSBI ID: 425108 Za ispravke kontaktirajte CROSBI podršku putem web obrasca

Naslov
Postupak automatske restauracije dijakritičkih znakova u tekstovima na hrvatskom jeziku
(Automatic Diacritics Restoration in Croatian Texts)

Autori
Šantić, Nikola

Vrsta, podvrsta i kategorija rada
Ocjenski radovi, diplomski rad, preddiplomski

Fakultet
Fakultet elektrotehnike i računarstva

Mjesto
Zagreb

Datum
15.07

Godina
2009

Stranica
33

Mentor
Dalbelo Bašić, Bojana

Neposredni voditelj
Šnajder, Jan

Ključne riječi
restauracija dijakritika; jezični model; zaglađivanje
(diacritics restoration; language model; smoothing)

Sažetak
Izostanak dijakritičkih znakova tipičan je problem u tekstovima pisanim na jeziku čiji grafemski skup tradicionalno nije obuhvaćen standardom ASCII. Restauracija dijakritika prvi je korak u obradi takvih tekstova. No, taj zadatak je za ručnu obradu zamoran i dugotrajan pa ga je poželjno automatizirati. Osnovni problem u tom slučaju predstavljaju riječi koje imaju značenje s dijakriticima i bez njih. U okviru ovog rada opisan je restaurator temeljen na rječniku i jezičnom modelu. Višeznačnosti se rješavaju računanjem vjerojatnosti pomoću bigramskog modela s Witten-Bellovom metodom zaglađivanja. Postupak je evaluiran na novinskim člancima, ulomcima knjiga i porukama s internetskih foruma.

Izvorni jezik
Hrvatski

Znanstvena područja
Računarstvo



POVEZANOST RADA


Projekti:
036-1300646-1986 - Otkrivanje znanja u tekstnim podacima (Dalbelo-Bašić, Bojana, MZO ) ( CroRIS)

Ustanove:
Fakultet elektrotehnike i računarstva, Zagreb

Profili:

Avatar Url Jan Šnajder (mentor)

Avatar Url Bojana Dalbelo Bašić (mentor)


Citiraj ovu publikaciju:

Šantić, Nikola
Postupak automatske restauracije dijakritičkih znakova u tekstovima na hrvatskom jeziku, 2009., diplomski rad, preddiplomski, Fakultet elektrotehnike i računarstva, Zagreb
Šantić, N. (2009) 'Postupak automatske restauracije dijakritičkih znakova u tekstovima na hrvatskom jeziku', diplomski rad, preddiplomski, Fakultet elektrotehnike i računarstva, Zagreb.
@phdthesis{phdthesis, author = {\v{S}anti\'{c}, Nikola}, year = {2009}, pages = {33}, keywords = {restauracija dijakritika, jezi\v{c}ni model, zagla\djivanje}, title = {Postupak automatske restauracije dijakriti\v{c}kih znakova u tekstovima na hrvatskom jeziku}, keyword = {restauracija dijakritika, jezi\v{c}ni model, zagla\djivanje}, publisherplace = {Zagreb} }
@phdthesis{phdthesis, author = {\v{S}anti\'{c}, Nikola}, year = {2009}, pages = {33}, keywords = {diacritics restoration, language model, smoothing}, title = {Automatic Diacritics Restoration in Croatian Texts}, keyword = {diacritics restoration, language model, smoothing}, publisherplace = {Zagreb} }




Contrast
Increase Font
Decrease Font
Dyslexic Font