Pregled bibliografske jedinice broj: 476341
Ispravljanje pogrešaka stapanja riječi u tekstovima dobivenim postupkom optičkog raspoznavanja znakova
Ispravljanje pogrešaka stapanja riječi u tekstovima dobivenim postupkom optičkog raspoznavanja znakova, 2010., diplomski rad, preddiplomski, Fakultet elektrotehnike i računarstva, Zagreb
CROSBI ID: 476341 Za ispravke kontaktirajte CROSBI podršku putem web obrasca
Naslov
Ispravljanje pogrešaka stapanja riječi u tekstovima dobivenim postupkom optičkog raspoznavanja znakova
(Correction of Merged Words Errors in Texts Obtained by Optical Character Recognition)
Autori
Mikša, Mladen
Vrsta, podvrsta i kategorija rada
Ocjenski radovi, diplomski rad, preddiplomski
Fakultet
Fakultet elektrotehnike i računarstva
Mjesto
Zagreb
Datum
07.07
Godina
2010
Stranica
34
Mentor
Dalbelo Bašić, Bojana
Neposredni voditelj
Šnajder, Jan
Ključne riječi
obrada prirodnog jezika; OCR; stapanje riječi; trie; jezični model; hrvatski jezik
(natural language processing; OCR; merged words; trie; language model; Croatian language)
Sažetak
Problem ispravljanja pogrešaka OCR-a važan je i težak problem, a kao bitna komponenta problem ističe se pogreška stapanja riječi. Ovim radom predstavljen je automatski postupak rastavljanja riječi u tekstovima dobivenim OCR-om orijentiran na hrvatski jezik. Postupak se temelji na kombinatornom pretraživanju rastavljanja riječi uz korištenje jezičnog modela za pružanje kontekstne informacije. Provedena je eksperimentalna evaluacija postupka rastavljanja kojom je demonstrirana preciznost od 97.28% i odziv od 96.60% za 90.40% točan tekst. Evaluacija sustava pokazala je poboljšanje točnosti teksta od 0.81%, odnosno ostvarenje 30% stope smanjenja pogreške. Tim rezultatom ostvareno je oko 48% uspješnosti ručnog ispravljanja.
Izvorni jezik
Hrvatski
Znanstvena područja
Računarstvo
POVEZANOST RADA
Projekti:
036-1300646-1986 - Otkrivanje znanja u tekstnim podacima (Dalbelo-Bašić, Bojana, MZO ) ( CroRIS)
Ustanove:
Fakultet elektrotehnike i računarstva, Zagreb