Pretražite po imenu i prezimenu autora, mentora, urednika, prevoditelja

Napredna pretraga

Pregled bibliografske jedinice broj: 476341

Ispravljanje pogrešaka stapanja riječi u tekstovima dobivenim postupkom optičkog raspoznavanja znakova


Mikša, Mladen
Ispravljanje pogrešaka stapanja riječi u tekstovima dobivenim postupkom optičkog raspoznavanja znakova, 2010., diplomski rad, preddiplomski, Fakultet elektrotehnike i računarstva, Zagreb


CROSBI ID: 476341 Za ispravke kontaktirajte CROSBI podršku putem web obrasca

Naslov
Ispravljanje pogrešaka stapanja riječi u tekstovima dobivenim postupkom optičkog raspoznavanja znakova
(Correction of Merged Words Errors in Texts Obtained by Optical Character Recognition)

Autori
Mikša, Mladen

Vrsta, podvrsta i kategorija rada
Ocjenski radovi, diplomski rad, preddiplomski

Fakultet
Fakultet elektrotehnike i računarstva

Mjesto
Zagreb

Datum
07.07

Godina
2010

Stranica
34

Mentor
Dalbelo Bašić, Bojana

Neposredni voditelj
Šnajder, Jan

Ključne riječi
obrada prirodnog jezika; OCR; stapanje riječi; trie; jezični model; hrvatski jezik
(natural language processing; OCR; merged words; trie; language model; Croatian language)

Sažetak
Problem ispravljanja pogrešaka OCR-a važan je i težak problem, a kao bitna komponenta problem ističe se pogreška stapanja riječi. Ovim radom predstavljen je automatski postupak rastavljanja riječi u tekstovima dobivenim OCR-om orijentiran na hrvatski jezik. Postupak se temelji na kombinatornom pretraživanju rastavljanja riječi uz korištenje jezičnog modela za pružanje kontekstne informacije. Provedena je eksperimentalna evaluacija postupka rastavljanja kojom je demonstrirana preciznost od 97.28% i odziv od 96.60% za 90.40% točan tekst. Evaluacija sustava pokazala je poboljšanje točnosti teksta od 0.81%, odnosno ostvarenje 30% stope smanjenja pogreške. Tim rezultatom ostvareno je oko 48% uspješnosti ručnog ispravljanja.

Izvorni jezik
Hrvatski

Znanstvena područja
Računarstvo



POVEZANOST RADA


Projekti:
036-1300646-1986 - Otkrivanje znanja u tekstnim podacima (Dalbelo-Bašić, Bojana, MZO ) ( CroRIS)

Ustanove:
Fakultet elektrotehnike i računarstva, Zagreb

Profili:

Avatar Url Jan Šnajder (mentor)

Avatar Url Bojana Dalbelo Bašić (mentor)


Citiraj ovu publikaciju:

Mikša, Mladen
Ispravljanje pogrešaka stapanja riječi u tekstovima dobivenim postupkom optičkog raspoznavanja znakova, 2010., diplomski rad, preddiplomski, Fakultet elektrotehnike i računarstva, Zagreb
Mikša, M. (2010) 'Ispravljanje pogrešaka stapanja riječi u tekstovima dobivenim postupkom optičkog raspoznavanja znakova', diplomski rad, preddiplomski, Fakultet elektrotehnike i računarstva, Zagreb.
@phdthesis{phdthesis, author = {Mik\v{s}a, Mladen}, year = {2010}, pages = {34}, keywords = {obrada prirodnog jezika, OCR, stapanje rije\v{c}i, trie, jezi\v{c}ni model, hrvatski jezik}, title = {Ispravljanje pogre\v{s}aka stapanja rije\v{c}i u tekstovima dobivenim postupkom opti\v{c}kog raspoznavanja znakova}, keyword = {obrada prirodnog jezika, OCR, stapanje rije\v{c}i, trie, jezi\v{c}ni model, hrvatski jezik}, publisherplace = {Zagreb} }
@phdthesis{phdthesis, author = {Mik\v{s}a, Mladen}, year = {2010}, pages = {34}, keywords = {natural language processing, OCR, merged words, trie, language model, Croatian language}, title = {Correction of Merged Words Errors in Texts Obtained by Optical Character Recognition}, keyword = {natural language processing, OCR, merged words, trie, language model, Croatian language}, publisherplace = {Zagreb} }




Contrast
Increase Font
Decrease Font
Dyslexic Font