Pregled bibliografske jedinice broj: 425107
Ispravljanje pogrešaka u tekstovima nastalim postupkom optičkog raspoznavanja znakova
Ispravljanje pogrešaka u tekstovima nastalim postupkom optičkog raspoznavanja znakova, 2009., diplomski rad, preddiplomski, Fakultet elektrotehnike i računarstva, Zagreb
CROSBI ID: 425107 Za ispravke kontaktirajte CROSBI podršku putem web obrasca
Naslov
Ispravljanje pogrešaka u tekstovima nastalim postupkom optičkog raspoznavanja znakova
(OCR Error Correction)
Autori
Lajšić, Ognjen
Vrsta, podvrsta i kategorija rada
Ocjenski radovi, diplomski rad, preddiplomski
Fakultet
Fakultet elektrotehnike i računarstva
Mjesto
Zagreb
Datum
15.07
Godina
2009
Stranica
31
Mentor
Dalbelo Bašić, Bojana
Neposredni voditelj
Šnajder, Jan
Ključne riječi
optičko raspoznavanje znakova; OCR; ispravljanje pogrešaka; OCR postprocesiranje; znakovni n grami; supstitucijska pravila; jezični model
(optical character recognition; OCR; error correction; OCR postprocessing; letter n-grams; character confusions; language model)
Sažetak
U tekstovima nastalim postupkom optičkog raspoznavanja znakova (engl. OCR) često su prisutne pogreške uzrokovane netočnim raspoznavanjem pojedinačnih znakova ili slijeda znakova. Pogreške su specifične te ih u pravilu nije moguće riješiti uobičajenim alatima za provjeru pravopisa, a onemogućavaju daljnju kvalitetnu strojnu obradu tekstova. U okviru rada napravljena je analiza i tipologija pogrešaka te su opisani postupci automatskog ispravljanja pogrešaka u takvim tekstovima. Na temelju opisanih postupaka razvijena je programska implementacija koja uključuje skup unaprijed definiranih supstitucijskih pravila, popis oblika riječi te vjerojatnosni jezični model.
Izvorni jezik
Hrvatski
Znanstvena područja
Računarstvo
POVEZANOST RADA
Projekti:
036-1300646-1986 - Otkrivanje znanja u tekstnim podacima (Dalbelo-Bašić, Bojana, MZO ) ( CroRIS)
Ustanove:
Fakultet elektrotehnike i računarstva, Zagreb