Pregled bibliografske jedinice broj: 1024104
Utjecaj predobrade ulaznih datoteka na točnost optičkog prepoznavanja znakova
Utjecaj predobrade ulaznih datoteka na točnost optičkog prepoznavanja znakova, 2019., diplomski rad, diplomski, Filozofski fakultet, Zagreb
CROSBI ID: 1024104 Za ispravke kontaktirajte CROSBI podršku putem web obrasca
Naslov
Utjecaj predobrade ulaznih datoteka na točnost optičkog prepoznavanja znakova
(The effects of the image pre-processing on the OCR accuracy)
Autori
Majnarić, Mirela
Vrsta, podvrsta i kategorija rada
Ocjenski radovi, diplomski rad, diplomski
Fakultet
Filozofski fakultet
Mjesto
Zagreb
Datum
25.09
Godina
2019
Stranica
58
Mentor
Stančić, Hrvoje
Ključne riječi
optičko prepoznavanje znakova, OCR, točnost OCR-a, predobrada, razlučivost skeniranja, DPI, slikovni format, TIFF, JPG, kompresija slike, bitna dubina boje, binarizacija, ISRI analitički alati
(optical character recognition, OCR, OCR accuracy, pre-processing, scanning resolution, DPI, image file format, TIFF, JPG, image compression, bit depth, binarization, thresholding, ISRI Analytic Tools)
Sažetak
Digitalizacija tekstualne građe danas je široko zastupljena u različitim domenama ljudskih djelatnosti. Najčešće se provodi skeniranjem ili fotografiranjem građe te upotrebom specijaliziranih programa za optičko prepoznavanje znakova. Na taj se način dobiva elektronička građa koju je moguće pregledavati, pretraživati i uređivati. Točnost dobivenih izlaznih podataka ovisi brojnim faktorima, a neki od njih su kvaliteta izvornika, razlučivost skeniranja, odabrani slikovni format, bitna dubina boje, ali i korišteni OCR softver. I postupak binarizacije, odnosno konverzije višebojne slike u crno-bijelu, utječe na rezultate optičkog prepoznavanja znakova. Binarizacija se obično provodi prilikom skeniranja ili kao jedan od koraka pri optičkom prepoznavanju znakova, a moguće ju je provesti i u nekom od programa za obradu slike prije korištenja OCR softvera. Cilj ovog rada jest istražiti utjecaj predobrade ulaznih datoteka na točnost optičkog prepoznavanja znakova s obzirom na navedene faktore. Točnost tekstova dobivenih primjenom OCR softvera ispitana je ISRI analitičkim alatima te je izražena postotkom ispravno prepoznatih znakova.
Izvorni jezik
Hrvatski
Znanstvena područja
Informacijske i komunikacijske znanosti