Croatian OCR Error Correction Using Character Confusions and Language Modelling

Marović, Mladen; Mikša, Mladen; Šnajder, Jan; Dalbelo Bašić, Bojana

izvor podataka: crosbi !

Croatian OCR Error Correction Using Character Confusions and Language Modelling (CROSBI ID 566711)

Prilog sa skupa u časopisu | izvorni znanstveni rad | međunarodna recenzija

Marović, Mladen ; Mikša, Mladen ; Šnajder, Jan ; Dalbelo Bašić, Bojana Croatian OCR Error Correction Using Character Confusions and Language Modelling // Central European conference on information and intelligent systems / Auer, Boris ; Bača, Miroslav ; Schatten, Markus (ur.). 2010. str. 281-288

Podaci o odgovornosti

Autori

Marović, Mladen ; Mikša, Mladen ; Šnajder, Jan ; Dalbelo Bašić, Bojana

Osnovni podaci na izvornom jeziku
Osnovni podaci na ostalim jezicima

Jezik

engleski

Naslov

Croatian OCR Error Correction Using Character Confusions and Language Modelling

Sažetak

Manual correction of errors produced by optical character recognition (OCR) is a time-consuming task. This paper presents an automatic post- processing system that utilizes various methods for improving the OCR results of Croatian language texts. The system relies on knowledge of general characteristics of OCR errors, as well as language-specific knowledge. Used methods include character confusions, a character n-gram model, and word-splitting. A statistical language model is used for ranking the generated candidates depending on the sentential context. Experimental evaluation, performed on newspaper texts supplied by the Croatian News Agency, shows an error rate reduction of above 20%. These results amount to about 36% of the performance of manual correction.

Ključne riječi

Natural language processing; OCR; character confusions; character n-grams; word merge errors; language model; Croatian language

Napomena

nije evidentirano

Jezik

nije evidentirano

Naslov

nije evidentirano

Sažetak

nije evidentirano

Ključne riječi

nije evidentirano

Napomena

nije evidentirano

Podaci o prilogu

Stranice rada

281-288.

Godina izdavanja

2010.

Volumen (broj)

nije evidentirano

Status objave rada

objavljeno

Podaci o matičnoj publikaciji

Naslov

Central European conference on information and intelligent systems

Urednici

Auer, Boris ; Bača, Miroslav ; Schatten, Markus

Izdavač

Varaždin: Fakultet organizacije i informatike Sveučilišta u Zagrebu

ISSN

1847-2001

Podaci o skupu

Skup

Central European Conference on Information and Intelligent Systems, CECIIS 2010

Vrsta sudjelovanja

predavanje

Datum održavanja skupa

22.09.2010-24.09.2010

Mjesto održavanja skupa

Varaždin, Hrvatska

Povezanost rada

Povezane osobe

Jan Šnajder (autor/i)

Bojana Dalbelo Bašić (autor/i)

Povezane ustanove

Fakultet elektrotehnike i računarstva (036) (autorova ustanova)

Povezani projekti

Otkrivanje znanja u tekstnim podacima (rezultat rada na projektu)

Područje

Računarstvo

Poveznice

ceciis.foi.hr