Normalization of Non-Standard Words in Croatian Texts

Beliga, Slobodan; Pobar, Miran; Martinčić-Ipšić, Sanda

izvor podataka: crosbi !

Normalization of Non-Standard Words in Croatian Texts (CROSBI ID 592844)

Prilog sa skupa u zborniku | izvorni znanstveni rad | međunarodna recenzija

Beliga, Slobodan ; Pobar, Miran ; Martinčić-Ipšić, Sanda Normalization of Non-Standard Words in Croatian Texts // Text, Speech and Dialogue extension to Lecture Notes in Artificial Intelligence LNAI6836 / Hebernal, Ivan ; Matoušek, Vaclav (ur.). Plzeň: University of West Bohemia, 2011. str. 1-8

Podaci o odgovornosti

Autori

Beliga, Slobodan ; Pobar, Miran ; Martinčić-Ipšić, Sanda

Osnovni podaci na izvornom jeziku
Osnovni podaci na ostalim jezicima

Jezik

engleski

Naslov

Normalization of Non-Standard Words in Croatian Texts

Sažetak

This paper presents text normalization which is an integral part of any text-to-speech synthesis system. Text normalization is a set of methods with a task to write non-standard words, like numbers, dates, times, abbreviations, acronyms and the most common symbols, in their full expanded form. The whole taxonomy for classification of non-standard words in Croatian language together with rule-based normalization methods combined with a lookup dictionary are proposed. Achieved token rate for normalization of Croatian texts is 95%, where 80% of expanded words are in correct morphological form.

Ključne riječi

text normalization; non-standard words; text-to-speech

Napomena

Student Section

Jezik

nije evidentirano

Naslov

nije evidentirano

Sažetak

nije evidentirano

Ključne riječi

nije evidentirano

Napomena

nije evidentirano

Podaci o prilogu

Stranice rada

1-8.

Godina izdavanja

2011.

Status objave rada

objavljeno

Podaci o matičnoj publikaciji

Naslov

Text, Speech and Dialogue extension to Lecture Notes in Artificial Intelligence LNAI6836

Urednici

Hebernal, Ivan ; Matoušek, Vaclav

Izdavač

Plzeň: University of West Bohemia

ISBN

987-80-261-0069-0

Podaci o skupu

Skup

Text, Speech and Dialogue

Vrsta sudjelovanja

predavanje

Datum održavanja skupa

01.09.2011-05.09.2011

Mjesto održavanja skupa

Plzeň, Češka Republika

Povezanost rada

Povezane osobe

Miran Pobar (autor/i)

Slobodan Beliga (autor/i)

Sanda Martinčić-Ipšić (autor/i)

Povezane ustanove

Sveučilište u Rijeci, Fakultet informatike i digitalnih tehnologija (318) (autorova ustanova)

Povezani projekti

Govorne tehnologije (rezultat rada na projektu)

Područje

Računarstvo, Informacijske i komunikacijske znanosti