Računalni sustav za tvorbu hrvatskoga govora

Pobar, Miran; Martinčić-Ipšić, Sanda; Ipšić, Ivo

Pregled bibliografske jedinice broj: 382956

Računalni sustav za tvorbu hrvatskoga govora

Pobar, Miran; Martinčić-Ipšić, Sanda; Ipšić, Ivo

Računalni sustav za tvorbu hrvatskoga govora // Engineering review : znanstveni časopis za nove tehnologije u strojarstvu, brodogradnji i elektrotehnici, 28 (2008), 2; 31-44 (međunarodna recenzija, članak, znanstveni)

CROSBI ID: 382956 Za ispravke kontaktirajte CROSBI podršku putem web obrasca

Naslov
Računalni sustav za tvorbu hrvatskoga govora
(Text-to-Speech Synthesis: A Prototype System for Croatian Language)

Autori
Pobar, Miran ; Martinčić-Ipšić, Sanda ; Ipšić, Ivo

Izvornik
Engineering review : znanstveni časopis za nove tehnologije u strojarstvu, brodogradnji i elektrotehnici (1330-9587) 28 (2008), 2; 31-44

Vrsta, podvrsta i kategorija rada
Radovi u časopisima, članak, znanstveni

Ključne riječi
odabir difona ; baza difona za hrvatski jezik ; ulančavanje difona ; umjetna tvorba govora ; procjena kvalitete govora
(diphone selection ; Croatian diphone database ; diphone concatenation ; text-to-speech synthesis ; speech quality evaluation)

Sažetak
U radu je prikazan sustav koji omogućuje umjetnu tvorbu hrvatskoga govora prema proizvoljnom ulaznom tekstu. Ulazni tekst, koji mora biti u normaliziranom obliku, sustav pretvara u niz fonema (pretvorba grafem-fonem), a zatim stvara zvučni zapis na temelju fonetskoga niza. Korišteni postupak sinteze temelji se na ulančavanju manjih akustičkih jedinica govora – difona metodom TD-PSOLA. Za potrebe sustava izrađena je i baza difona za hrvatski govor. Predložen je automatski postupak odabira difona iz govornoga korpusa. Kvaliteta ostvarenoga postupka ispitana je provođenjem ankete među ispitanicima. Ispitanici su dali subjektivnu ocjenu kvalitete dobivenoga govora, a time je provjerena i njegova razumljivost. Abstract: This paper presents the development of a Croatian text-to-speech system capable of synthesizing speech from arbitrary text. Input text in normalized form is first transcribed into a phonetic string (grapheme-to-phoneme conversion) and then processed by a TD-PSOLA based synthesizer. A procedure for automatic selection of diphones from a spoken corpus is proposed. A Croatian language diphone database was built for the system. Subjective quality evaluations of the resulting speech were performed, as well as tests for intelligibility.

Izvorni jezik
Hrvatski, engleski

Znanstvena područja
Računarstvo, Informacijske i komunikacijske znanosti

POVEZANOST RADA

Projekti:
009-0361935-0852 - Govorne tehnologije

Ustanove:
Tehnički fakultet, Rijeka,
Fakultet informatike i digitalnih tehnologija, Rijeka

Profili:

Ivo Ipšić (autor)