Problem stranih imena kod strojne tvorbe govora na hrvatskome (CROSBI ID 43864)
Prilog u knjizi | izvorni znanstveni rad
Podaci o odgovornosti
Dembitz, Šandor ; Pavlek, Jakov ; Stupar, Dejan
hrvatski
Problem stranih imena kod strojne tvorbe govora na hrvatskome
U svakom sustavu za automatsku sintezu govora neke dijelove teksta treba pretprocesirati, tj. normalizirati, da bi postali izgovorljivi. To se općeniti odnosi na brojeve, kratice, simbole različitih jedinica i strana imena. Hrvatski sustav pisanja je u osnovi fonološki, što olakšava preslikavanje grafema u foneme pri strojnoj tvorbi govora, no strana imena u hrvatskome u pravili zadržavaju svoju izvornu grafiju. Stoga njih u sustavu za sintezu govora treba transkribirati prema hrvatskim transkripcijskim pravilima. U radu se, polazeći od usporedne analize dva hrvatska megakorpusa, prvo istražuje udio stranih imena u prosječnom hrvatskom tekstu i dinamika njihova ulaska u hrvatski. Nadalje se opisuje postupak za automatsku identifikaciju jezika, koji je testiran nad uzorkom od preko 30.000 stranih imena i njihovih kosih oblika. Polazeći od rezultata ove klasifikacije, programski se pokušavaju transkribirati imena razvrstana kao njemačka ili talijanska. Točnost transkripcije od preko 90%, zajedno s točnošću razvrstavanja imena od oko 90%, ohrabrujuća je za daljnje napore na razvoju sustava.
sinteza govora, hrvatski jezik, transkripcija stranih imena
nije evidentirano
engleski
Foreign Name Problem in Croatian Speech Synthesis
nije evidentirano
speech synthesis, Croatian language, transcription of foreign names
nije evidentirano
Podaci o prilogu
406-417.
objavljeno
Podaci o knjizi
Proizvodnja i percepcija govora
Mildner, Vesana ; Liker, Marko
Zagreb: FF Press
2010.
978-953-175-351-7