CroRIS - CROSBI

izvor podataka: crosbi !

Normalizacija brojeva i datuma u postupcima umjetne tvorbe hrvatskoga govora (CROSBI ID 371801)

Ocjenski rad | sveučilišni preddiplomski završni rad

Beliga, Slobodan Normalizacija brojeva i datuma u postupcima umjetne tvorbe hrvatskoga govora / Martinčić-Ipšić, Sanda (mentor); Rijeka, . 2010

Podaci o odgovornosti

Autori

Beliga, Slobodan

Mentori

Martinčić-Ipšić, Sanda

Osnovni podaci na izvornom jeziku
Osnovni podaci na ostalim jezicima

Jezik

hrvatski

Naslov

Normalizacija brojeva i datuma u postupcima umjetne tvorbe hrvatskoga govora

Sažetak

U ovome radu opisan je postupak normalizacije teksta za tvorbu hrvatskoga govora. U okviru normalizacije teksta postoje specifičnosti koje iznimno otežavaju proces normalizacije. Razlog tome je egzistencija različitih uzoraka koje je potrebno normalizirati, a realizacija zahtjeva mnogo programerskog truda. Nadalje, normalizacija teksta iznimno je složena sama po sebi bez obzira vodimo li kod raspisivanja brojeva, datuma, kratica, raznih simbola i sl. računa i o određivanju roda, broja i padeža riječi. Problem normalizacije očituje se i u tome što tekstovi koji ulaze u proces normalizacije nisu u potpunosti pisani prema ortografskim načelima hrvatskoga književnoga jezika pa sustavi za provođenje normalizacije moraju posjedovati određenu dozu tolerancije, u provođenju svojih postupaka, koja sustav čini složenijim. Pogodnost koja se očituje kao dobra strana normalizacije je to što ona rješava i neke slučajeve koji kompliciraju postupke fonetske transkripcije. Provođenjem normalizacije oni nestaju, a postupak transkripcije znatno je pojednostavljen. Kvaliteta sintetiziranog govora to je bolja i potpunija što je više uzoraka reducirano u postupku pred- procesiranja teksta uslijed analize teksta u modulu za računalnu analizu prirodnoga jezika - gdje se normalizacija zapravo primjenjuje. Programsko rješenje za provođenje normalizacije i grafemsko fonemske transkripcije u postupcima umjetne tvorbe hrvatskoga govora ponuđeno je u obliku skripte, pisane u Perlu. U skriptu su ugrađeni algoritmi za detekciju uzoraka koje je potrebno normalizirati (redni i glavni brojevi te datumi brojevnog i kombiniranog formata dugog i kratkog oblika) te algoritmi za redukciju tako identificiranih uzoraka. Redukcija se vrši provedbom algoritama za normalizaciju rednih i glavnih brojeva te datuma, a u konačnici skripta kao izlaz sustava daje generirani fonetski rječnik na temelju teksta danog na ulazu.

Ključne riječi

normalizacija teksta; sustav za sintezu goovora

Napomena

nije evidentirano

Jezik

engleski

Naslov

Text Normalization in Croatian TTS System

Sažetak

nije evidentirano

Ključne riječi

text normalization; text-to-speech; speech synthesis system

Napomena

nije evidentirano

Podaci o izdanju

Broj stranica

Datum obrane

25.09.2010.

Status objave rada

obranjeno

Podaci o ustanovi koja je dodijelila akademski stupanj

Mjesto

Rijeka

Povezanost rada

Povezane osobe

Slobodan Beliga (autor/i)

Sanda Martinčić-Ipšić (mentor/i)

Povezane ustanove

Sveučilište u Rijeci, Fakultet informatike i digitalnih tehnologija (318) (autorova ustanova)

Povezani projekti

Govorne tehnologije (rezultat rada na projektu)

Područje

Računarstvo, Informacijske i komunikacijske znanosti