Pretražite po imenu i prezimenu autora, mentora, urednika, prevoditelja

Napredna pretraga

Pregled bibliografske jedinice broj: 574121

Normalizacija brojeva i datuma u postupcima umjetne tvorbe hrvatskoga govora


Beliga, Slobodan
Normalizacija brojeva i datuma u postupcima umjetne tvorbe hrvatskoga govora, 2010., diplomski rad, preddiplomski, Odjel za informatiku, Rijeka


CROSBI ID: 574121 Za ispravke kontaktirajte CROSBI podršku putem web obrasca

Naslov
Normalizacija brojeva i datuma u postupcima umjetne tvorbe hrvatskoga govora
(Text Normalization in Croatian TTS System)

Autori
Beliga, Slobodan

Vrsta, podvrsta i kategorija rada
Ocjenski radovi, diplomski rad, preddiplomski

Fakultet
Odjel za informatiku

Mjesto
Rijeka

Datum
25.09

Godina
2010

Stranica
57

Mentor
Martinčić-Ipšić, Sanda

Ključne riječi
normalizacija teksta; sustav za sintezu goovora
(text normalization; text-to-speech; speech synthesis system)

Sažetak
U ovome radu opisan je postupak normalizacije teksta za tvorbu hrvatskoga govora. U okviru normalizacije teksta postoje specifičnosti koje iznimno otežavaju proces normalizacije. Razlog tome je egzistencija različitih uzoraka koje je potrebno normalizirati, a realizacija zahtjeva mnogo programerskog truda. Nadalje, normalizacija teksta iznimno je složena sama po sebi bez obzira vodimo li kod raspisivanja brojeva, datuma, kratica, raznih simbola i sl. računa i o određivanju roda, broja i padeža riječi. Problem normalizacije očituje se i u tome što tekstovi koji ulaze u proces normalizacije nisu u potpunosti pisani prema ortografskim načelima hrvatskoga književnoga jezika pa sustavi za provođenje normalizacije moraju posjedovati određenu dozu tolerancije, u provođenju svojih postupaka, koja sustav čini složenijim. Pogodnost koja se očituje kao dobra strana normalizacije je to što ona rješava i neke slučajeve koji kompliciraju postupke fonetske transkripcije. Provođenjem normalizacije oni nestaju, a postupak transkripcije znatno je pojednostavljen. Kvaliteta sintetiziranog govora to je bolja i potpunija što je više uzoraka reducirano u postupku pred- procesiranja teksta uslijed analize teksta u modulu za računalnu analizu prirodnoga jezika - gdje se normalizacija zapravo primjenjuje. Programsko rješenje za provođenje normalizacije i grafemsko fonemske transkripcije u postupcima umjetne tvorbe hrvatskoga govora ponuđeno je u obliku skripte, pisane u Perlu. U skriptu su ugrađeni algoritmi za detekciju uzoraka koje je potrebno normalizirati (redni i glavni brojevi te datumi brojevnog i kombiniranog formata dugog i kratkog oblika) te algoritmi za redukciju tako identificiranih uzoraka. Redukcija se vrši provedbom algoritama za normalizaciju rednih i glavnih brojeva te datuma, a u konačnici skripta kao izlaz sustava daje generirani fonetski rječnik na temelju teksta danog na ulazu.

Izvorni jezik
Hrvatski

Znanstvena područja
Računarstvo, Informacijske i komunikacijske znanosti



POVEZANOST RADA


Projekti:
318-0361935-0852 - Govorne tehnologije (Ipšić, Ivo, MZOS ) ( CroRIS)

Ustanove:
Fakultet informatike i digitalnih tehnologija, Rijeka


Citiraj ovu publikaciju:

Beliga, Slobodan
Normalizacija brojeva i datuma u postupcima umjetne tvorbe hrvatskoga govora, 2010., diplomski rad, preddiplomski, Odjel za informatiku, Rijeka
Beliga, S. (2010) 'Normalizacija brojeva i datuma u postupcima umjetne tvorbe hrvatskoga govora', diplomski rad, preddiplomski, Odjel za informatiku, Rijeka.
@phdthesis{phdthesis, author = {Beliga, Slobodan}, year = {2010}, pages = {57}, keywords = {normalizacija teksta, sustav za sintezu goovora}, title = {Normalizacija brojeva i datuma u postupcima umjetne tvorbe hrvatskoga govora}, keyword = {normalizacija teksta, sustav za sintezu goovora}, publisherplace = {Rijeka} }
@phdthesis{phdthesis, author = {Beliga, Slobodan}, year = {2010}, pages = {57}, keywords = {text normalization, text-to-speech, speech synthesis system}, title = {Text Normalization in Croatian TTS System}, keyword = {text normalization, text-to-speech, speech synthesis system}, publisherplace = {Rijeka} }




Contrast
Increase Font
Decrease Font
Dyslexic Font