Podešavanje parametara i statističko strojno prevođenje za hrvatsko-engleski jezični par

Brkić, Marija

izvor podataka: crosbi !

Podešavanje parametara i statističko strojno prevođenje za hrvatsko-engleski jezični par (CROSBI ID 368256)

Ocjenski rad | doktorska disertacija

Brkić, Marija Podešavanje parametara i statističko strojno prevođenje za hrvatsko-engleski jezični par / Seljan, Sanja ; Matetić, Maja (mentor); Zagreb, Filozofski fakultet u Zagrebu, . 2013

Podaci o odgovornosti

Autori

Brkić, Marija

Mentori

Seljan, Sanja ; Matetić, Maja

Osnovni podaci na izvornom jeziku
Osnovni podaci na ostalim jezicima

Jezik

hrvatski

Naslov

Podešavanje parametara i statističko strojno prevođenje za hrvatsko-engleski jezični par

Sažetak

Termin strojno prevođenje tradicionalni je naziv za računalne sustave koji generiraju prijevode iz jednog prirodnog jezika u drugi. Sustavi za statističko strojno prevođenje primjer su pristupa koji se temelji na podacima, a ideja je potekla iz IBM istraživačkih laboratorija kasnih 80-ih godina. Budući da su postojeći sustavi uglavnom razvijeni za široko rasprostranjene jezike za koje postoje adekvatni jezični resursi, u ovom istraživanju razvijaju se potrebni jezični resursi, a potom i modeli – temeljeni na frazama – za statističko strojno prevođenje s hrvatskog jezika na engleski i obrnuto u pravnoj domeni. Modeli za statističko strojno prevođenje temeljeni na frazama izrađuju se na temelju paralelnog korpusa, tj. teksta na izvornom jeziku i njegovog prijevoda, sravnjenih na rečeničnoj razini, i jednojezičnog korpusa. Termin fraza definira se kao nasumično odabran slijed riječi. Svi izrađeni modeli imaju po četrnaest podmodela, tj. značajki. Prije izrade jednog skupa modela parcijalno je pseudolematiziran hrvatski dio paralelnog korpusa kako bi se proučio utjecaj pseudolematizacije. Pseudolematizacija se definira kao jedna vrsta morfološke analize kojom se površinski oblik riječi pretvara u novi oblik. Izvršena je automatska i ljudska evaluacija prijevoda generiranih na temelju razvijenih modela. U automatskoj evaluaciji korištene su metrike TER, BLEU, NIST i Meteor, a ljudska evaluacija izvršena je prema kriteriju tečnosti i prema kriteriju adekvatnosti. Nadalje, razmotrene su tri suvremene metode koje se koriste u postupku podešavanja parametara sustava – MERT, PRO i MIRA. Parametre čine težine različitih značajki modela, poput težine jezičnog podmodela ili prijevodnog podmodela. Analizirana je vremenska zahtjevnost odabranih metoda, kao i utjecaj samog postupka podešavanja parametara na rezultate prevođenja. Potvrđeno je da su rezultati prevođenja u sustavu bez optimizacije lošiji od onih u optimiziranim sustavima, kao i da je optimizirani sustav bez pseudolematizacije lošiji od optimiziranog sustava sa pseudolematizacijom, a utvrđene su i metode podešavanja parametara kojima sustav postiže najbolje rezultate prevođenja prema odabranim automatskim metrikama. Pri donošenju zaključaka istaknuta je statistička značajnost razlika u rezultatima i u obzir su uzeti važni parametri koji ukazuju na problem lokalnih optimuma, generalizacije i odabira skupa za ispitivanje.

Ključne riječi

statističko strojno prevođenje; jezični model; prijevodni model; hrvatski jezik; pseudolematizacija; podešavanje parametara; optimizacija; evaluacija

Napomena

nije evidentirano

Jezik

engleski

Naslov

Parameter Tuning and Statistical Machine Translation for Croatian-English

Sažetak

nije evidentirano

Ključne riječi

statistical machine translation; language model; translation model; Croatian language; pseudo-lemmatization; parameter tuning; optimization; evaluation

Napomena

nije evidentirano

Podaci o izdanju

Broj stranica

221

Datum obrane

02.07.2013.

Status objave rada

obranjeno

Podaci o ustanovi koja je dodijelila akademski stupanj

Ustanova / Organizacija

Filozofski fakultet u Zagrebu

Mjesto

Zagreb

Povezanost rada

Povezane osobe

Marija Brkić Bakarić (autor/i)

Sanja Seljan (mentor/i)

Maja Matetić (mentor/i)

Povezane ustanove

Filozofski fakultet u Zagrebu (130) (autorova ustanova)

Sveučilište u Rijeci, Fakultet informatike i digitalnih tehnologija (318) (autorova ustanova)

Povezani projekti

Informacijska tehnologija u prevođenju hrvatskoga i e-učenju jezika (rezultat rada na projektu)

Govorne tehnologije (rezultat rada na projektu)

Područje

Informacijske i komunikacijske znanosti