Podešavanje parametara i statističko strojno prevođenje za hrvatsko-engleski jezični par (CROSBI ID 368256)
Ocjenski rad | doktorska disertacija
Podaci o odgovornosti
Brkić, Marija
Seljan, Sanja ; Matetić, Maja
hrvatski
Podešavanje parametara i statističko strojno prevođenje za hrvatsko-engleski jezični par
Termin strojno prevođenje tradicionalni je naziv za računalne sustave koji generiraju prijevode iz jednog prirodnog jezika u drugi. Sustavi za statističko strojno prevođenje primjer su pristupa koji se temelji na podacima, a ideja je potekla iz IBM istraživačkih laboratorija kasnih 80-ih godina. Budući da su postojeći sustavi uglavnom razvijeni za široko rasprostranjene jezike za koje postoje adekvatni jezični resursi, u ovom istraživanju razvijaju se potrebni jezični resursi, a potom i modeli – temeljeni na frazama – za statističko strojno prevođenje s hrvatskog jezika na engleski i obrnuto u pravnoj domeni. Modeli za statističko strojno prevođenje temeljeni na frazama izrađuju se na temelju paralelnog korpusa, tj. teksta na izvornom jeziku i njegovog prijevoda, sravnjenih na rečeničnoj razini, i jednojezičnog korpusa. Termin fraza definira se kao nasumično odabran slijed riječi. Svi izrađeni modeli imaju po četrnaest podmodela, tj. značajki. Prije izrade jednog skupa modela parcijalno je pseudolematiziran hrvatski dio paralelnog korpusa kako bi se proučio utjecaj pseudolematizacije. Pseudolematizacija se definira kao jedna vrsta morfološke analize kojom se površinski oblik riječi pretvara u novi oblik. Izvršena je automatska i ljudska evaluacija prijevoda generiranih na temelju razvijenih modela. U automatskoj evaluaciji korištene su metrike TER, BLEU, NIST i Meteor, a ljudska evaluacija izvršena je prema kriteriju tečnosti i prema kriteriju adekvatnosti. Nadalje, razmotrene su tri suvremene metode koje se koriste u postupku podešavanja parametara sustava – MERT, PRO i MIRA. Parametre čine težine različitih značajki modela, poput težine jezičnog podmodela ili prijevodnog podmodela. Analizirana je vremenska zahtjevnost odabranih metoda, kao i utjecaj samog postupka podešavanja parametara na rezultate prevođenja. Potvrđeno je da su rezultati prevođenja u sustavu bez optimizacije lošiji od onih u optimiziranim sustavima, kao i da je optimizirani sustav bez pseudolematizacije lošiji od optimiziranog sustava sa pseudolematizacijom, a utvrđene su i metode podešavanja parametara kojima sustav postiže najbolje rezultate prevođenja prema odabranim automatskim metrikama. Pri donošenju zaključaka istaknuta je statistička značajnost razlika u rezultatima i u obzir su uzeti važni parametri koji ukazuju na problem lokalnih optimuma, generalizacije i odabira skupa za ispitivanje.
statističko strojno prevođenje; jezični model; prijevodni model; hrvatski jezik; pseudolematizacija; podešavanje parametara; optimizacija; evaluacija
nije evidentirano
engleski
Parameter Tuning and Statistical Machine Translation for Croatian-English
nije evidentirano
statistical machine translation; language model; translation model; Croatian language; pseudo-lemmatization; parameter tuning; optimization; evaluation
nije evidentirano
Podaci o izdanju
221
02.07.2013.
obranjeno
Podaci o ustanovi koja je dodijelila akademski stupanj
Filozofski fakultet u Zagrebu
Zagreb