Pregled bibliografske jedinice broj: 545081
Podešavanje parametara i statističko strojno prevođenje za hrvatsko-engleski jezični par
Podešavanje parametara i statističko strojno prevođenje za hrvatsko-engleski jezični par, 2013., doktorska disertacija, Filozofski fakultet, Zagreb
CROSBI ID: 545081 Za ispravke kontaktirajte CROSBI podršku putem web obrasca
Naslov
Podešavanje parametara i statističko strojno prevođenje za hrvatsko-engleski jezični par
(Parameter Tuning and Statistical Machine Translation for Croatian-English)
Autori
Brkić, Marija
Vrsta, podvrsta i kategorija rada
Ocjenski radovi, doktorska disertacija
Fakultet
Filozofski fakultet
Mjesto
Zagreb
Datum
02.07
Godina
2013
Stranica
221
Mentor
Seljan, Sanja ; Matetić, Maja
Ključne riječi
statističko strojno prevođenje; jezični model; prijevodni model; hrvatski jezik; pseudolematizacija; podešavanje parametara; optimizacija; evaluacija
(statistical machine translation; language model; translation model; Croatian language; pseudo-lemmatization; parameter tuning; optimization; evaluation)
Sažetak
Termin strojno prevođenje tradicionalni je naziv za računalne sustave koji generiraju prijevode iz jednog prirodnog jezika u drugi. Sustavi za statističko strojno prevođenje primjer su pristupa koji se temelji na podacima, a ideja je potekla iz IBM istraživačkih laboratorija kasnih 80-ih godina. Budući da su postojeći sustavi uglavnom razvijeni za široko rasprostranjene jezike za koje postoje adekvatni jezični resursi, u ovom istraživanju razvijaju se potrebni jezični resursi, a potom i modeli – temeljeni na frazama – za statističko strojno prevođenje s hrvatskog jezika na engleski i obrnuto u pravnoj domeni. Modeli za statističko strojno prevođenje temeljeni na frazama izrađuju se na temelju paralelnog korpusa, tj. teksta na izvornom jeziku i njegovog prijevoda, sravnjenih na rečeničnoj razini, i jednojezičnog korpusa. Termin fraza definira se kao nasumično odabran slijed riječi. Svi izrađeni modeli imaju po četrnaest podmodela, tj. značajki. Prije izrade jednog skupa modela parcijalno je pseudolematiziran hrvatski dio paralelnog korpusa kako bi se proučio utjecaj pseudolematizacije. Pseudolematizacija se definira kao jedna vrsta morfološke analize kojom se površinski oblik riječi pretvara u novi oblik. Izvršena je automatska i ljudska evaluacija prijevoda generiranih na temelju razvijenih modela. U automatskoj evaluaciji korištene su metrike TER, BLEU, NIST i Meteor, a ljudska evaluacija izvršena je prema kriteriju tečnosti i prema kriteriju adekvatnosti. Nadalje, razmotrene su tri suvremene metode koje se koriste u postupku podešavanja parametara sustava – MERT, PRO i MIRA. Parametre čine težine različitih značajki modela, poput težine jezičnog podmodela ili prijevodnog podmodela. Analizirana je vremenska zahtjevnost odabranih metoda, kao i utjecaj samog postupka podešavanja parametara na rezultate prevođenja. Potvrđeno je da su rezultati prevođenja u sustavu bez optimizacije lošiji od onih u optimiziranim sustavima, kao i da je optimizirani sustav bez pseudolematizacije lošiji od optimiziranog sustava sa pseudolematizacijom, a utvrđene su i metode podešavanja parametara kojima sustav postiže najbolje rezultate prevođenja prema odabranim automatskim metrikama. Pri donošenju zaključaka istaknuta je statistička značajnost razlika u rezultatima i u obzir su uzeti važni parametri koji ukazuju na problem lokalnih optimuma, generalizacije i odabira skupa za ispitivanje.
Izvorni jezik
Hrvatski
Znanstvena područja
Informacijske i komunikacijske znanosti
POVEZANOST RADA
Projekti:
130-1300646-0909 - Informacijska tehnologija u prevođenju hrvatskoga i e-učenju jezika (Seljan, Sanja, MZOS ) ( CroRIS)
318-0361935-0852 - Govorne tehnologije (Ipšić, Ivo, MZOS ) ( CroRIS)
Ustanove:
Filozofski fakultet, Zagreb,
Fakultet informatike i digitalnih tehnologija, Rijeka