Napredna pretraga

Pregled bibliografske jedinice broj: 545081

Podešavanje parametara i statističko strojno prevođenje za hrvatsko-engleski jezični par


Brkić, Marija
Podešavanje parametara i statističko strojno prevođenje za hrvatsko-engleski jezični par 2013., doktorska disertacija, Filozofski fakultet, Zagreb


Naslov
Podešavanje parametara i statističko strojno prevođenje za hrvatsko-engleski jezični par
(Parameter Tuning and Statistical Machine Translation for Croatian-English)

Autori
Brkić, Marija

Vrsta, podvrsta i kategorija rada
Ocjenski radovi, doktorska disertacija

Fakultet
Filozofski fakultet

Mjesto
Zagreb

Datum
02.07.2013.

Godina
2013

Stranica
221

Mentor
Seljan, Sanja ; Matetić, Maja

Ključne riječi
Statističko strojno prevođenje; jezični model; prijevodni model; hrvatski jezik; pseudolematizacija; podešavanje parametara; optimizacija; evaluacija
(Statistical machine translation; language model; translation model; Croatian language; pseudo-lemmatization; parameter tuning; optimization; evaluation)

Sažetak
Termin strojno prevođenje tradicionalni je naziv za računalne sustave koji generiraju prijevode iz jednog prirodnog jezika u drugi. Sustavi za statističko strojno prevođenje primjer su pristupa koji se temelji na podacima, a ideja je potekla iz IBM istraživačkih laboratorija kasnih 80-ih godina. Budući da su postojeći sustavi uglavnom razvijeni za široko rasprostranjene jezike za koje postoje adekvatni jezični resursi, u ovom istraživanju razvijaju se potrebni jezični resursi, a potom i modeli – temeljeni na frazama – za statističko strojno prevođenje s hrvatskog jezika na engleski i obrnuto u pravnoj domeni. Modeli za statističko strojno prevođenje temeljeni na frazama izrađuju se na temelju paralelnog korpusa, tj. teksta na izvornom jeziku i njegovog prijevoda, sravnjenih na rečeničnoj razini, i jednojezičnog korpusa. Termin fraza definira se kao nasumično odabran slijed riječi. Svi izrađeni modeli imaju po četrnaest podmodela, tj. značajki. Prije izrade jednog skupa modela parcijalno je pseudolematiziran hrvatski dio paralelnog korpusa kako bi se proučio utjecaj pseudolematizacije. Pseudolematizacija se definira kao jedna vrsta morfološke analize kojom se površinski oblik riječi pretvara u novi oblik. Izvršena je automatska i ljudska evaluacija prijevoda generiranih na temelju razvijenih modela. U automatskoj evaluaciji korištene su metrike TER, BLEU, NIST i Meteor, a ljudska evaluacija izvršena je prema kriteriju tečnosti i prema kriteriju adekvatnosti. Nadalje, razmotrene su tri suvremene metode koje se koriste u postupku podešavanja parametara sustava – MERT, PRO i MIRA. Parametre čine težine različitih značajki modela, poput težine jezičnog podmodela ili prijevodnog podmodela. Analizirana je vremenska zahtjevnost odabranih metoda, kao i utjecaj samog postupka podešavanja parametara na rezultate prevođenja. Potvrđeno je da su rezultati prevođenja u sustavu bez optimizacije lošiji od onih u optimiziranim sustavima, kao i da je optimizirani sustav bez pseudolematizacije lošiji od optimiziranog sustava sa pseudolematizacijom, a utvrđene su i metode podešavanja parametara kojima sustav postiže najbolje rezultate prevođenja prema odabranim automatskim metrikama. Pri donošenju zaključaka istaknuta je statistička značajnost razlika u rezultatima i u obzir su uzeti važni parametri koji ukazuju na problem lokalnih optimuma, generalizacije i odabira skupa za ispitivanje.

Izvorni jezik
Hrvatski

Znanstvena područja
Informacijske i komunikacijske znanosti



POVEZANOST RADA


Projekt / tema
130-1300646-0909 - Informacijska tehnologija u prevođenju hrvatskoga i e-učenju jezika (Sanja Seljan, )
318-0361935-0852 - Govorne tehnologije (Ivo Ipšić, )

Ustanove
Filozofski fakultet, Zagreb,
Sveučilište u Rijeci - Odjel za informatiku

Autor s matičnim brojem:
Marija Brkić Bakarić, (293283)