Napredna pretraga

Pregled bibliografske jedinice broj: 791519

SUSTAV ZA STATISTIČKO STROJNO PREVOĐENJE I RAČUNALNA ADAPTACIJA DOMENE


Dunđer, Ivan
SUSTAV ZA STATISTIČKO STROJNO PREVOĐENJE I RAČUNALNA ADAPTACIJA DOMENE 2015., doktorska disertacija, Filozofski fakultet, Zagreb


Naslov
SUSTAV ZA STATISTIČKO STROJNO PREVOĐENJE I RAČUNALNA ADAPTACIJA DOMENE
(STATISTICAL MACHINE TRANSLATION SYSTEM AND COMPUTATIONAL DOMAIN ADAPTATION)

Autori
Dunđer, Ivan

Vrsta, podvrsta i kategorija rada
Ocjenski radovi, doktorska disertacija

Fakultet
Filozofski fakultet

Mjesto
Zagreb

Datum
17. 07.

Godina
2015

Stranica
262

Mentor
Seljan, Sanja

Ključne riječi
Statističko strojno prevođenje; adaptacija domene; automatska evaluacija kvalitete strojnog prijevoda; ljudska evaluacija; rangiranje sustava za strojno prevođenje; računalna obrada prirodnog jezika; jezične tehnologije; informacijske znanosti
(Statistical machine translation; domain adaptation; automatic evaluation of machine translation quality; human evaluation; machine translation system ranking; computational natural language processing; language technologies; information sciences)

Sažetak
U ovom istraživanju odgovoreno je na pitanje koliko su dobri vlastiti hrvatsko-engleski sustavi za statističko strojno prevođenje razvijeni u sklopu ovog doktorskog rada za područje općenite domene i područje vezano uz računalni softver. Provedena je evaluacija kvalitete strojnih prijevoda pomoću automatskih metrika i ljudske prosudbe. Analizirano je kakvi su novoizgrađeni sustavi u usporedbi s postojećim online servisima za strojno prevođenje. Provedeno je ispitivanje utjecaja relativno malenih podatkovnih skupova korištenih u ovom istraživanju te njihova uloga u izgradnji dobrih sustava za strojno prevođenje za hrvatski i engleski jezik. Istraženo je da li tehnike adaptacije domene mogu poboljšati performanse sustava za hrvatsko-engleski jezični par. U ovoj doktorskoj disertaciji predložene su metode za povećanje kvalitete automatskog strojnog prijevoda pomoću prilagodbe određenih parametara u modelu sustava za statističko strojno prevođenje. Izgrađeno je ukupno osam sustava za statističko strojno prevođenje temeljeno na frazama: četiri za hrvatsko-engleski smjer te četiri za englesko-hrvatski smjer. Sustavi su trenirani za oba smjera, na dvije domene, s paralelnim korpusima različitih veličina i karakteristika, nakon čega je izvršen postupak ugađanja modela. Zatim su istraženi hibridni sustavi, koji kombiniraju značajke iz obje domene te time modificiraju logiku modela statističkog strojnog prevođenja. Utjecaj adaptacije domene na kvalitetu automatskih strojnih prijevoda za hrvatsko-engleski jezični par time je istražen, a nova saznanja su iskorištena pri izgradnji novih sustava. Evaluacija strojnog prijevoda izvršena je i za općenitu domenu i za domenu računalnog softvera. Provedena je automatska i ljudska evaluacija strojnih prijevoda, a generirani strojni prijevodi uspoređeni su s rezultatima prikupljenim za vrijeme primjene postojećih online servisa za strojno prevođenje. Statistička značajnost evaluacijskih rezultata također je analizirana.

Izvorni jezik
Hrvatski

Znanstvena područja
Informacijske i komunikacijske znanosti



POVEZANOST RADA


Ustanove
Filozofski fakultet, Zagreb

Autor s matičnim brojem:
Ivan Dunđer, (345536)