Evaluacija automatskog ekstrahiranja slovensko- hrvatskih prijevodnih kandidata iz paralelnog korpusa

Tušek, Jelena; Ljubešić, Nikola

Pregled bibliografske jedinice broj: 701259

Evaluacija automatskog ekstrahiranja slovensko- hrvatskih prijevodnih kandidata iz paralelnog korpusa

Tušek, Jelena; Ljubešić, Nikola

Evaluacija automatskog ekstrahiranja slovensko- hrvatskih prijevodnih kandidata iz paralelnog korpusa // Jezik kao informacija
Zagreb, Hrvatska, 2012. (predavanje, nije recenziran, sažetak, ostalo)

CROSBI ID: 701259 Za ispravke kontaktirajte CROSBI podršku putem web obrasca

Naslov
Evaluacija automatskog ekstrahiranja slovensko- hrvatskih prijevodnih kandidata iz paralelnog korpusa
(An evaluation of automatic extraction of Slovenian-Croatian translation candidates from comparable corpora)

Autori
Tušek, Jelena ; Ljubešić, Nikola

Vrsta, podvrsta i kategorija rada
Sažeci sa skupova, sažetak, ostalo

Skup
Jezik kao informacija

Mjesto i datum
Zagreb, Hrvatska, 11.05.2012. - 13.05.2012

Vrsta sudjelovanja
Predavanje

Vrsta recenzije
Nije recenziran

Ključne riječi
usporedivi korpusi; leksički resursi; automatsko ekstrahiranje
(automatic extraction; comparable corpora; lexical resources)

Sažetak
U radu su predstavljene mogućnosti izrade slovensko-hrvatskog dvojezičnog leksičkog resursa korištenjem metode automatskog prikupljanja slovensko-hrvatskih prijevodnih ekvivalenata iz usporedivog slovensko-hrvatskog korpusa. Prikupljanje prijevodnih kandidata temelji se na tzv. distribucijskoj pretpostavci po kojoj riječi sličnog značenja imaju i slične kontekste. Ta se pretpostavka može proširiti i na dva jezika pri čemu se za riječ iz ishodišnog jezika kao moguće prijevodne ekvivalente može smatrati one riječi u ciljnom jeziku koje imaju najsličniji kontekst riječi u ishodišnom jeziku. Pretpostavka primjenjivosti ove metode jest postojanje početnog dvojezičnog leksikona kojime se prevode konteksti ciljnog jezika nepoznatih leksema. Time se postiže preduvjet za mogućnost usporedbe konteksta ishodišnog i ciljnog jezika. Dodatno, kako se radi o hrvatskom i slovenskom koji su vrlo bliski jezici, u ovom se istraživanju kao “početni leksikon” koristi postojeće leksičko preklapanje između tih jezika. Popis slovenskih leksema korištenih u istraživanju je 6, 000 najčešćih imenica iz slovenskog internetskog korpusa slWaC. Svakoj od odabranih imenica pridruženo je 10 prijevodnih kandidata iz hrvatskog internetskog korpusa hrWaC s najsličnijim kontekstima. U prvoj su fazi evaluacije studenti diplomskog studija slovenskog jezika označavali točnost dobivenih 10 kontekstualno najsličnijih prijevodnih kandidata. Prijevodne su kandidate označavali bilo kao prijevodne ekvivalente, bilo kao riječi koje su semantički vrlo bliske slovenskom leksemu, bez konzultiranja s postojećim dvojezičnim slovensko-hrvatskim rječnicima. Pri početnom označavanju svaki je prijevodni kandidat označen od strane dvaju studenata što omogućuje mjerenje dogovora među označivačima te lakšu kontrolu rezultata. Dodatno su dio rezultata njihovog označavanja ručno provjerili studenti završnog semestra studija koristeći se raspoloživim rječnicima. Svim provedenim analizama dobiven je podatak o točnosti označavanja od strane studenata, te točnost metode za automatsko prikupljanje prijevodnih kandidata iz usporedivog korpusa. Rad će prikazati rezultate ručne evaluacije rezultata dobivenih metodom automatskog prikupljanja, postotak točnih prijevodnih ekvivalenata koji se pojavljuju na prvom mjestu popisa kandidata, broj prijevodnih ekvivalenata među ostalim kandidatima, te koliko njih se ne može smatrati prijevodnim ekvivalentima, već semantički povezanima s izvornom riječi. Time će se pokazati mogućnost izrade dvojezičnih leksičkih resursa metodom automatskog prikupljanja te testirati razlike u označavanju prijevodnih kandidata od strane označivača u svrhu analiziranja semantičkih podudarnosti i razlika među sličnopisnicama između bliskosrodnih jezika kakvi su slovenski i hrvatski.

Izvorni jezik
Engleski

Znanstvena područja
Matematika

POVEZANOST RADA

Ustanove:
Filozofski fakultet, Zagreb

Profili:

Jelena Tušek (autor)

CROSBI Hrvatska znanstvena bibliografija

Pregled bibliografske jedinice broj: 701259

Evaluacija automatskog ekstrahiranja slovensko- hrvatskih prijevodnih kandidata iz paralelnog korpusa

Citiraj ovu publikaciju:

Pregled bibliografske jedinice broj: 701259

Evaluacija automatskog ekstrahiranja slovensko- hrvatskih prijevodnih kandidata iz paralelnog korpusa

Citiraj ovu publikaciju:

Podijeli: