Razrješavanje koreferencije u tekstovima na hrvatskome jeziku

Hanževački, Matija

Pregled bibliografske jedinice broj: 807402

Razrješavanje koreferencije u tekstovima na hrvatskome jeziku

Hanževački, Matija

Razrješavanje koreferencije u tekstovima na hrvatskome jeziku, 2013., diplomski rad, diplomski, Fakultet elektrotehnike i računarstva, Zagreb

CROSBI ID: 807402 Za ispravke kontaktirajte CROSBI podršku putem web obrasca

Naslov
Razrješavanje koreferencije u tekstovima na hrvatskome jeziku
(Coreference Resolution in Croatian Texts)

Autori
Hanževački, Matija

Vrsta, podvrsta i kategorija rada
Ocjenski radovi, diplomski rad, diplomski

Fakultet
Fakultet elektrotehnike i računarstva

Mjesto
Zagreb

Datum
27.06

Godina
2013

Stranica
48

Mentor
Šnajder, Jan

Neposredni voditelj
Glavaš, Goran

Ključne riječi
obrada prirodnog jezika; ekstrakcija informacija; strojno učenje; razrješavanje koreferencije; stroj s potpornim vektorima
(natural language processing; information extraction; machine learning; coreference resolution; support vector machine)

Sažetak
Razrješavanje koreferencije postupak je kojim se utvrđuje koji se izrazi u tekstu dokumenta odnose na isti izvanjezični entitet. Koreferentni izrazi mogu biti vlastita imena, imeničke fraze ili zamjenice. Razrješavanje koreferencije važan je zadatak u okviru obrade prirodnog jezika te nužan preduvjet za mnoge zadatke ekstrakcije informacije. Radi se o izrazito semantičkom problemu koji je težak kako za označavanje podataka, tako i za automatizirano rješavanje i vrednovanje. U okviru ovog rada proučeni su postupci i sustavi za razrješavanje koreferencije u tekstu. Razrađen je postupak za otkrivanje referentnih spominjanja i razrješavanje koreferencije u tekstovima na hrvatskome jeziku. Postupak se temelji na metodama strojnog učenja te kombinira klasifikaciju parova spominjanja i grupiranje referentnih spominjanja. Razvijena je programska implementacija postupka i primjenjena na označenom novinskom korpusu tekstova na hrvatskome jeziku. Provedeno je eksperimentalno vrednovanje točnosti ekstrakcije, analiza značajki i detaljna analiza pogrešaka. Ukupni rezultat grupiranja spominjanja koristeći službeni evaluator s CoNLL 2011 iznosi 73.9% F1-mjere.

Izvorni jezik
Hrvatski

Znanstvena područja
Računarstvo

POVEZANOST RADA

Ustanove:
Fakultet elektrotehnike i računarstva, Zagreb

Profili:

Jan Šnajder (mentor)

Goran Glavaš (mentor)

CROSBI Hrvatska znanstvena bibliografija

Pregled bibliografske jedinice broj: 807402

Razrješavanje koreferencije u tekstovima na hrvatskome jeziku

Citiraj ovu publikaciju:

Pregled bibliografske jedinice broj: 807402

Razrješavanje koreferencije u tekstovima na hrvatskome jeziku

Citiraj ovu publikaciju:

Podijeli: