Pregled bibliografske jedinice broj: 807402
Razrješavanje koreferencije u tekstovima na hrvatskome jeziku
Razrješavanje koreferencije u tekstovima na hrvatskome jeziku, 2013., diplomski rad, diplomski, Fakultet elektrotehnike i računarstva, Zagreb
CROSBI ID: 807402 Za ispravke kontaktirajte CROSBI podršku putem web obrasca
Naslov
Razrješavanje koreferencije u tekstovima na hrvatskome jeziku
(Coreference Resolution in Croatian Texts)
Autori
Hanževački, Matija
Vrsta, podvrsta i kategorija rada
Ocjenski radovi, diplomski rad, diplomski
Fakultet
Fakultet elektrotehnike i računarstva
Mjesto
Zagreb
Datum
27.06
Godina
2013
Stranica
48
Mentor
Šnajder, Jan
Neposredni voditelj
Glavaš, Goran
Ključne riječi
obrada prirodnog jezika; ekstrakcija informacija; strojno učenje; razrješavanje koreferencije; stroj s potpornim vektorima
(natural language processing; information extraction; machine learning; coreference resolution; support vector machine)
Sažetak
Razrješavanje koreferencije postupak je kojim se utvrđuje koji se izrazi u tekstu dokumenta odnose na isti izvanjezični entitet. Koreferentni izrazi mogu biti vlastita imena, imeničke fraze ili zamjenice. Razrješavanje koreferencije važan je zadatak u okviru obrade prirodnog jezika te nužan preduvjet za mnoge zadatke ekstrakcije informacije. Radi se o izrazito semantičkom problemu koji je težak kako za označavanje podataka, tako i za automatizirano rješavanje i vrednovanje. U okviru ovog rada proučeni su postupci i sustavi za razrješavanje koreferencije u tekstu. Razrađen je postupak za otkrivanje referentnih spominjanja i razrješavanje koreferencije u tekstovima na hrvatskome jeziku. Postupak se temelji na metodama strojnog učenja te kombinira klasifikaciju parova spominjanja i grupiranje referentnih spominjanja. Razvijena je programska implementacija postupka i primjenjena na označenom novinskom korpusu tekstova na hrvatskome jeziku. Provedeno je eksperimentalno vrednovanje točnosti ekstrakcije, analiza značajki i detaljna analiza pogrešaka. Ukupni rezultat grupiranja spominjanja koristeći službeni evaluator s CoNLL 2011 iznosi 73.9% F1-mjere.
Izvorni jezik
Hrvatski
Znanstvena područja
Računarstvo
POVEZANOST RADA
Ustanove:
Fakultet elektrotehnike i računarstva, Zagreb