Razrješavanje koreferencije u tekstovima na hrvatskome jeziku (CROSBI ID 402592)
Ocjenski rad | diplomski rad
Podaci o odgovornosti
Hanževački, Matija
Šnajder, Jan
Glavaš, Goran
hrvatski
Razrješavanje koreferencije u tekstovima na hrvatskome jeziku
Razrješavanje koreferencije postupak je kojim se utvrđuje koji se izrazi u tekstu dokumenta odnose na isti izvanjezični entitet. Koreferentni izrazi mogu biti vlastita imena, imeničke fraze ili zamjenice. Razrješavanje koreferencije važan je zadatak u okviru obrade prirodnog jezika te nužan preduvjet za mnoge zadatke ekstrakcije informacije. Radi se o izrazito semantičkom problemu koji je težak kako za označavanje podataka, tako i za automatizirano rješavanje i vrednovanje. U okviru ovog rada proučeni su postupci i sustavi za razrješavanje koreferencije u tekstu. Razrađen je postupak za otkrivanje referentnih spominjanja i razrješavanje koreferencije u tekstovima na hrvatskome jeziku. Postupak se temelji na metodama strojnog učenja te kombinira klasifikaciju parova spominjanja i grupiranje referentnih spominjanja. Razvijena je programska implementacija postupka i primjenjena na označenom novinskom korpusu tekstova na hrvatskome jeziku. Provedeno je eksperimentalno vrednovanje točnosti ekstrakcije, analiza značajki i detaljna analiza pogrešaka. Ukupni rezultat grupiranja spominjanja koristeći službeni evaluator s CoNLL 2011 iznosi 73.9% F1-mjere.
obrada prirodnog jezika; ekstrakcija informacija; strojno učenje; razrješavanje koreferencije; stroj s potpornim vektorima
nije evidentirano
engleski
Coreference Resolution in Croatian Texts
nije evidentirano
natural language processing; information extraction; machine learning; coreference resolution; support vector machine
nije evidentirano
Podaci o izdanju
48
27.06.2013.
obranjeno
Podaci o ustanovi koja je dodijelila akademski stupanj
Fakultet elektrotehnike i računarstva
Zagreb