Napredna pretraga

Pregled bibliografske jedinice broj: 460181

Pronalaženje događaja u višestrukim izvorima informacija


Ljubešić, Nikola
Pronalaženje događaja u višestrukim izvorima informacija 2009., doktorska disertacija, Filozofski fakultet, Zagreb


Naslov
Pronalaženje događaja u višestrukim izvorima informacija
(Event detection in parallel information sources)

Autori
Ljubešić, Nikola

Vrsta, podvrsta i kategorija rada
Ocjenski radovi, doktorska disertacija

Fakultet
Filozofski fakultet

Mjesto
Zagreb

Datum
19.11.

Godina
2009

Stranica
179

Mentor
Boras, Damir

Ključne riječi
Pronalaženje događaja; grožđenje; mjere udaljenosti; mjere težine svojstava; formalizacija dokumenta
(Event detection; clustering; distance measures; feature weight measures; document formalization)

Sažetak
Osnovni problem koji se u ovoj doktorskoj disertaciji obrađuje je problem pronalaženja događaja u višestrukim izvorima informacija. Uzorak na kojemu se istraživanje provodi sadrži 2, 486 dokumenata objavljenih na 17 hrvatskih internetskih portala u vremenskom rasponu od tri dana. Uzorak je označen upotrebom posebno razvijene aplikacije. Ljudskim su označiteljima nuđeni unaprijed izračunati dokumenti kandidati. Uzorak je analiziran i izračunata su dva kappa koeficijenta. Za evaluaciju postupaka korišteno je šest evaluacijskih mjera redovito korištenih za evaluaciju rezultata grožđenja. Optimalnom se mjerom pokazala F0.5 mjera zbog veće važnosti preciznosti s obzirom na dani zadatak. Čistoća se pokazala neprimjerena mjera za neparticijske algoritme, a NMI i RI kao neprimjerene mjere za evaluaciju ovog zadatka zbog velikog broja istinito negativnih parova dokumenata. Empirijski je ispitan cijeli niz varijabli. Uspoređena su tri hijerarhijska algoritma grožđenja i algoritam jednim prolaskom. Posljednji se pokazao jednako uspješnim kao i hijerarhijski te je odabran kao optimalan iz razloga što je vremenski manje kompleksan od hijerarhijskih. Uspoređeno je šest mjera udaljenosti te je odabrana kosinusna mjera s redovito boljim rezultatima i manjom vremenskom kompleksnosti. Dvije postavljene heuristike vezane uz vrijeme i mjesto objave dokumenata su ispitane in vitro i in vivo te su se u oba slučaja pokazale korisnima. Između pet mjera težine svojstava odabran je TF-IDF. Istraženo je pet metoda odabira i određivanja svojstava na razini pojavnica te četiri metode na višim jezičnim razinama. Općenito su se metode na razini pojavnica pokazale korisnima za razliku od metoda na višim jezičnim razinama. Referentni korpus od pola milijuna pojavnica se pokazao optimalnim. Optimizacijom cijelog postupka pronalaženja događaja postignuta je F0.5 mjera od 0.82.

Izvorni jezik
Hrvatski

Znanstvena područja
Informacijske i komunikacijske znanosti



POVEZANOST RADA


Projekt / tema
130-1301679-1380 - Hrvatska rječnička baština i hrvatski europski identitet (Damir Boras, )

Ustanove
Filozofski fakultet, Zagreb

Autor s matičnim brojem:
Nikola Ljubešić, (272820)