Nalazite se na CroRIS probnoj okolini. Ovdje evidentirani podaci neće biti pohranjeni u Informacijskom sustavu znanosti RH. Ako je ovo greška, CroRIS produkcijskoj okolini moguće je pristupi putem poveznice www.croris.hr
izvor podataka: crosbi !

Pronalaženje događaja u višestrukim izvorima informacija (CROSBI ID 358283)

Ocjenski rad | doktorska disertacija

Ljubešić, Nikola Pronalaženje događaja u višestrukim izvorima informacija / Boras, Damir (mentor); Zagreb, Filozofski fakultet u Zagrebu, . 2009

Podaci o odgovornosti

Ljubešić, Nikola

Boras, Damir

hrvatski

Pronalaženje događaja u višestrukim izvorima informacija

Osnovni problem koji se u ovoj doktorskoj disertaciji obrađuje je problem pronalaženja događaja u višestrukim izvorima informacija. Uzorak na kojemu se istraživanje provodi sadrži 2, 486 dokumenata objavljenih na 17 hrvatskih internetskih portala u vremenskom rasponu od tri dana. Uzorak je označen upotrebom posebno razvijene aplikacije. Ljudskim su označiteljima nuđeni unaprijed izračunati dokumenti kandidati. Uzorak je analiziran i izračunata su dva kappa koeficijenta. Za evaluaciju postupaka korišteno je šest evaluacijskih mjera redovito korištenih za evaluaciju rezultata grožđenja. Optimalnom se mjerom pokazala F0.5 mjera zbog veće važnosti preciznosti s obzirom na dani zadatak. Čistoća se pokazala neprimjerena mjera za neparticijske algoritme, a NMI i RI kao neprimjerene mjere za evaluaciju ovog zadatka zbog velikog broja istinito negativnih parova dokumenata. Empirijski je ispitan cijeli niz varijabli. Uspoređena su tri hijerarhijska algoritma grožđenja i algoritam jednim prolaskom. Posljednji se pokazao jednako uspješnim kao i hijerarhijski te je odabran kao optimalan iz razloga što je vremenski manje kompleksan od hijerarhijskih. Uspoređeno je šest mjera udaljenosti te je odabrana kosinusna mjera s redovito boljim rezultatima i manjom vremenskom kompleksnosti. Dvije postavljene heuristike vezane uz vrijeme i mjesto objave dokumenata su ispitane in vitro i in vivo te su se u oba slučaja pokazale korisnima. Između pet mjera težine svojstava odabran je TF-IDF. Istraženo je pet metoda odabira i određivanja svojstava na razini pojavnica te četiri metode na višim jezičnim razinama. Općenito su se metode na razini pojavnica pokazale korisnima za razliku od metoda na višim jezičnim razinama. Referentni korpus od pola milijuna pojavnica se pokazao optimalnim. Optimizacijom cijelog postupka pronalaženja događaja postignuta je F0.5 mjera od 0.82.

pronalaženje događaja; grožđenje; mjere udaljenosti; mjere težine svojstava; formalizacija dokumenta

nije evidentirano

engleski

Event detection in parallel information sources

nije evidentirano

event detection; clustering; distance measures; feature weight measures; document formalization

nije evidentirano

Podaci o izdanju

179

19.11.2009.

obranjeno

Podaci o ustanovi koja je dodijelila akademski stupanj

Filozofski fakultet u Zagrebu

Zagreb

Povezanost rada

Informacijske i komunikacijske znanosti