Nalazite se na CroRIS probnoj okolini. Ovdje evidentirani podaci neće biti pohranjeni u Informacijskom sustavu znanosti RH. Ako je ovo greška, CroRIS produkcijskoj okolini moguće je pristupi putem poveznice www.croris.hr
izvor podataka: crosbi !

Event detection in Newspaper Texts (CROSBI ID 571700)

Prilog sa skupa u zborniku | sažetak izlaganja sa skupa

Ljubešić, Nikola Event detection in Newspaper Texts // Series of talks in language technology - JOTA (Jezikovnotehnološki abonma). Ljubljana, 2010

Podaci o odgovornosti

Ljubešić, Nikola

engleski

Event detection in Newspaper Texts

U izlaganju se prikazuje problem pronalaženja događaja u skupini dokumenata - članaka objavljenih na novinskim portalima. Kako se u ovom slučaju informacijskom jedinicom smatra pojedini dokument, radi se o problemu klasifikacije dokumenata s nepoznatim popisom i brojem kategorija. Taj se problem rješava metodom klasteriranja bez prethodno poznatog broja kategorija kao jednom od oblika nenadzirane klasifikacije. Istražuju se sva tri važna koraka u tehnikama klasteriranja - formalizacija dokumenta, računanje matrice udaljenosti te samo klasteriranje. Pri formalizaciji dokumenta pozornost se posvećuje odabiru značajki za prikaz dokumenta (uklanjanje funkcijskih riječi, hapax legomena), ekstrakciji značajki (morfološka normalizacija, višečlani izrazi) te mjerama težina značajki. U koraku računanja matrice udaljenosti istražuje se više metrika udaljenosti iz područja geometrije, teorije skupova te teorije informacija. Kod algoritama za klasteriranje odabire se između jednostavnijih algoritama jednim prolazom i kompleksnijih hijerarhijskih algoritama. Krajnje oblikovani algoritam koristi pretežno statističke, jezično nezavisne metode te postiže F0.5 vrijednost od ~ 0.8.

event detection; newspaper text; language independent methods; language dependent methods

nije evidentirano

nije evidentirano

nije evidentirano

nije evidentirano

nije evidentirano

nije evidentirano

Podaci o prilogu

2010.

objavljeno

Podaci o matičnoj publikaciji

Series of talks in language technology - JOTA (Jezikovnotehnološki abonma)

Ljubljana:

Podaci o skupu

Series of talks in language technology - JOTA (Jezikovnotehnološki abonma)

pozvano predavanje

28.10.2010-28.10.2010

Ljubljana, Slovenija

Povezanost rada

Informacijske i komunikacijske znanosti