Pretražite po imenu i prezimenu autora, mentora, urednika, prevoditelja

Napredna pretraga

Pregled bibliografske jedinice broj: 507919

Event detection in Newspaper Texts


Ljubešić, Nikola
Event detection in Newspaper Texts // Series of talks in language technology - JOTA (Jezikovnotehnološki abonma)
Ljubljana, 2010. (pozvano predavanje, nije recenziran, pp prezentacija, znanstveni)


CROSBI ID: 507919 Za ispravke kontaktirajte CROSBI podršku putem web obrasca

Naslov
Event detection in Newspaper Texts

Autori
Ljubešić, Nikola

Vrsta, podvrsta i kategorija rada
Sažeci sa skupova, pp prezentacija, znanstveni

Izvornik
Series of talks in language technology - JOTA (Jezikovnotehnološki abonma) / - Ljubljana, 2010

Skup
Series of talks in language technology - JOTA (Jezikovnotehnološki abonma)

Mjesto i datum
Ljubljana, Slovenija, 28.10.2010

Vrsta sudjelovanja
Pozvano predavanje

Vrsta recenzije
Nije recenziran

Ključne riječi
pronalaženje događaja; novinski tekstovi; jezično nezavisne metode; jezično zavisne metode
(event detection; newspaper text; language independent methods; language dependent methods)

Sažetak
U izlaganju se prikazuje problem pronalaženja događaja u skupini dokumenata - članaka objavljenih na novinskim portalima. Kako se u ovom slučaju informacijskom jedinicom smatra pojedini dokument, radi se o problemu klasifikacije dokumenata s nepoznatim popisom i brojem kategorija. Taj se problem rješava metodom klasteriranja bez prethodno poznatog broja kategorija kao jednom od oblika nenadzirane klasifikacije. Istražuju se sva tri važna koraka u tehnikama klasteriranja - formalizacija dokumenta, računanje matrice udaljenosti te samo klasteriranje. Pri formalizaciji dokumenta pozornost se posvećuje odabiru značajki za prikaz dokumenta (uklanjanje funkcijskih riječi, hapax legomena), ekstrakciji značajki (morfološka normalizacija, višečlani izrazi) te mjerama težina značajki. U koraku računanja matrice udaljenosti istražuje se više metrika udaljenosti iz područja geometrije, teorije skupova te teorije informacija. Kod algoritama za klasteriranje odabire se između jednostavnijih algoritama jednim prolazom i kompleksnijih hijerarhijskih algoritama. Krajnje oblikovani algoritam koristi pretežno statističke, jezično nezavisne metode te postiže F0.5 vrijednost od ~ 0.8.

Izvorni jezik
Engleski

Znanstvena područja
Informacijske i komunikacijske znanosti



POVEZANOST RADA


Projekti:
130-1301679-1380 - Hrvatska rječnička baština i hrvatski europski identitet (Boras, Damir, MZOS ) ( CroRIS)

Ustanove:
Filozofski fakultet, Zagreb

Profili:

Avatar Url Nikola Ljubešić (autor)

Poveznice na cjeloviti tekst rada:

Pristup cjelovitom tekstu rada lojze.lugos.si

Citiraj ovu publikaciju:

Ljubešić, Nikola
Event detection in Newspaper Texts // Series of talks in language technology - JOTA (Jezikovnotehnološki abonma)
Ljubljana, 2010. (pozvano predavanje, nije recenziran, pp prezentacija, znanstveni)
Ljubešić, N. (2010) Event detection in Newspaper Texts. U: Series of talks in language technology - JOTA (Jezikovnotehnološki abonma).
@article{article, author = {Ljube\v{s}i\'{c}, Nikola}, year = {2010}, keywords = {pronala\v{z}enje doga\djaja, novinski tekstovi, jezi\v{c}no nezavisne metode, jezi\v{c}no zavisne metode}, title = {Event detection in Newspaper Texts}, keyword = {pronala\v{z}enje doga\djaja, novinski tekstovi, jezi\v{c}no nezavisne metode, jezi\v{c}no zavisne metode}, publisherplace = {Ljubljana, Slovenija} }
@article{article, author = {Ljube\v{s}i\'{c}, Nikola}, year = {2010}, keywords = {event detection, newspaper text, language independent methods, language dependent methods}, title = {Event detection in Newspaper Texts}, keyword = {event detection, newspaper text, language independent methods, language dependent methods}, publisherplace = {Ljubljana, Slovenija} }




Contrast
Increase Font
Decrease Font
Dyslexic Font