Nalazite se na CroRIS probnoj okolini. Ovdje evidentirani podaci neće biti pohranjeni u Informacijskom sustavu znanosti RH. Ako je ovo greška, CroRIS produkcijskoj okolini moguće je pristupi putem poveznice www.croris.hr
izvor podataka: crosbi !

Nenadzirana klasifikacija dokumenata prema jeziku (CROSBI ID 384874)

Ocjenski rad | doktorska disertacija

Špišić, Vladimir Nenadzirana klasifikacija dokumenata prema jeziku / Boras, Damir ; Ljubešić, Nikola (mentor); Zagreb, Filozofski fakultet u Zagrebu, . 2012

Podaci o odgovornosti

Špišić, Vladimir

Boras, Damir ; Ljubešić, Nikola

hrvatski

Nenadzirana klasifikacija dokumenata prema jeziku

U ovom istraživanju je empirijski provjeren algoritam spektralnog grupiranja sa i bez određivanja broja grupa na zadatku grupiranja dokumenata prema jeziku. Grupirani su tekstovi na 12 jezika pomoću razdiobe n-grama kao značajki i kosinusne mjere udaljenosti razdioba. Spektralno grupiranje se temelji na grupiranju komponenata vlastitih vektora dobivenih spektralnom dekompozicijom matrice udaljenosti. U radu je predložena promjena uobičajnog algoritma na način da se slijedno koriste komponente jednog po jednog vlastitog vektora, što omogućuje i određivanje broja grupa. U istraživanju bez određivanja broja grupa pokazalo se da spektralno grupiranje omogućava bolje rezultate od hijerarhijskog grupiranja za dani uzorak (F1 = 0.972, nasuprot 0.843 kod hijerarhijskog). Usporedbom predložene metode bimodalnosti komponenata sa standardnom metodom određivanja broja grupa u spektralnom grupiranju – eigengap empirijski je dokazano da metoda bimodalnosti komponenata omogućuje veću točnost ukoliko se uzorak sastoji od većeg broja jezika (više od 6), dok je za manji broj jezika eigengap metoda pokazuje veću preciznost. Kako se za određivanje bimodalnosti koristi Hartiganova metoda, promjenom praga p vrijednosti koja je rezultat te metode možemo poboljšati rezultate za određeni broj grupa. Na kraju je pokazano da i primjena neke srednje p vrijednosti osigurava ukupne rezultate grupiranja koji su daleko bolji od donje granice istraživanja i usporedivi sa nadziranim metodama.

grupiranje prema jeziku; mjere udaljenosti; spektralno grupiranje; određivanje broja grupa

nije evidentirano

engleski

Unsupervised document classification by language

nije evidentirano

grouping by language; distances measures; spectral clustering; determining the number of clusters

nije evidentirano

Podaci o izdanju

188

28.09.2012.

obranjeno

Podaci o ustanovi koja je dodijelila akademski stupanj

Filozofski fakultet u Zagrebu

Zagreb

Povezanost rada

Informacijske i komunikacijske znanosti