Napredna pretraga

Pregled bibliografske jedinice broj: 685569

Nenadzirana klasifikacija dokumenata prema jeziku


Špišić, Vladimir
Nenadzirana klasifikacija dokumenata prema jeziku 2012., doktorska disertacija, Filozofski fakultet, Zagreb


Naslov
Nenadzirana klasifikacija dokumenata prema jeziku
(Unsupervised document classification by language)

Autori
Špišić, Vladimir

Vrsta, podvrsta i kategorija rada
Ocjenski radovi, doktorska disertacija

Fakultet
Filozofski fakultet

Mjesto
Zagreb

Datum
28.9

Godina
2012

Stranica
188

Mentor
Boras, Damir ; Ljubešić, Nikola

Ključne riječi
Grupiranje prema jeziku; mjere udaljenosti; spektralno grupiranje; određivanje broja grupa
(Grouping by language; distances measures; spectral clustering; determining the number of clusters)

Sažetak
U ovom istraživanju je empirijski provjeren algoritam spektralnog grupiranja sa i bez određivanja broja grupa na zadatku grupiranja dokumenata prema jeziku. Grupirani su tekstovi na 12 jezika pomoću razdiobe n-grama kao značajki i kosinusne mjere udaljenosti razdioba. Spektralno grupiranje se temelji na grupiranju komponenata vlastitih vektora dobivenih spektralnom dekompozicijom matrice udaljenosti. U radu je predložena promjena uobičajnog algoritma na način da se slijedno koriste komponente jednog po jednog vlastitog vektora, što omogućuje i određivanje broja grupa. U istraživanju bez određivanja broja grupa pokazalo se da spektralno grupiranje omogućava bolje rezultate od hijerarhijskog grupiranja za dani uzorak (F1 = 0.972, nasuprot 0.843 kod hijerarhijskog). Usporedbom predložene metode bimodalnosti komponenata sa standardnom metodom određivanja broja grupa u spektralnom grupiranju – eigengap empirijski je dokazano da metoda bimodalnosti komponenata omogućuje veću točnost ukoliko se uzorak sastoji od većeg broja jezika (više od 6), dok je za manji broj jezika eigengap metoda pokazuje veću preciznost. Kako se za određivanje bimodalnosti koristi Hartiganova metoda, promjenom praga p vrijednosti koja je rezultat te metode možemo poboljšati rezultate za određeni broj grupa. Na kraju je pokazano da i primjena neke srednje p vrijednosti osigurava ukupne rezultate grupiranja koji su daleko bolji od donje granice istraživanja i usporedivi sa nadziranim metodama.

Izvorni jezik
Hrvatski

Znanstvena područja
Informacijske i komunikacijske znanosti



POVEZANOST RADA


Ustanove
Filozofski fakultet, Zagreb