Pregled bibliografske jedinice broj: 685569
Nenadzirana klasifikacija dokumenata prema jeziku
Nenadzirana klasifikacija dokumenata prema jeziku, 2012., doktorska disertacija, Filozofski fakultet, Zagreb
CROSBI ID: 685569 Za ispravke kontaktirajte CROSBI podršku putem web obrasca
Naslov
Nenadzirana klasifikacija dokumenata prema jeziku
(Unsupervised document classification by language)
Autori
Špišić, Vladimir
Vrsta, podvrsta i kategorija rada
Ocjenski radovi, doktorska disertacija
Fakultet
Filozofski fakultet
Mjesto
Zagreb
Datum
28.09
Godina
2012
Stranica
188
Mentor
Boras, Damir ; Ljubešić, Nikola
Ključne riječi
grupiranje prema jeziku; mjere udaljenosti; spektralno grupiranje; određivanje broja grupa
(grouping by language; distances measures; spectral clustering; determining the number of clusters)
Sažetak
U ovom istraživanju je empirijski provjeren algoritam spektralnog grupiranja sa i bez određivanja broja grupa na zadatku grupiranja dokumenata prema jeziku. Grupirani su tekstovi na 12 jezika pomoću razdiobe n-grama kao značajki i kosinusne mjere udaljenosti razdioba. Spektralno grupiranje se temelji na grupiranju komponenata vlastitih vektora dobivenih spektralnom dekompozicijom matrice udaljenosti. U radu je predložena promjena uobičajnog algoritma na način da se slijedno koriste komponente jednog po jednog vlastitog vektora, što omogućuje i određivanje broja grupa. U istraživanju bez određivanja broja grupa pokazalo se da spektralno grupiranje omogućava bolje rezultate od hijerarhijskog grupiranja za dani uzorak (F1 = 0.972, nasuprot 0.843 kod hijerarhijskog). Usporedbom predložene metode bimodalnosti komponenata sa standardnom metodom određivanja broja grupa u spektralnom grupiranju – eigengap empirijski je dokazano da metoda bimodalnosti komponenata omogućuje veću točnost ukoliko se uzorak sastoji od većeg broja jezika (više od 6), dok je za manji broj jezika eigengap metoda pokazuje veću preciznost. Kako se za određivanje bimodalnosti koristi Hartiganova metoda, promjenom praga p vrijednosti koja je rezultat te metode možemo poboljšati rezultate za određeni broj grupa. Na kraju je pokazano da i primjena neke srednje p vrijednosti osigurava ukupne rezultate grupiranja koji su daleko bolji od donje granice istraživanja i usporedivi sa nadziranim metodama.
Izvorni jezik
Hrvatski
Znanstvena područja
Informacijske i komunikacijske znanosti
POVEZANOST RADA
Ustanove:
Filozofski fakultet, Zagreb