Pregled bibliografske jedinice broj: 797453
Metode sjenastog klasteriranja za nebalansirane skupove podataka
Metode sjenastog klasteriranja za nebalansirane skupove podataka, 2015., doktorska disertacija, Fakultet elektrotehnike, strojarstva i brodogradnje, Split
CROSBI ID: 797453 Za ispravke kontaktirajte CROSBI podršku putem web obrasca
Naslov
Metode sjenastog klasteriranja za nebalansirane skupove podataka
(Shadowed Clustering Methods for Imbalanced Data Sets)
Autori
Panjkota, Ante
Vrsta, podvrsta i kategorija rada
Ocjenski radovi, doktorska disertacija
Fakultet
Fakultet elektrotehnike, strojarstva i brodogradnje
Mjesto
Split
Datum
24.09
Godina
2015
Stranica
153
Mentor
Grujić, Tamara
Neposredni voditelj
Kononenko, Igor
Ključne riječi
strojno učenje; nebalansirani podaci; sjenasto klasteriranje; ansambli; binarna klasifikacija; manjinski podkoncepti; apsolutna rijetkost; preklapanje klasa; evaluacija algoritama; generator sintetskih podataka
(machine learning; imbalanced data; shadowed clustering; ensemble; binary classification; minority subconcepts; absolute rarity; class overlapping; algorithm evaluation; synthetic data generator)
Sažetak
Predmet istraživanja ove doktorske disertacije je binarna klasifikacija nebalansiranih skupova podataka. Preciznije, rad je usmjeren na rješavanje dvaju kompleksnih problema u području klasifikacije nebalansiranih podataka. Prvu grupu problema čine slučajevi s podkonceptima u manjinskoj klasi, sa znatnim preklapanjem među klasama, relativno velikim brojem dimenzija, postojanjem smetnji u oznakama klasa i vrijednostima atributa, te prisutnošću irelevantnih i redundantnih atributa (problemi tipa &Omega ; ). Sva navedena svojstva u ulaznom skupu podataka izuzev postojanja podkoncepata u manjinskoj klasi, ali uz dodatak svojstva aposolutne rijetkosti čini drugu grupu problema (problemi tipa &Theta ; ). Kao rješenje prve skupine problema razvijen je algoritam Ensemble Shadower-I koji provodi sjenasto klasteriranje u nižedimenzionalnim projekcijama manjinske klase, te potom naduzorkuje dobivena područja jezgri ili sjena i jezgri primjenom algoritma Breeder GA. Konačna klasifikacija algoritma dobiva se većinskim glasovanjem svih članova ansambla u svim projekcijama. Algoritam Ensemble Shadower- II razvijen je kao odgovor na probleme klasifikacije podataka apsolutne rijetkosti. Osnovu rada algoritma Ensemble Shadower-II predstavlja informativno uzorkovanje većinske klase u vidu provođenja sjenastog klasteriranja nad njezinim primjercima u nižedimenzionalnim ortogonalnim projekcijama. Dobiveni klasteri kombiniraju se s cijelom manjinskom klasom koja se potom naduzorkuje principom opisanim kod algoritma Ensemble Shadower-I. Politika glasovanja dobivenog ansambla opet je većinsko glasovanje. Efikasnost i kvaliteta razvijenih algoritama Ensemble Shadower-I i Ensemble Shadower-II potvrđene su usporedbom sa state- of-the-art algoritmima na većem broju sintetski generiranih podataka koji reflektiraju promatrana svojsta nebelansiranosti tipova problema &Omega ; i &Theta ; . Za potrebe generiranja sintetskih podataka razvijen je i generator sintetskih podataka koji stvara višedimenzionalne podatke spajanjem relevantnih 2D i 3D područja bottom up procedurom, uz dodavanje željenog broja irelevantnih i redundatnih atributa, te potrebne razine smetnji u klase ili atribute. Najvažniji rezultat pokazuje statistički značajniju robusnost na prisutnost smetnji novih algoritama Ensemble Shadower-I i Ensemble Shadower-II pri rješavanju istaknutih problema u odnosu na uspoređene state-of-the- art algoritme. Konačno, kvaliteta novih algoritama Ensemble Shadower-I i Ensemble Shadower-II potvrđena je usporedbom performansi klasifikacije sa state- of-the-art algoritmima, izraženo mjerom ACC, F-mjerom i mjerom AUC, na nebalansiranim binarnim problemima iz različitih realnih domena.
Izvorni jezik
Hrvatski
Znanstvena područja
Elektrotehnika, Računarstvo
POVEZANOST RADA
Ustanove:
Fakultet elektrotehnike, strojarstva i brodogradnje, Split