Napredna pretraga

Pregled bibliografske jedinice broj: 797453

Metode sjenastog klasteriranja za nebalansirane skupove podataka


Panjkota, Ante
Metode sjenastog klasteriranja za nebalansirane skupove podataka 2015., doktorska disertacija, Fakultet elektrotehnike, strojarstva i brodogradnje, Split


Naslov
Metode sjenastog klasteriranja za nebalansirane skupove podataka
(Shadowed Clustering Methods for Imbalanced Data Sets)

Autori
Panjkota, Ante

Vrsta, podvrsta i kategorija rada
Ocjenski radovi, doktorska disertacija

Fakultet
Fakultet elektrotehnike, strojarstva i brodogradnje

Mjesto
Split

Datum
24.09.

Godina
2015

Stranica
153

Mentor
Grujić, Tamara

Neposredni voditelj
Kononenko, Igor

Ključne riječi
Strojno učenje; nebalansirani podaci; sjenasto klasteriranje; ansambli; binarna klasifikacija; manjinski podkoncepti; apsolutna rijetkost; preklapanje klasa; evaluacija algoritama; generator sintetskih podataka
(Machine learning; imbalanced data; shadowed clustering; ensemble; binary classification; minority subconcepts; absolute rarity; class overlapping; algorithm evaluation; synthetic data generator)

Sažetak
Predmet istraživanja ove doktorske disertacije je binarna klasifikacija nebalansiranih skupova podataka. Preciznije, rad je usmjeren na rješavanje dvaju kompleksnih problema u području klasifikacije nebalansiranih podataka. Prvu grupu problema čine slučajevi s podkonceptima u manjinskoj klasi, sa znatnim preklapanjem među klasama, relativno velikim brojem dimenzija, postojanjem smetnji u oznakama klasa i vrijednostima atributa, te prisutnošću irelevantnih i redundantnih atributa (problemi tipa &Omega ; ). Sva navedena svojstva u ulaznom skupu podataka izuzev postojanja podkoncepata u manjinskoj klasi, ali uz dodatak svojstva aposolutne rijetkosti čini drugu grupu problema (problemi tipa &Theta ; ). Kao rješenje prve skupine problema razvijen je algoritam Ensemble Shadower-I koji provodi sjenasto klasteriranje u nižedimenzionalnim projekcijama manjinske klase, te potom naduzorkuje dobivena područja jezgri ili sjena i jezgri primjenom algoritma Breeder GA. Konačna klasifikacija algoritma dobiva se većinskim glasovanjem svih članova ansambla u svim projekcijama. Algoritam Ensemble Shadower- II razvijen je kao odgovor na probleme klasifikacije podataka apsolutne rijetkosti. Osnovu rada algoritma Ensemble Shadower-II predstavlja informativno uzorkovanje većinske klase u vidu provođenja sjenastog klasteriranja nad njezinim primjercima u nižedimenzionalnim ortogonalnim projekcijama. Dobiveni klasteri kombiniraju se s cijelom manjinskom klasom koja se potom naduzorkuje principom opisanim kod algoritma Ensemble Shadower-I. Politika glasovanja dobivenog ansambla opet je većinsko glasovanje. Efikasnost i kvaliteta razvijenih algoritama Ensemble Shadower-I i Ensemble Shadower-II potvrđene su usporedbom sa state- of-the-art algoritmima na većem broju sintetski generiranih podataka koji reflektiraju promatrana svojsta nebelansiranosti tipova problema &Omega ; i &Theta ; . Za potrebe generiranja sintetskih podataka razvijen je i generator sintetskih podataka koji stvara višedimenzionalne podatke spajanjem relevantnih 2D i 3D područja bottom up procedurom, uz dodavanje željenog broja irelevantnih i redundatnih atributa, te potrebne razine smetnji u klase ili atribute. Najvažniji rezultat pokazuje statistički značajniju robusnost na prisutnost smetnji novih algoritama Ensemble Shadower-I i Ensemble Shadower-II pri rješavanju istaknutih problema u odnosu na uspoređene state-of-the- art algoritme. Konačno, kvaliteta novih algoritama Ensemble Shadower-I i Ensemble Shadower-II potvrđena je usporedbom performansi klasifikacije sa state- of-the-art algoritmima, izraženo mjerom ACC, F-mjerom i mjerom AUC, na nebalansiranim binarnim problemima iz različitih realnih domena.

Izvorni jezik
Hrvatski

Znanstvena područja
Elektrotehnika, Računarstvo



POVEZANOST RADA


Ustanove
Fakultet elektrotehnike, strojarstva i brodogradnje, Split

Autor s matičnim brojem:
Ante Panjkota, (292256)