Pregled bibliografske jedinice broj: 608687
Usporedna analiza nekih metoda za otkrivanje znanja iz podataka na skupu kvantitativnih i kvalitativnih varijabli
Usporedna analiza nekih metoda za otkrivanje znanja iz podataka na skupu kvantitativnih i kvalitativnih varijabli, 2012., doktorska disertacija, Filozofski fakultet, Zagreb
CROSBI ID: 608687 Za ispravke kontaktirajte CROSBI podršku putem web obrasca
Naslov
Usporedna analiza nekih metoda za otkrivanje znanja iz podataka na skupu kvantitativnih i kvalitativnih varijabli
(An empirical analysis of comparative data mining classification model performance given an assortment of qualitative/quantitative variables)
Autori
Habus-Korbar, Anja
Vrsta, podvrsta i kategorija rada
Ocjenski radovi, doktorska disertacija
Fakultet
Filozofski fakultet
Mjesto
Zagreb
Datum
11.07
Godina
2012
Stranica
201
Mentor
Szirovicza, Lajos ; Boras, Damir
Ključne riječi
dubinsko pretraživanje podataka; usporedba modela zaklasifikaciju; stabla odlučivanja; neuralne mreže
(data mining; evaluation of statistical predictive algorithms; decision tree; neural networks)
Sažetak
Pod dubinskim pretraživanjem podataka podrazumijeva se skup metoda za statističku analizu i modeliranje koje se koriste u svrhu smislenih novih veza, struktura i trendova između mnoštva varijabli koje su nam na raspolaganju. Također nam pomaže u odabiru optimalnog modela koji će nam omogućiti predikciju budućih rezultata. Na pojedinom skupu podataka modeli se uspoređuju po pogrešci procijenjenoj na dijelu podataka za validaciju. Koji će model imati najmanju pogrešku ovisi o nizu faktora: strukturi podataka, broju i tipu varijabli razini međusobne veze među varijablama, stupnju odstupanja od normalnosti kvantitativnih varijabli i dr.. Zbog toga je jedan od važnih problema u području otkrivanja znanja iz podataka vezan uz izbor najpogodnijih transformacija i najefikasnijeg modela za dani skup podataka. Glavni cilj ove disertacije usporedba je slijedećih modela za klasifikaciju: osnovna logistička regresija te tri tipa logističke regresije sa transformacijama, stablo odlučivanja i neuralne mreže. Od metoda za transformaciju varijabli primijenjene su logaritamska, optimalna transformacija i kategorizacija u kvantile. Podaci na kojima je provedena usporedna analiza navedenih modela uključuju po sto uzoraka simuliranih podataka na osnovu tri faktora: tip distribucije, jednakost varijance i broj opservacija. Nakon usporedbe modela sa simuliranim matricama, rezultati istih testirani su na podacima iz dva područja primjene. Na prvom mjestu korišteni su normalno distribuirani podaci iz područja edukacije. Rezultati su uspoređeni na osnovu slijedećih mjera točnosti klasifikacije: srednja kvadratna pogreška, Gini indeks, Kolmogorov-Smirnov statistika i pogreška klasifikacije. Dokazano je postojanje statistički značajnih razlika među modelima u zavisnosti od predodređenih faktora: tip distribucija, jednakost varijanci i broj opservacija. Kao modeli sa najmanjim pogreškama prilikom predikcije pokazali su se kako kod simuliranih tako i kod primijenjenih podataka logistički modeli ( osnovni i model sa logaritamskom transformacijom u slučaju normalnih te model s optimalnom transformacijom prediktorskih varijabli kod nenormalnih distribucija podataka) te u pojedinim slučajevima i neuronska mreža dok su se kao lošiji za predikciju u većini slučajeva pokazali stablo odlučivanja i logistička regresija sa transformacijom prediktorskih varijabli po kvantilima.
Izvorni jezik
Hrvatski
Znanstvena područja
Matematika, Etnologija i antropologija
POVEZANOST RADA
Projekti:
196-1962766-2736 - Stohastički i kibernetički modeli u antropologiji (Škarić-Jurić, Tatjana, MZOS ) ( CroRIS)
Ustanove:
Filozofski fakultet, Zagreb,
Institut za antropologiju