Napredna pretraga

Pregled bibliografske jedinice broj: 608687

Usporedna analiza nekih metoda za otkrivanje znanja iz podataka na skupu kvantitativnih i kvalitativnih varijabli


Habus-Korbar, Anja
Usporedna analiza nekih metoda za otkrivanje znanja iz podataka na skupu kvantitativnih i kvalitativnih varijabli 2012., doktorska disertacija, Filozofski fakultet, Zagreb


Naslov
Usporedna analiza nekih metoda za otkrivanje znanja iz podataka na skupu kvantitativnih i kvalitativnih varijabli
(An empirical analysis of comparative data mining classification model performance given an assortment of qualitative/quantitative variables)

Autori
Habus-Korbar, Anja

Vrsta, podvrsta i kategorija rada
Ocjenski radovi, doktorska disertacija

Fakultet
Filozofski fakultet

Mjesto
Zagreb

Datum
11. 07.

Godina
2012

Stranica
201

Mentor
Szirovicza, Lajos ; Boras, Damir

Ključne riječi
Dubinsko pretraživanje podataka; usporedba modela zaklasifikaciju; stabla odlučivanja; neuralne mreže
(Data mining; evaluation of statistical predictive algorithms; decision tree; neural networks)

Sažetak
Pod dubinskim pretraživanjem podataka podrazumijeva se skup metoda za statističku analizu i modeliranje koje se koriste u svrhu smislenih novih veza, struktura i trendova između mnoštva varijabli koje su nam na raspolaganju. Također nam pomaže u odabiru optimalnog modela koji će nam omogućiti predikciju budućih rezultata. Na pojedinom skupu podataka modeli se uspoređuju po pogrešci procijenjenoj na dijelu podataka za validaciju. Koji će model imati najmanju pogrešku ovisi o nizu faktora: strukturi podataka, broju i tipu varijabli razini međusobne veze među varijablama, stupnju odstupanja od normalnosti kvantitativnih varijabli i dr.. Zbog toga je jedan od važnih problema u području otkrivanja znanja iz podataka vezan uz izbor najpogodnijih transformacija i najefikasnijeg modela za dani skup podataka. Glavni cilj ove disertacije usporedba je slijedećih modela za klasifikaciju: osnovna logistička regresija te tri tipa logističke regresije sa transformacijama, stablo odlučivanja i neuralne mreže. Od metoda za transformaciju varijabli primijenjene su logaritamska, optimalna transformacija i kategorizacija u kvantile. Podaci na kojima je provedena usporedna analiza navedenih modela uključuju po sto uzoraka simuliranih podataka na osnovu tri faktora: tip distribucije, jednakost varijance i broj opservacija. Nakon usporedbe modela sa simuliranim matricama, rezultati istih testirani su na podacima iz dva područja primjene. Na prvom mjestu korišteni su normalno distribuirani podaci iz područja edukacije. Rezultati su uspoređeni na osnovu slijedećih mjera točnosti klasifikacije: srednja kvadratna pogreška, Gini indeks, Kolmogorov-Smirnov statistika i pogreška klasifikacije. Dokazano je postojanje statistički značajnih razlika među modelima u zavisnosti od predodređenih faktora: tip distribucija, jednakost varijanci i broj opservacija. Kao modeli sa najmanjim pogreškama prilikom predikcije pokazali su se kako kod simuliranih tako i kod primijenjenih podataka logistički modeli ( osnovni i model sa logaritamskom transformacijom u slučaju normalnih te model s optimalnom transformacijom prediktorskih varijabli kod nenormalnih distribucija podataka) te u pojedinim slučajevima i neuronska mreža dok su se kao lošiji za predikciju u većini slučajeva pokazali stablo odlučivanja i logistička regresija sa transformacijom prediktorskih varijabli po kvantilima.

Izvorni jezik
Hrvatski

Znanstvena područja
Matematika, Etnologija i antropologija



POVEZANOST RADA


Projekt / tema
196-1962766-2736 - Stohastički i kibernetički modeli u antropologiji (Tatjana Škarić-Jurić, )

Ustanove
Filozofski fakultet, Zagreb,
Institut za antropologiju