Klasifikacija podataka korištenjem radnog okvira Apache Spark (CROSBI ID 428179)
Ocjenski rad | diplomski rad
Podaci o odgovornosti
Mihaljević, Patrik
Pripužić, Krešimir
Katušić, Damjan
hrvatski
Klasifikacija podataka korištenjem radnog okvira Apache Spark
U ovom radu dan je pregledan prikaz najpoznatijih implementiranih klasifikacijskih algoritama koje obuhvaća programska knjižica MLlib programskog okvira Apache Spark. Zbog Spark-ovog nedostatka vizualizacije obrade i analize značajki podataka, korištena je programska knjižica Pandas u programskom jeziku Python. Pri konstrukciji skupa značajki koje će biti korištene za treniranje modela, izrađen je i sam konstrukcijski proces također u programskom jeziku Python. Treniranje modela, evaluacija te optimalan odabir klasifikacijskog modela ostvareni su u programskom jeziku Scala, uz korištenje programskog okvira Apache Spark koji omogućava raspodijeljeno izvođenje. Evaluacija i odabir optimalnog klasifikacijskog modela su provedeni na fakultetskom računalnom grozdu na stvarnim podacima proučavanog slučaja.
klasifikacijski algoritmi ; raspodijeljeni sustav ; Apache Spark ; MLlib ; strojno učenje, logistička regresija ; SVM ; slučajne šume ; naivni Bayesov klasifikator
nije evidentirano
engleski
Data Classification with Apache Spark Framework
nije evidentirano
classification algorithms ; distributed system ; Apache Spark ; MLlib ; machine learning ; logistic regression ; SVM ; random forrest ; naive Bayes
nije evidentirano
Podaci o izdanju
43
12.07.2019.
obranjeno
Podaci o ustanovi koja je dodijelila akademski stupanj
Fakultet elektrotehnike i računarstva
Zagreb