Pregled bibliografske jedinice broj: 736921
Izrada sustava za klasterizaciju dokumenata na hrvatskom jeziku korištenjem ”Big Data” tehnologija
Izrada sustava za klasterizaciju dokumenata na hrvatskom jeziku korištenjem ”Big Data” tehnologija, 2014., diplomski rad, diplomski, Fakultet elektrotehnike, strojarsva i brodogradnje, Split
CROSBI ID: 736921 Za ispravke kontaktirajte CROSBI podršku putem web obrasca
Naslov
Izrada sustava za klasterizaciju dokumenata na hrvatskom jeziku korištenjem ”Big Data” tehnologija
(Design of clustering system for documents in croatian language using ”Big Data” technologies)
Autori
Gudelj, Ante
Vrsta, podvrsta i kategorija rada
Ocjenski radovi, diplomski rad, diplomski
Fakultet
Fakultet elektrotehnike, strojarsva i brodogradnje
Mjesto
Split
Datum
22.09
Godina
2014
Stranica
49
Mentor
Papić, Vladan
Ključne riječi
Big data; Hadoop; Apache mahout
Sažetak
U ovom radu opisan je problem obrade velike količine podataka ili malo preciznije rečeno Big Data problem te način na koji je moguće efikasno i brzo obrađivati Big Data podatke. Za obradu takvih podataka korišten je Hadop framework te Mahout biblioteka algoritama. U tu svrhu je napravljena aplikacija koja koristi Hadoop i Mahout API. Aplikacija obrađuje preko 25000 dokumenata na hrvatskom jeziku i kao rezultat nam daje listu svih dokumenata i za svaki dokument pronalazi 10 njemu najsličnijih dokumenata. U teoretskom dijelu rada opisan je problem i način na koji funkcionira Big Data te kako obrađujemo podatke koristeći Hadoop i Mahout tehnologiju. Drugi dio rada, onaj praktični, odnosi se na izradu same aplikacije te način na koji smo programirali samu aplikaciju i opis rada pojedinih algoritama koji se nalaze u Mahout bibliotekama, a korišteni su u izradi same aplikacije. Osim aplikacije koristeći WindowBuilder (dodatak za Eclipse) napravljeno je korisničko sučelje koje omogućuje lako i jednostavno korištenje samog programa. Sam Hadoop, Mahout i zapravo cijelo radno okruženje je instalirano i konfigurirano tako da radi na Linux Ubuntu 13.10 operativnom sustavu.
Izvorni jezik
Hrvatski
Znanstvena područja
Računarstvo
POVEZANOST RADA
Ustanove:
Fakultet elektrotehnike, strojarstva i brodogradnje, Split
Profili:
Vladan Papić
(mentor)