Pretražite po imenu i prezimenu autora, mentora, urednika, prevoditelja

Napredna pretraga

Pregled bibliografske jedinice broj: 736921

Izrada sustava za klasterizaciju dokumenata na hrvatskom jeziku korištenjem ”Big Data” tehnologija


Gudelj, Ante
Izrada sustava za klasterizaciju dokumenata na hrvatskom jeziku korištenjem ”Big Data” tehnologija, 2014., diplomski rad, diplomski, Fakultet elektrotehnike, strojarsva i brodogradnje, Split


CROSBI ID: 736921 Za ispravke kontaktirajte CROSBI podršku putem web obrasca

Naslov
Izrada sustava za klasterizaciju dokumenata na hrvatskom jeziku korištenjem ”Big Data” tehnologija
(Design of clustering system for documents in croatian language using ”Big Data” technologies)

Autori
Gudelj, Ante

Vrsta, podvrsta i kategorija rada
Ocjenski radovi, diplomski rad, diplomski

Fakultet
Fakultet elektrotehnike, strojarsva i brodogradnje

Mjesto
Split

Datum
22.09

Godina
2014

Stranica
49

Mentor
Papić, Vladan

Ključne riječi
Big data; Hadoop; Apache mahout

Sažetak
U ovom radu opisan je problem obrade velike količine podataka ili malo preciznije rečeno Big Data problem te način na koji je moguće efikasno i brzo obrađivati Big Data podatke. Za obradu takvih podataka korišten je Hadop framework te Mahout biblioteka algoritama. U tu svrhu je napravljena aplikacija koja koristi Hadoop i Mahout API. Aplikacija obrađuje preko 25000 dokumenata na hrvatskom jeziku i kao rezultat nam daje listu svih dokumenata i za svaki dokument pronalazi 10 njemu najsličnijih dokumenata. U teoretskom dijelu rada opisan je problem i način na koji funkcionira Big Data te kako obrađujemo podatke koristeći Hadoop i Mahout tehnologiju. Drugi dio rada, onaj praktični, odnosi se na izradu same aplikacije te način na koji smo programirali samu aplikaciju i opis rada pojedinih algoritama koji se nalaze u Mahout bibliotekama, a korišteni su u izradi same aplikacije. Osim aplikacije koristeći WindowBuilder (dodatak za Eclipse) napravljeno je korisničko sučelje koje omogućuje lako i jednostavno korištenje samog programa. Sam Hadoop, Mahout i zapravo cijelo radno okruženje je instalirano i konfigurirano tako da radi na Linux Ubuntu 13.10 operativnom sustavu.

Izvorni jezik
Hrvatski

Znanstvena područja
Računarstvo



POVEZANOST RADA


Ustanove:
Fakultet elektrotehnike, strojarstva i brodogradnje, Split

Profili:

Avatar Url Vladan Papić (mentor)


Citiraj ovu publikaciju:

Gudelj, Ante
Izrada sustava za klasterizaciju dokumenata na hrvatskom jeziku korištenjem ”Big Data” tehnologija, 2014., diplomski rad, diplomski, Fakultet elektrotehnike, strojarsva i brodogradnje, Split
Gudelj, A. (2014) 'Izrada sustava za klasterizaciju dokumenata na hrvatskom jeziku korištenjem ”Big Data” tehnologija', diplomski rad, diplomski, Fakultet elektrotehnike, strojarsva i brodogradnje, Split.
@phdthesis{phdthesis, author = {Gudelj, Ante}, year = {2014}, pages = {49}, keywords = {Big data, Hadoop, Apache mahout}, title = {Izrada sustava za klasterizaciju dokumenata na hrvatskom jeziku kori\v{s}tenjem ”Big Data” tehnologija}, keyword = {Big data, Hadoop, Apache mahout}, publisherplace = {Split} }
@phdthesis{phdthesis, author = {Gudelj, Ante}, year = {2014}, pages = {49}, keywords = {Big data, Hadoop, Apache mahout}, title = {Design of clustering system for documents in croatian language using ”Big Data” technologies}, keyword = {Big data, Hadoop, Apache mahout}, publisherplace = {Split} }




Contrast
Increase Font
Decrease Font
Dyslexic Font