Indeksiranje velikih kolekcija dokumenata u grozdu računala (CROSBI ID 372224)
Ocjenski rad | sveučilišni preddiplomski završni rad
Podaci o odgovornosti
Antonić, Aleksandar
Podnar Žarko, Ivana
hrvatski
Indeksiranje velikih kolekcija dokumenata u grozdu računala
Pretraživanje je proces pronalaska traženih dokumenata iz ulazne kolekcije. Postoje dva modela pretraživanja, Booleov model i prostorno vektorski model, u praksi se koristi samo prostorno vektorski model. Tražilice izrañuju indeks kolekcije dokumenata te pomoću njega pretražuju. MapReduce je tehnologija koja olakšava procesiranje i kreiranje velikih kolekcija dokumenata. Tehnologija se zasniva na dva procesa, map i reduce, gdje je izlaz map procesa ulaz u reduce proces. MapReduce tehnologija se koristi paralelizmom u svom radu, te postiže vrlo dobre rezultate u distribuiranim sustavima. Hadoop je programski okvir nastao na temeljima MapReduce tehnologije, koji korisnicima omogućava jednostavno pisanje distribuiranih aplikacija. Korisnici Hadoopa ne moraju brinuti oko koordinacije poslova i distribucije podataka. Tražilica Nutch se koristi Hadoopom prilikom rada u distribuiranom načinu. Testovima je pokazano da se porastom broja čvorova znatno smanjuje vrijeme obrade podataka, tj. vrijeme indeksiranja.
pretraživanje sadržaja; MapReduce; Nutch; Hadoop
nije evidentirano
engleski
Indexing large document collections in computer cluster
nije evidentirano
information retrieval; MapReduce; Nutch; Hadoop
nije evidentirano
Podaci o izdanju
42
17.07.2009.
obranjeno
Podaci o ustanovi koja je dodijelila akademski stupanj
Fakultet elektrotehnike i računarstva
Zagreb