Pregled bibliografske jedinice broj: 884405
Detection of Near-duplicate Documents Using Simhash Algorithm
Detection of Near-duplicate Documents Using Simhash Algorithm, 2017., diplomski rad, preddiplomski, Fakultet elektrotehnike i računarstva, Zagreb
CROSBI ID: 884405 Za ispravke kontaktirajte CROSBI podršku putem web obrasca
Naslov
Detection of Near-duplicate Documents Using Simhash Algorithm
(Otkrivanje sličnih dokumenata koristeći algoritam simhash)
Autori
Yagüe Gonzalez, Daniel
Vrsta, podvrsta i kategorija rada
Ocjenski radovi, diplomski rad, preddiplomski
Fakultet
Fakultet elektrotehnike i računarstva
Mjesto
Zagreb
Datum
25.06
Godina
2017
Stranica
27
Mentor
Vladimir, Klemo
Ključne riječi
simhash algoritam ; hamming udaljenost ; otkrivanje sličnih dokumenata ; sažetak dokumenta
(simhash algorithm ; hamming distance ; near-duplicate detection ; document fingerprint)
Sažetak
Description of methods for detection of near duplicate textual documents. Explanation of the Simhash algorithm and Hamming distance. C++ programming implementation of the Simhash algorithm tested on a collection of texts. Evaluation of the method and it is efficiency.
Izvorni jezik
Engleski
Znanstvena područja
Računarstvo
POVEZANOST RADA
Ustanove:
Fakultet elektrotehnike i računarstva, Zagreb
Profili:
Klemo Vladimir
(mentor)