Primjena algoritma Minhash za učinkovito otkrivanje sličnih dokumenata (CROSBI ID 404586)
Ocjenski rad | diplomski rad
Podaci o odgovornosti
Soldo, Andrea
Srbljić, Siniša
Vladimir, Klemo
hrvatski
Primjena algoritma Minhash za učinkovito otkrivanje sličnih dokumenata
Ovaj rad ima detaljan osvrt na upotrebu minhash algoritma kao metode za pronalazak sličnih tekstualnih datoteka. Algoritam je primijenjen na dvije vrste datoteka. Jedna vrsta su digitalne knjige u kojima su simulirane pogreške slične onima koje nastaju prilikom skeniranja, odnosno optičkog prepoznavanja teksta, a druga vrsta su datoteke elektroničke pošte koje se razlikuju u cijelim segmentima. Mjerena je preciznost i odziv algoritma ovisno o ulaznim parametrima kao što su veličina sažetka i veličina podnizova na koje je ulazni tekst podijeljen. Analizirana je i komponenta lokalno osjetljivog sažimanja u minhash algoritmu. Za sva mjerenja korišteno je vlastito ostvarenje algoritma u Pythonu.
usporedba datoteka; usporedba teksta; slične datoteke; minhash; sažimanje; Jaccardov indeks; lokalno osjetljivo
nije evidentirano
engleski
Efficient Detection of Near-duplicate Documents Using Minhash Algorithm
nije evidentirano
minhash; similarity preserving; hashing; similar files; similar text; Jaccard distance; LSH
nije evidentirano
Podaci o izdanju
34
06.07.2016.
obranjeno
Podaci o ustanovi koja je dodijelila akademski stupanj
Fakultet elektrotehnike i računarstva
Zagreb