Nalazite se na CroRIS probnoj okolini. Ovdje evidentirani podaci neće biti pohranjeni u Informacijskom sustavu znanosti RH. Ako je ovo greška, CroRIS produkcijskoj okolini moguće je pristupi putem poveznice www.croris.hr
izvor podataka: crosbi !

Primjena algoritma Minhash za učinkovito otkrivanje sličnih dokumenata (CROSBI ID 404586)

Ocjenski rad | diplomski rad

Soldo, Andrea Primjena algoritma Minhash za učinkovito otkrivanje sličnih dokumenata / Srbljić, Siniša (mentor); Vladimir, Klemo (neposredni voditelj). Zagreb, Fakultet elektrotehnike i računarstva, . 2016

Podaci o odgovornosti

Soldo, Andrea

Srbljić, Siniša

Vladimir, Klemo

hrvatski

Primjena algoritma Minhash za učinkovito otkrivanje sličnih dokumenata

Ovaj rad ima detaljan osvrt na upotrebu minhash algoritma kao metode za pronalazak sličnih tekstualnih datoteka. Algoritam je primijenjen na dvije vrste datoteka. Jedna vrsta su digitalne knjige u kojima su simulirane pogreške slične onima koje nastaju prilikom skeniranja, odnosno optičkog prepoznavanja teksta, a druga vrsta su datoteke elektroničke pošte koje se razlikuju u cijelim segmentima. Mjerena je preciznost i odziv algoritma ovisno o ulaznim parametrima kao što su veličina sažetka i veličina podnizova na koje je ulazni tekst podijeljen. Analizirana je i komponenta lokalno osjetljivog sažimanja u minhash algoritmu. Za sva mjerenja korišteno je vlastito ostvarenje algoritma u Pythonu.

usporedba datoteka; usporedba teksta; slične datoteke; minhash; sažimanje; Jaccardov indeks; lokalno osjetljivo

nije evidentirano

engleski

Efficient Detection of Near-duplicate Documents Using Minhash Algorithm

nije evidentirano

minhash; similarity preserving; hashing; similar files; similar text; Jaccard distance; LSH

nije evidentirano

Podaci o izdanju

34

06.07.2016.

obranjeno

Podaci o ustanovi koja je dodijelila akademski stupanj

Fakultet elektrotehnike i računarstva

Zagreb

Povezanost rada

Računarstvo