Usporedba metoda za grupiranje tekstualnih dokumenata

Bošnjak, Dario

izvor podataka: crosbi !

Usporedba metoda za grupiranje tekstualnih dokumenata (CROSBI ID 412202)

Ocjenski rad | sveučilišni preddiplomski završni rad

Bošnjak, Dario Usporedba metoda za grupiranje tekstualnih dokumenata / Pripužić, Krešimir (mentor); Zagreb, Fakultet elektrotehnike i računarstva, . 2017

Podaci o odgovornosti

Autori

Bošnjak, Dario

Mentori

Pripužić, Krešimir

Osnovni podaci na izvornom jeziku
Osnovni podaci na ostalim jezicima

Jezik

hrvatski

Naslov

Usporedba metoda za grupiranje tekstualnih dokumenata

Sažetak

Obrada i analiza dokumenata iz velikih kolekcija zahtijeva određenu organizaciju istih. Tomu služi grupiranje, postupak kojim će računalo, s obzirom na zadane parametre, odrediti grupu za dokumente iz kolekcije. Parametri se zadaju s obzirom na kolekciju i želje korisnika. Algoritam k-means jadan je od najpoznatijih algoritama, dok je poboljšanje dano algoritmom k-means++. Fuzzy k-means je meki algoritam grupiranja koji ovisno o zadanom parametru s određenim postotkom pripadnosti može svrstati dokumente u jednu ili više grupa. Algoritam multiple k-means++ svodi se na izvođenje algoritma k-means++ određeni broj puta. Navedeni algoritmi svrstavaju dokumente u zadani broj grupa, dok algoritam DBSCAN kao parametar ne prima željeni broj grupa, nego najmanji broj točaka u grupi i okolinu ɛ. Ako točka sadrži barem traženi broj točaka u svojoj okolini tada može postati jezgrom grupe, a u suprotnom će biti svrstana u neku grupu ili biti označena kao šum. Algoritam DBSCAN prilagodljiviji je od ostalih algoritama, ali je teško odrediti parametre s kojima bi se dobili dobri rezultati jer jako ovise o kolekciji.

Ključne riječi

prikupljanje informacija ; indeks ; grupiranje ; strojno učenje ; Apache Lucene ; Apache Mahout

Napomena

nije evidentirano

Jezik

engleski

Naslov

Comparison of Text Clustering Methods

Sažetak

nije evidentirano

Ključne riječi

information retrieval ; index ; cluster ; machine learning ; Apache Lucene ; Apache Mahout

Napomena

nije evidentirano

Podaci o izdanju

Broj stranica

Datum obrane

04.07.2017.

Status objave rada

obranjeno

Podaci o ustanovi koja je dodijelila akademski stupanj

Ustanova / Organizacija

Fakultet elektrotehnike i računarstva

Mjesto

Zagreb

Povezanost rada

Povezane osobe

Krešimir Pripužić (CroRIS ID: 16255; MBZ: 267692) (mentor/i)

Povezane ustanove

Fakultet elektrotehnike i računarstva (036) (autorova ustanova)

Područje

Elektrotehnika, Računarstvo