Pretražite po imenu i prezimenu autora, mentora, urednika, prevoditelja

Napredna pretraga

Pregled bibliografske jedinice broj: 891150

Usporedba metoda za grupiranje tekstualnih dokumenata


Bošnjak, Dario
Usporedba metoda za grupiranje tekstualnih dokumenata, 2017., diplomski rad, preddiplomski, Fakultet elektrotehnike i računarstva, Zagreb


CROSBI ID: 891150 Za ispravke kontaktirajte CROSBI podršku putem web obrasca

Naslov
Usporedba metoda za grupiranje tekstualnih dokumenata
(Comparison of Text Clustering Methods)

Autori
Bošnjak, Dario

Vrsta, podvrsta i kategorija rada
Ocjenski radovi, diplomski rad, preddiplomski

Fakultet
Fakultet elektrotehnike i računarstva

Mjesto
Zagreb

Datum
04.07

Godina
2017

Stranica
28

Mentor
Pripužić, Krešimir

Ključne riječi
prikupljanje informacija ; indeks ; grupiranje ; strojno učenje ; Apache Lucene ; Apache Mahout
(information retrieval ; index ; cluster ; machine learning ; Apache Lucene ; Apache Mahout)

Sažetak
Obrada i analiza dokumenata iz velikih kolekcija zahtijeva određenu organizaciju istih. Tomu služi grupiranje, postupak kojim će računalo, s obzirom na zadane parametre, odrediti grupu za dokumente iz kolekcije. Parametri se zadaju s obzirom na kolekciju i želje korisnika. Algoritam k-means jadan je od najpoznatijih algoritama, dok je poboljšanje dano algoritmom k-means++. Fuzzy k-means je meki algoritam grupiranja koji ovisno o zadanom parametru s određenim postotkom pripadnosti može svrstati dokumente u jednu ili više grupa. Algoritam multiple k-means++ svodi se na izvođenje algoritma k-means++ određeni broj puta. Navedeni algoritmi svrstavaju dokumente u zadani broj grupa, dok algoritam DBSCAN kao parametar ne prima željeni broj grupa, nego najmanji broj točaka u grupi i okolinu ɛ. Ako točka sadrži barem traženi broj točaka u svojoj okolini tada može postati jezgrom grupe, a u suprotnom će biti svrstana u neku grupu ili biti označena kao šum. Algoritam DBSCAN prilagodljiviji je od ostalih algoritama, ali je teško odrediti parametre s kojima bi se dobili dobri rezultati jer jako ovise o kolekciji.

Izvorni jezik
Hrvatski

Znanstvena područja
Elektrotehnika, Računarstvo



POVEZANOST RADA


Ustanove:
Fakultet elektrotehnike i računarstva, Zagreb

Profili:

Avatar Url Krešimir Pripužić (mentor)

Poveznice na cjeloviti tekst rada:

Pristup cjelovitom tekstu rada

Citiraj ovu publikaciju:

Bošnjak, Dario
Usporedba metoda za grupiranje tekstualnih dokumenata, 2017., diplomski rad, preddiplomski, Fakultet elektrotehnike i računarstva, Zagreb
Bošnjak, D. (2017) 'Usporedba metoda za grupiranje tekstualnih dokumenata', diplomski rad, preddiplomski, Fakultet elektrotehnike i računarstva, Zagreb.
@phdthesis{phdthesis, author = {Bo\v{s}njak, Dario}, year = {2017}, pages = {28}, keywords = {prikupljanje informacija, indeks, grupiranje, strojno u\v{c}enje, Apache Lucene, Apache Mahout}, title = {Usporedba metoda za grupiranje tekstualnih dokumenata}, keyword = {prikupljanje informacija, indeks, grupiranje, strojno u\v{c}enje, Apache Lucene, Apache Mahout}, publisherplace = {Zagreb} }
@phdthesis{phdthesis, author = {Bo\v{s}njak, Dario}, year = {2017}, pages = {28}, keywords = {information retrieval, index, cluster, machine learning, Apache Lucene, Apache Mahout}, title = {Comparison of Text Clustering Methods}, keyword = {information retrieval, index, cluster, machine learning, Apache Lucene, Apache Mahout}, publisherplace = {Zagreb} }




Contrast
Increase Font
Decrease Font
Dyslexic Font