Pregled bibliografske jedinice broj: 521149
Primjena tematskih modela na analizu dokumenata na hrvatskom jeziku
Primjena tematskih modela na analizu dokumenata na hrvatskom jeziku, 2011., diplomski rad, diplomski, Fakultet elektrotehnike i računarstva, Zagreb
CROSBI ID: 521149 Za ispravke kontaktirajte CROSBI podršku putem web obrasca
Naslov
Primjena tematskih modela na analizu dokumenata na hrvatskom jeziku
(Application of Topic Models to Analysis of Croatian Documents)
Autori
Kusalić, Ivan
Vrsta, podvrsta i kategorija rada
Ocjenski radovi, diplomski rad, diplomski
Fakultet
Fakultet elektrotehnike i računarstva
Mjesto
Zagreb
Datum
28.06
Godina
2011
Stranica
40
Mentor
Šnajder, Jan
Ključne riječi
dubinska analiza teksta; tematski modeli; hrvatski jezik; LDA; pLSA
(text mining; topic models; Croatian language; LDA; pLSA)
Sažetak
Generativni modeli s latentnim varijablama statistički su modeli podataka koji podatke opisuju temeljem njihovih skrivenih odnosno latentnih svojstava. Tematski modeli (engl. topic models) vrsta su generativnih modela s latentnim varijablama koji omogućavaju modeliranje apstraktnih tema sadržanih u tekstu dokumenta. Dana je teorijska podloga tematskih modela kao i njihov smještaj unutar većih grupa statističkih modela. Proučavane su teoretske osnove modela probabilističke semantičke analize (pLSA) i latentne Dirichletove alokacije (LDA). U eksperimentalnom dijelu pokazana je ispravnost generativnog smjera modela LDA i rezultati primjene istog na modeliranje dokumenata hrvatskog jezika. Na kraju je demonstrirana perspektivnost modela LDA za redukciju dimenzionalnosti reprezentacije dokumenata.
Izvorni jezik
Hrvatski
Znanstvena područja
Računarstvo
POVEZANOST RADA
Projekti:
036-1300646-1986 - Otkrivanje znanja u tekstnim podacima (Dalbelo-Bašić, Bojana, MZO ) ( CroRIS)
Ustanove:
Fakultet elektrotehnike i računarstva, Zagreb
Profili:
Jan Šnajder
(mentor)