Nalazite se na CroRIS probnoj okolini. Ovdje evidentirani podaci neće biti pohranjeni u Informacijskom sustavu znanosti RH. Ako je ovo greška, CroRIS produkcijskoj okolini moguće je pristupi putem poveznice www.croris.hr
izvor podataka: crosbi !

Ekstraktivno sažimanje članaka Wikipedije na njemačkom jeziku (CROSBI ID 443335)

Ocjenski rad | diplomski rad

Beli, Dorian Ekstraktivno sažimanje članaka Wikipedije na njemačkom jeziku / Martinčić-Ipšić, Sanda (mentor); Rijeka, . 2021

Podaci o odgovornosti

Beli, Dorian

Martinčić-Ipšić, Sanda

hrvatski

Ekstraktivno sažimanje članaka Wikipedije na njemačkom jeziku

U svijetu ovisnom sve više o online i cloud tehnologijama gdje se u posljednje vrijeme odvija sve veća pohrana i obrada podataka, pojavljuje se potreba za algoritmima sažimanja i rangiranja tekstualnih datoteka, stranica i drugih izvora. Algoritmi ekstraktivnog i apstraktnog sažimanja tekstova nastoje na što brži, bolji i jednostavniji način obraditi i predstaviti velike količine tekstova u što kraćem vremenu sa što većom preciznošću. U ovom diplomskom radu riječ je upravo o nekoliko takvih algoritama te se prvenstveno usmjerava na algoritme ekstraktivne prirode. Kako bi se utvrdila važnost rečenice, njihova međusobna povezanost te koje rečenice imaju veće značenje razvijeni su različiti algoritmi sličnosti rečenica. Ovdje se primjenjuju algoritmi sličnosti kosinusa, Jaccardova sličnost, te Mihalcea sličnost (Mihalcea, Corley i Strapparava 2006) te algoritmi rangiranja i sažimanja SBKE (Beliga, Martinčić-Ipšić i Meštrović 2016) i LexRank. Na temelju formiranih grafova i primjene različitih mjera sličnosti rečenica pristupom stvaranja grafova, SBKE je ostvario najbolji rezultat u kombinaciji sa Jaccardovom mjerom sličnosti do 19, 04% , LexRank u kombinaciji s Mihalcea algoritmom sličnosti rečenica do 16, 26%, algoritam sažimanja na temelju Kullback_Leiblerove divergencije je ostvario 8, 96% točnosti, a TextRank, koji koristi čisti PageRank algoritam bez mjera sličnosti, je ostvario rezultat od 17, 04%. Također su primijenjeni i klasifikatori na temelju TF-IDF, word2vec i doc2vec vektora. Algoritam slučajnih šuma je ostvario najbolji rezultat od 76, 51%, algoritam Naîvnog Bayesa je ostvario najbolji rezultat od 91, 36%, dok je SVM klasifikator ostvario najbolji rezultat od 90, 43%.

SBKE, LexRank, TextRank, ekstraktivne metode sažimanja, njemački jezik, sažimanje njemačkih tekstova, mjere sličnosti

nije evidentirano

engleski

Extractive Summarization of German Wikipedia

nije evidentirano

SBKE, LexRank, TextRank, extractive summarization methods, German language, German language text summarization, similarity measures

nije evidentirano

Podaci o izdanju

127

22.09.2021.

obranjeno

Podaci o ustanovi koja je dodijelila akademski stupanj

Rijeka

Povezanost rada

Informacijske i komunikacijske znanosti, Računarstvo