Ekstraktivno sažimanje članaka Wikipedije na njemačkom jeziku (CROSBI ID 443335)
Ocjenski rad | diplomski rad
Podaci o odgovornosti
Beli, Dorian
Martinčić-Ipšić, Sanda
hrvatski
Ekstraktivno sažimanje članaka Wikipedije na njemačkom jeziku
U svijetu ovisnom sve više o online i cloud tehnologijama gdje se u posljednje vrijeme odvija sve veća pohrana i obrada podataka, pojavljuje se potreba za algoritmima sažimanja i rangiranja tekstualnih datoteka, stranica i drugih izvora. Algoritmi ekstraktivnog i apstraktnog sažimanja tekstova nastoje na što brži, bolji i jednostavniji način obraditi i predstaviti velike količine tekstova u što kraćem vremenu sa što većom preciznošću. U ovom diplomskom radu riječ je upravo o nekoliko takvih algoritama te se prvenstveno usmjerava na algoritme ekstraktivne prirode. Kako bi se utvrdila važnost rečenice, njihova međusobna povezanost te koje rečenice imaju veće značenje razvijeni su različiti algoritmi sličnosti rečenica. Ovdje se primjenjuju algoritmi sličnosti kosinusa, Jaccardova sličnost, te Mihalcea sličnost (Mihalcea, Corley i Strapparava 2006) te algoritmi rangiranja i sažimanja SBKE (Beliga, Martinčić-Ipšić i Meštrović 2016) i LexRank. Na temelju formiranih grafova i primjene različitih mjera sličnosti rečenica pristupom stvaranja grafova, SBKE je ostvario najbolji rezultat u kombinaciji sa Jaccardovom mjerom sličnosti do 19, 04% , LexRank u kombinaciji s Mihalcea algoritmom sličnosti rečenica do 16, 26%, algoritam sažimanja na temelju Kullback_Leiblerove divergencije je ostvario 8, 96% točnosti, a TextRank, koji koristi čisti PageRank algoritam bez mjera sličnosti, je ostvario rezultat od 17, 04%. Također su primijenjeni i klasifikatori na temelju TF-IDF, word2vec i doc2vec vektora. Algoritam slučajnih šuma je ostvario najbolji rezultat od 76, 51%, algoritam Naîvnog Bayesa je ostvario najbolji rezultat od 91, 36%, dok je SVM klasifikator ostvario najbolji rezultat od 90, 43%.
SBKE, LexRank, TextRank, ekstraktivne metode sažimanja, njemački jezik, sažimanje njemačkih tekstova, mjere sličnosti
nije evidentirano
engleski
Extractive Summarization of German Wikipedia
nije evidentirano
SBKE, LexRank, TextRank, extractive summarization methods, German language, German language text summarization, similarity measures
nije evidentirano
Podaci o izdanju
127
22.09.2021.
obranjeno
Podaci o ustanovi koja je dodijelila akademski stupanj
Rijeka