CroRIS - CROSBI

izvor podataka: crosbi !

Ekstraktivno sažimanje članaka Wikipedije na njemačkom jeziku (CROSBI ID 443335)

Ocjenski rad | diplomski rad

Beli, Dorian Ekstraktivno sažimanje članaka Wikipedije na njemačkom jeziku / Martinčić-Ipšić, Sanda (mentor); Rijeka, . 2021

Podaci o odgovornosti

Autori

Beli, Dorian

Mentori

Martinčić-Ipšić, Sanda

Osnovni podaci na izvornom jeziku
Osnovni podaci na ostalim jezicima

Jezik

hrvatski

Naslov

Ekstraktivno sažimanje članaka Wikipedije na njemačkom jeziku

Sažetak

U svijetu ovisnom sve više o online i cloud tehnologijama gdje se u posljednje vrijeme odvija sve veća pohrana i obrada podataka, pojavljuje se potreba za algoritmima sažimanja i rangiranja tekstualnih datoteka, stranica i drugih izvora. Algoritmi ekstraktivnog i apstraktnog sažimanja tekstova nastoje na što brži, bolji i jednostavniji način obraditi i predstaviti velike količine tekstova u što kraćem vremenu sa što većom preciznošću. U ovom diplomskom radu riječ je upravo o nekoliko takvih algoritama te se prvenstveno usmjerava na algoritme ekstraktivne prirode. Kako bi se utvrdila važnost rečenice, njihova međusobna povezanost te koje rečenice imaju veće značenje razvijeni su različiti algoritmi sličnosti rečenica. Ovdje se primjenjuju algoritmi sličnosti kosinusa, Jaccardova sličnost, te Mihalcea sličnost (Mihalcea, Corley i Strapparava 2006) te algoritmi rangiranja i sažimanja SBKE (Beliga, Martinčić-Ipšić i Meštrović 2016) i LexRank. Na temelju formiranih grafova i primjene različitih mjera sličnosti rečenica pristupom stvaranja grafova, SBKE je ostvario najbolji rezultat u kombinaciji sa Jaccardovom mjerom sličnosti do 19, 04% , LexRank u kombinaciji s Mihalcea algoritmom sličnosti rečenica do 16, 26%, algoritam sažimanja na temelju Kullback_Leiblerove divergencije je ostvario 8, 96% točnosti, a TextRank, koji koristi čisti PageRank algoritam bez mjera sličnosti, je ostvario rezultat od 17, 04%. Također su primijenjeni i klasifikatori na temelju TF-IDF, word2vec i doc2vec vektora. Algoritam slučajnih šuma je ostvario najbolji rezultat od 76, 51%, algoritam Naîvnog Bayesa je ostvario najbolji rezultat od 91, 36%, dok je SVM klasifikator ostvario najbolji rezultat od 90, 43%.

Ključne riječi

SBKE, LexRank, TextRank, ekstraktivne metode sažimanja, njemački jezik, sažimanje njemačkih tekstova, mjere sličnosti

Napomena

nije evidentirano

Jezik

engleski

Naslov

Extractive Summarization of German Wikipedia

Sažetak

nije evidentirano

Ključne riječi

SBKE, LexRank, TextRank, extractive summarization methods, German language, German language text summarization, similarity measures

Napomena

nije evidentirano

Podaci o izdanju

Broj stranica

127

Datum obrane

22.09.2021.

Status objave rada

obranjeno

Podaci o ustanovi koja je dodijelila akademski stupanj

Mjesto

Rijeka

Povezanost rada

Povezane osobe

Sanda Martinčić-Ipšić (mentor/i)

Povezane ustanove

Sveučilište u Rijeci, Fakultet informatike i digitalnih tehnologija (318) (autorova ustanova)

Povezani projekti

Izlučivanje ključnih riječi i sažimanje tekstova na temelju reprezentacije u mrežama jezika-LangNet (rezultat rada na projektu)

Područje

Informacijske i komunikacijske znanosti, Računarstvo