Ekstraktivno sažimanje članaka Wikipedije na njemačkom jeziku

Beli, Dorian

Pregled bibliografske jedinice broj: 1145195

Ekstraktivno sažimanje članaka Wikipedije na njemačkom jeziku

Beli, Dorian

Ekstraktivno sažimanje članaka Wikipedije na njemačkom jeziku, 2021., diplomski rad, diplomski, Odjel za informatiku, Rijeka

CROSBI ID: 1145195 Za ispravke kontaktirajte CROSBI podršku putem web obrasca

Naslov
Ekstraktivno sažimanje članaka Wikipedije na njemačkom jeziku
(Extractive Summarization of German Wikipedia)

Autori
Beli, Dorian

Vrsta, podvrsta i kategorija rada
Ocjenski radovi, diplomski rad, diplomski

Fakultet
Odjel za informatiku

Mjesto
Rijeka

Datum
22.09

Godina
2021

Stranica
127

Mentor
Martinčić-Ipšić, Sanda

Ključne riječi
SBKE, LexRank, TextRank, ekstraktivne metode sažimanja, njemački jezik, sažimanje njemačkih tekstova, mjere sličnosti
(SBKE, LexRank, TextRank, extractive summarization methods, German language, German language text summarization, similarity measures)

Sažetak
U svijetu ovisnom sve više o online i cloud tehnologijama gdje se u posljednje vrijeme odvija sve veća pohrana i obrada podataka, pojavljuje se potreba za algoritmima sažimanja i rangiranja tekstualnih datoteka, stranica i drugih izvora. Algoritmi ekstraktivnog i apstraktnog sažimanja tekstova nastoje na što brži, bolji i jednostavniji način obraditi i predstaviti velike količine tekstova u što kraćem vremenu sa što većom preciznošću. U ovom diplomskom radu riječ je upravo o nekoliko takvih algoritama te se prvenstveno usmjerava na algoritme ekstraktivne prirode. Kako bi se utvrdila važnost rečenice, njihova međusobna povezanost te koje rečenice imaju veće značenje razvijeni su različiti algoritmi sličnosti rečenica. Ovdje se primjenjuju algoritmi sličnosti kosinusa, Jaccardova sličnost, te Mihalcea sličnost (Mihalcea, Corley i Strapparava 2006) te algoritmi rangiranja i sažimanja SBKE (Beliga, Martinčić-Ipšić i Meštrović 2016) i LexRank. Na temelju formiranih grafova i primjene različitih mjera sličnosti rečenica pristupom stvaranja grafova, SBKE je ostvario najbolji rezultat u kombinaciji sa Jaccardovom mjerom sličnosti do 19, 04% , LexRank u kombinaciji s Mihalcea algoritmom sličnosti rečenica do 16, 26%, algoritam sažimanja na temelju Kullback_Leiblerove divergencije je ostvario 8, 96% točnosti, a TextRank, koji koristi čisti PageRank algoritam bez mjera sličnosti, je ostvario rezultat od 17, 04%. Također su primijenjeni i klasifikatori na temelju TF-IDF, word2vec i doc2vec vektora. Algoritam slučajnih šuma je ostvario najbolji rezultat od 76, 51%, algoritam Naîvnog Bayesa je ostvario najbolji rezultat od 91, 36%, dok je SVM klasifikator ostvario najbolji rezultat od 90, 43%.

Izvorni jezik
Hrvatski

Znanstvena područja
Računarstvo, Informacijske i komunikacijske znanosti

POVEZANOST RADA

Projekti:
NadSve-Sveučilište u Rijeci-uniri-drustv-18-20 - Izlučivanje ključnih riječi i sažimanje tekstova na temelju reprezentacije u mrežama jezika-LangNet (LangNet) (Martinčić-Ipšić, Sanda, NadSve - Natječaj za dodjelu sredstava potpore znanstvenim istraživanjima na Sveučilištu u Rijeci za 2018. godinu - projekti iskusnih znanstvenika i umjetnika) ( CroRIS)

Ustanove:
Fakultet informatike i digitalnih tehnologija, Rijeka

Profili:

Sanda Martinčić - Ipšić (mentor)

CROSBI Hrvatska znanstvena bibliografija

Pregled bibliografske jedinice broj: 1145195

Ekstraktivno sažimanje članaka Wikipedije na njemačkom jeziku

Citiraj ovu publikaciju:

Pregled bibliografske jedinice broj: 1145195

Ekstraktivno sažimanje članaka Wikipedije na njemačkom jeziku

Citiraj ovu publikaciju:

Podijeli: