Pregled bibliografske jedinice broj: 1145195
Ekstraktivno sažimanje članaka Wikipedije na njemačkom jeziku
Ekstraktivno sažimanje članaka Wikipedije na njemačkom jeziku, 2021., diplomski rad, diplomski, Odjel za informatiku, Rijeka
CROSBI ID: 1145195 Za ispravke kontaktirajte CROSBI podršku putem web obrasca
Naslov
Ekstraktivno sažimanje članaka Wikipedije na
njemačkom jeziku
(Extractive Summarization of German Wikipedia)
Autori
Beli, Dorian
Vrsta, podvrsta i kategorija rada
Ocjenski radovi, diplomski rad, diplomski
Fakultet
Odjel za informatiku
Mjesto
Rijeka
Datum
22.09
Godina
2021
Stranica
127
Mentor
Martinčić-Ipšić, Sanda
Ključne riječi
SBKE, LexRank, TextRank, ekstraktivne metode sažimanja, njemački jezik, sažimanje njemačkih tekstova, mjere sličnosti
(SBKE, LexRank, TextRank, extractive summarization methods, German language, German language text summarization, similarity measures)
Sažetak
U svijetu ovisnom sve više o online i cloud tehnologijama gdje se u posljednje vrijeme odvija sve veća pohrana i obrada podataka, pojavljuje se potreba za algoritmima sažimanja i rangiranja tekstualnih datoteka, stranica i drugih izvora. Algoritmi ekstraktivnog i apstraktnog sažimanja tekstova nastoje na što brži, bolji i jednostavniji način obraditi i predstaviti velike količine tekstova u što kraćem vremenu sa što većom preciznošću. U ovom diplomskom radu riječ je upravo o nekoliko takvih algoritama te se prvenstveno usmjerava na algoritme ekstraktivne prirode. Kako bi se utvrdila važnost rečenice, njihova međusobna povezanost te koje rečenice imaju veće značenje razvijeni su različiti algoritmi sličnosti rečenica. Ovdje se primjenjuju algoritmi sličnosti kosinusa, Jaccardova sličnost, te Mihalcea sličnost (Mihalcea, Corley i Strapparava 2006) te algoritmi rangiranja i sažimanja SBKE (Beliga, Martinčić-Ipšić i Meštrović 2016) i LexRank. Na temelju formiranih grafova i primjene različitih mjera sličnosti rečenica pristupom stvaranja grafova, SBKE je ostvario najbolji rezultat u kombinaciji sa Jaccardovom mjerom sličnosti do 19, 04% , LexRank u kombinaciji s Mihalcea algoritmom sličnosti rečenica do 16, 26%, algoritam sažimanja na temelju Kullback_Leiblerove divergencije je ostvario 8, 96% točnosti, a TextRank, koji koristi čisti PageRank algoritam bez mjera sličnosti, je ostvario rezultat od 17, 04%. Također su primijenjeni i klasifikatori na temelju TF-IDF, word2vec i doc2vec vektora. Algoritam slučajnih šuma je ostvario najbolji rezultat od 76, 51%, algoritam Naîvnog Bayesa je ostvario najbolji rezultat od 91, 36%, dok je SVM klasifikator ostvario najbolji rezultat od 90, 43%.
Izvorni jezik
Hrvatski
Znanstvena područja
Računarstvo, Informacijske i komunikacijske znanosti
POVEZANOST RADA
Projekti:
NadSve-Sveučilište u Rijeci-uniri-drustv-18-20 - Izlučivanje ključnih riječi i sažimanje tekstova na temelju reprezentacije u mrežama jezika-LangNet (LangNet) (Martinčić-Ipšić, Sanda, NadSve - Natječaj za dodjelu sredstava potpore znanstvenim istraživanjima na Sveučilištu u Rijeci za 2018. godinu - projekti iskusnih znanstvenika i umjetnika) ( CroRIS)
Ustanove:
Fakultet informatike i digitalnih tehnologija, Rijeka
Profili:
Sanda Martinčić - Ipšić
(mentor)