Pregled bibliografske jedinice broj: 1155916
Duboko učenje za ekstraktivno sažimanje teksta
Duboko učenje za ekstraktivno sažimanje teksta, 2021., diplomski rad, diplomski, Odjel za informatiku, Rijeka
CROSBI ID: 1155916 Za ispravke kontaktirajte CROSBI podršku putem web obrasca
Naslov
Duboko učenje za ekstraktivno sažimanje teksta
(Deep Learning for Extractive Text Summarization)
Autori
Aljević, Dino
Vrsta, podvrsta i kategorija rada
Ocjenski radovi, diplomski rad, diplomski
Fakultet
Odjel za informatiku
Mjesto
Rijeka
Datum
09.11
Godina
2021
Stranica
30
Mentor
Martinčić-Ipšić, Sanda
Ključne riječi
sažimanje teksta, neuronska mreža, duboko učenje, višeslojni perceptron, rekurentna neuronska mreža, upravljačka rekurentna jedinica
(ext summarization, neural network, deep learning, multilayer perceptron, recurrent neural network, gated recurrent unit)
Sažetak
Extractive text summarization is tasked with the automatic creation of a summary by extracting the most salient sentences from the original text. In this thesis, two extractive summarization methods are trained and tested: multilayer perceptron and gated recurrent unit. Both methods are trained as a binary classifier capable of assigning the class summary or not-summary to input sentences. In the multilayer perceptron method, each sentence is represented by Doc2Vec embedding. The embedding layer of GRU is initialized with Word2Vec vectors of the words in the vocabulary and the input vectors contain sequences of the words from the original text. The output is a class probability assigned by the logistic function classifier. The CNN/DailyMail dataset is used to train and evaluate extractive summarization models using the ROUGE-1, ROUGE-2, and ROUGE-LCS measures to assess the performance. Generally, GRU achieves better extractive summarization results when precision is considered, while perceptron performs better according to the recall metrics, regardless of the used ROUGE measures. The results are indicating that both methods are capable of performing extractive summarization task.
Izvorni jezik
Hrvatski
Znanstvena područja
Računarstvo, Informacijske i komunikacijske znanosti
POVEZANOST RADA
Projekti:
NadSve-Sveučilište u Rijeci-uniri-drustv-18-20 - Izlučivanje ključnih riječi i sažimanje tekstova na temelju reprezentacije u mrežama jezika-LangNet (LangNet) (Martinčić-Ipšić, Sanda, NadSve - Natječaj za dodjelu sredstava potpore znanstvenim istraživanjima na Sveučilištu u Rijeci za 2018. godinu - projekti iskusnih znanstvenika i umjetnika) ( CroRIS)
Ustanove:
Fakultet informatike i digitalnih tehnologija, Rijeka
Profili:
Sanda Martinčić - Ipšić
(mentor)