Pregled bibliografske jedinice broj: 1114657
Višejezično izdvajanje citata iz novinskih članaka
Višejezično izdvajanje citata iz novinskih članaka, 2020., diplomski rad, preddiplomski, Filozofski fakultet, Zagreb
CROSBI ID: 1114657 Za ispravke kontaktirajte CROSBI podršku putem web obrasca
Naslov
Višejezično izdvajanje citata iz novinskih članaka
(Multilingual Extraction of Quotes from News
Articles)
Autori
Sarajlić, Jelena
Vrsta, podvrsta i kategorija rada
Ocjenski radovi, diplomski rad, preddiplomski
Fakultet
Filozofski fakultet
Mjesto
Zagreb
Datum
06.07
Godina
2020
Stranica
46
Mentor
Mikelić Preradović, Nives
Ključne riječi
izdvajanje citata, višejezičnost, računalna obrada jezika, razrješavanje koreferencije
(quotation extraction, multilinguality, computational processing of language, coreference resolution)
Sažetak
Završni rad "Višejezično izdvajanje citata iz novinskih članaka" predstavlja različite pristupe izdvajanju citata na više jezika. Rad opisuje proces izdvajanja citata iz novinskih članaka pisanih na više jezika, kao i postojeće probleme pri tom procesu (detekcija i ekstrakcija sadržaja citata, pridruživanje govornika i glagola koji uvodi citat) kroz više različitih pristupa. Također se prikazuju mogući načini razrješavanja koreferencije, koje su česta pojavnost u novinskim tekstovima. Daje se opis sustava i alata koji izdvajaju sve vrste citata iz desetak različitih jezika. Rad nastoji prikazati konkretne probleme koji pri tom procesu nastaju te usporediti različita moguća rješenja tih problema. Na koncu se opisuje prvi korak u gradnji sustava za izdvajanje citata, a to je ručna anotacija podataka. Anotacija obuhvaća označavanje sadržaja citata i njihovog opsega te označavanje govornika (ili, u slučaju zamjenice ili aliasa, naznačavanje originalnog govornika), kao i glagola koji uvodi citat. Uz opis postupka anotacije, opisuju se i različiti problemi na koje se tijekom anotacije naišlo.
Izvorni jezik
Hrvatski
Znanstvena područja
Informacijske i komunikacijske znanosti