Pregled bibliografske jedinice broj: 587199
Pristupi ovisnosnom parsanju hrvatskih tekstova
Pristupi ovisnosnom parsanju hrvatskih tekstova, 2012., doktorska disertacija, Filozofski fakultet, Zagreb
CROSBI ID: 587199 Za ispravke kontaktirajte CROSBI podršku putem web obrasca
Naslov
Pristupi ovisnosnom parsanju hrvatskih tekstova
(Approaches to Dependency Parsing of Croatian Texts)
Autori
Agić, Željko
Vrsta, podvrsta i kategorija rada
Ocjenski radovi, doktorska disertacija
Fakultet
Filozofski fakultet
Mjesto
Zagreb
Datum
09.07
Godina
2012
Stranica
216
Mentor
Dovedan, Zdravko ; Tadić, Marko
Ključne riječi
ovisnosno parsanje; ovisnosna sintaksa; hrvatski jezik; Hrvatska ovisnosna banka stabala; sustavi temeljeni na podatcima; hibridni pristup; jezične tehnologije
(dependency parsing; data-driven parsing; dependency syntax; Croatian language; Croatian Dependency Treebank; hybrid approach; language technologies)
Sažetak
Parsanje tekstova prirodnoga jezika – u presjeku teorijskih okvira onih znanstvenih disciplina koje sačinjavaju interdisciplinarno znanstveno područje jezičnih tehnologija – definira se kao strojna sintaktička analiza pojedinih rečenica tih tekstova, odnosno kao strojni postupak jednoznačnoga otkrivanja sintaktičkih uloga pojedinih njihovih riječi u izgradnji osnovnih elemenata rečeničnoga ustroja – poput rečeničnih predikata, subjekata i objekata – prema nekoj unaprijed zadanoj sintaktičkoj teoriji. Korisnost parsanja tekstova prirodnoga jezika očituje se u rješavanju niza problema obradbe prirodnoga jezika, od pronalaženja značenjskih odnosa u tekstovima do statističkoga strojnog prevođenja, a također i pri pronalaženju obavijesti i u proučavanju svojstava prirodnih jezika. U ovome istraživanju razmotreni su neki pristupi ovisnosnomu parsanju tekstova hrvatskoga jezika temeljeni na podatcima, odnosno neki pristupi strojnoj sintaktičkoj analizi hrvatskih tekstova prema implicitnome teorijskom modelu sintakse hrvatskoga jezika temeljenome na uspostavljanju ovisnosnih odnosa među elementima rečeničnoga ustroja i unutar njih te sadržanome u sintaktički obilježenome korpusu tekstova hrvatskoga jezika. Postavljena je definicija parsanja kao problema strojne obradbe prirodnoga jezika i kao problema oponašanja ljudske inteligencije računalnim postupcima. Preko teorijskoga okvira formalnih jezika i postavljanja općih kriterija za vrjednovanje postupaka parsanja izložena je definicija ovisnosnoga parsanja temeljenoga na podatcima i predstavljeni su neki pristupi rješavanju toga problema – modeli ovisnosnoga parsanja temeljeni na teoriji grafova i modeli temeljeni na prijelazničkim sustavima. Opisan je i izveden hibridni pristup ovisnosnomu parsanju hrvatskih tekstova, temeljen na teoriji grafova i naknadnome vrjednovanju predloženih rješenja povezivanjem s valencijskim rječnikom glagola hrvatskoga jezika CROVALLEX. Korištenjem Hrvatske ovisnosne banke stabala i definiranjem mjera za vrjednovanje točnosti i učinkovitosti parsera postavljeno je okruženje za vrjednovanje ovisnosnoga parsanja hrvatskih tekstova, i to parserima iz okvira teorije grafova i okvira prijelazničkih sustava te za vrjednovanje novopredloženoga hibridnog pristupa u usporedbi s prethodnima. Za hibridni pristup zabilježena je ukupna točnost ovisnosnoga parsanja od oko 77.21% točnih povezivanja riječi ovisnosnim relacijama uz dodjelu točne sintaktičke funkcije, odnosno statistički značajno povećanje od oko 2.68% u odnosu na najbolji postojeći model ovisnosnoga parsanja.
Izvorni jezik
Hrvatski
Znanstvena područja
Računarstvo, Informacijske i komunikacijske znanosti, Filologija
POVEZANOST RADA
Projekti:
130-1300646-0645 - Hrvatski jezični resursi i njihovo obilježavanje (Tadić, Marko, MZOS ) ( CroRIS)
130-1300646-1776 - Računalna sintaksa hrvatskoga jezika (Dovedan Han, Zdravko, MZOS ) ( CroRIS)
Ustanove:
Filozofski fakultet, Zagreb