Pristupi ovisnosnom parsanju hrvatskih tekstova (CROSBI ID 372921)
Ocjenski rad | doktorska disertacija
Podaci o odgovornosti
Agić, Željko
Dovedan, Zdravko ; Tadić, Marko
hrvatski
Pristupi ovisnosnom parsanju hrvatskih tekstova
Parsanje tekstova prirodnoga jezika – u presjeku teorijskih okvira onih znanstvenih disciplina koje sačinjavaju interdisciplinarno znanstveno područje jezičnih tehnologija – definira se kao strojna sintaktička analiza pojedinih rečenica tih tekstova, odnosno kao strojni postupak jednoznačnoga otkrivanja sintaktičkih uloga pojedinih njihovih riječi u izgradnji osnovnih elemenata rečeničnoga ustroja – poput rečeničnih predikata, subjekata i objekata – prema nekoj unaprijed zadanoj sintaktičkoj teoriji. Korisnost parsanja tekstova prirodnoga jezika očituje se u rješavanju niza problema obradbe prirodnoga jezika, od pronalaženja značenjskih odnosa u tekstovima do statističkoga strojnog prevođenja, a također i pri pronalaženju obavijesti i u proučavanju svojstava prirodnih jezika. U ovome istraživanju razmotreni su neki pristupi ovisnosnomu parsanju tekstova hrvatskoga jezika temeljeni na podatcima, odnosno neki pristupi strojnoj sintaktičkoj analizi hrvatskih tekstova prema implicitnome teorijskom modelu sintakse hrvatskoga jezika temeljenome na uspostavljanju ovisnosnih odnosa među elementima rečeničnoga ustroja i unutar njih te sadržanome u sintaktički obilježenome korpusu tekstova hrvatskoga jezika. Postavljena je definicija parsanja kao problema strojne obradbe prirodnoga jezika i kao problema oponašanja ljudske inteligencije računalnim postupcima. Preko teorijskoga okvira formalnih jezika i postavljanja općih kriterija za vrjednovanje postupaka parsanja izložena je definicija ovisnosnoga parsanja temeljenoga na podatcima i predstavljeni su neki pristupi rješavanju toga problema – modeli ovisnosnoga parsanja temeljeni na teoriji grafova i modeli temeljeni na prijelazničkim sustavima. Opisan je i izveden hibridni pristup ovisnosnomu parsanju hrvatskih tekstova, temeljen na teoriji grafova i naknadnome vrjednovanju predloženih rješenja povezivanjem s valencijskim rječnikom glagola hrvatskoga jezika CROVALLEX. Korištenjem Hrvatske ovisnosne banke stabala i definiranjem mjera za vrjednovanje točnosti i učinkovitosti parsera postavljeno je okruženje za vrjednovanje ovisnosnoga parsanja hrvatskih tekstova, i to parserima iz okvira teorije grafova i okvira prijelazničkih sustava te za vrjednovanje novopredloženoga hibridnog pristupa u usporedbi s prethodnima. Za hibridni pristup zabilježena je ukupna točnost ovisnosnoga parsanja od oko 77.21% točnih povezivanja riječi ovisnosnim relacijama uz dodjelu točne sintaktičke funkcije, odnosno statistički značajno povećanje od oko 2.68% u odnosu na najbolji postojeći model ovisnosnoga parsanja.
ovisnosno parsanje; ovisnosna sintaksa; hrvatski jezik; Hrvatska ovisnosna banka stabala; sustavi temeljeni na podatcima; hibridni pristup; jezične tehnologije
nije evidentirano
engleski
Approaches to Dependency Parsing of Croatian Texts
nije evidentirano
dependency parsing; data-driven parsing; dependency syntax; Croatian language; Croatian Dependency Treebank; hybrid approach; language technologies
nije evidentirano
Podaci o izdanju
216
09.07.2012.
obranjeno
Podaci o ustanovi koja je dodijelila akademski stupanj
Filozofski fakultet u Zagrebu
Zagreb