Pregled bibliografske jedinice broj: 219247
Strojno prepoznavanje naziva u suvremenim hrvatskim tekstovima
Strojno prepoznavanje naziva u suvremenim hrvatskim tekstovima, 2005., doktorska disertacija, Filozofski fakultet, Zagreb
CROSBI ID: 219247 Za ispravke kontaktirajte CROSBI podršku putem web obrasca
Naslov
Strojno prepoznavanje naziva u suvremenim hrvatskim tekstovima
(Named Entity Recognition and Classification in contemporary Croatian texts)
Autori
Bekavac, Božo
Vrsta, podvrsta i kategorija rada
Ocjenski radovi, doktorska disertacija
Fakultet
Filozofski fakultet
Mjesto
Zagreb
Datum
28.06
Godina
2005
Stranica
172
Mentor
Tadić, Marko
Ključne riječi
prepoznavanje i klasifikacija naziva (PKN); računalna lingvistika; sustav zasnovan na pravilima; regularne gramatike; obilježavanje teksta; crpljenje obavijesti; hrvatski jezik
(Named Entity Recognition and Classification (NERC); computational linguistics; rule based system; regular grammars; text annotation; information extraction; Croatian language)
Sažetak
U radu je opisan sustav za prepoznavanje i klasifikaciju naziva za hrvatski jezik nazvan OZANA. Sustav se sastoji od modula za segmentaciju na rečenice, općeg leksikona, specijaliziranih leksikona imena i transduktora za automatsko prepoznavanje brojeva i nekih oblika pridjeva. Nakon segmentiranja teksta na rečenice, obilježavaju se pojavnice teksta (leme i morfosintaktičke osobine općih riječi, te potencijalne kategorije naziva s pomoću specijaliziranih popisa naziva) bez razrješenja mogućih višeznačnosti. Srž sustava sačinjavaju regularne gramatike (pravila) za prepoznavanje i klasifikaciju naziva koje se izvode nad obilježenim tekstovima. Pravila se zasnivaju na opisanim strategijama (poput unutarnjih i vanjskih dokaza), a primjenjuju se kaskadno određenim redoslijedom. Rezultat su obrade obilježeni nazivi u tekstovima u XML obliku prema specifikaciji s konferencije MUC-7. Pravila sustava primijenjena su na novinske i prozne tekstove, te su uspoređene razlike i uzroci odstupanja. F-mjera sustava izmjerena na tekstovima novinskog korpusa iznosi 90 %.
Izvorni jezik
Hrvatski
Znanstvena područja
Informacijske i komunikacijske znanosti, Filologija
POVEZANOST RADA