Pregled bibliografske jedinice broj: 525563
Automatizacija procesa konstruiranja domenske ontologije iz polustrukturiranih dokumenata
Automatizacija procesa konstruiranja domenske ontologije iz polustrukturiranih dokumenata, 2011., doktorska disertacija, Fakultet elektrotehnike i računarstva, Zagreb
CROSBI ID: 525563 Za ispravke kontaktirajte CROSBI podršku putem web obrasca
Naslov
Automatizacija procesa konstruiranja domenske ontologije iz polustrukturiranih dokumenata
(Automating process of domain ontology construction from semistructured documents)
Autori
Jurić, Damir
Vrsta, podvrsta i kategorija rada
Ocjenski radovi, doktorska disertacija
Fakultet
Fakultet elektrotehnike i računarstva
Mjesto
Zagreb
Datum
28.02
Godina
2011
Stranica
158
Mentor
Banek, Marko
Ključne riječi
konstruiranje ontologija; domenske ontologije; ekstrakcija relacija; ekstrakcija taksonomije; enciklopedija Wikipedija; jezik OWL
(ontology construction; domain ontologies; relation extraction; taxonomy extraction; Wikipedia; OWL)
Sažetak
U disertaciji je razvijena metoda za konstruiranje domenske ontologije iz enciklopedijskog teksta. Metoda koristi enciklopediju Wikipediju jer ta enciklopedija predstavlja iscpan i djelomično strukturiran izvor koji je javno dostupan. Prema razvijenoj metodi najprije se izvodi algoritam za ekstrakciju pojmova koji će izgrađivati buduću domensku ontologiju iz članaka Wikipedije. Članci prolaze proces čišćenja i pripreme za obradu teksta te se konstruira njihov sažeti formalni zapis članka. Ekstrahiraju se rečenične strukture koje osim subjekta, predikata i objekta sadrže i objekte prijedložnih oznaka (struktura n‐arnog tipa). Relacije dobivene iz ovog postupka se generaliziraju algoritmom za ekstrakciju hijerarhijskih relacija iz članaka Wikipedije i WordNeta razvijenim za potrebe ove disertacije. U disertaciji je riješen i problem konzistentnog imenovanja relacija. Iskorišteni su semantički resursi poput baze glagola i baze značenja prijedloga da bi se za različite relacije koje postoje između događaja i aktera koji sudjeluju u događajima pronašli uniformni nazivi. Definiran je način zapisivanja ekstrahiranih n‐arnih relacija u standardni jezik za zapisivanje ontologija. Na kraju disertacije izvršena je evaluacija te je pokazano da je točnost ove metode usporediva s drugim metodama, koje su međutim po opsegu i specifičnosti ekstrahiranog znanja slabije.
Izvorni jezik
Hrvatski
Znanstvena područja
Elektrotehnika, Računarstvo
POVEZANOST RADA
Projekti:
036-0362027-1638 - Umrežena ekonomija (Skočir, Zoran, MZO ) ( CroRIS)
Ustanove:
Fakultet elektrotehnike i računarstva, Zagreb