Nalazite se na CroRIS probnoj okolini. Ovdje evidentirani podaci neće biti pohranjeni u Informacijskom sustavu znanosti RH. Ako je ovo greška, CroRIS produkcijskoj okolini moguće je pristupi putem poveznice www.croris.hr
izvor podataka: crosbi !

Model višerazinske prezentacije tekstova starijih hrvatskih rječnika (CROSBI ID 396938)

Ocjenski rad | doktorska disertacija

Bago, Petra Model višerazinske prezentacije tekstova starijih hrvatskih rječnika / Boras, Damir ; Ljubešić, Nikola (mentor); Zagreb, Filozofski fakultet u Zagrebu, . 2014

Podaci o odgovornosti

Bago, Petra

Boras, Damir ; Ljubešić, Nikola

hrvatski

Model višerazinske prezentacije tekstova starijih hrvatskih rječnika

Cilj istraživanja je razvoj modela koji omogućavavišerazinski prikaz znanja u tekstovima starijih hrvatskih rječnika. Dodatno je omogućena interoperabilnost s drugim jezičnim resursima, alatima i sustavima za obradu prirodnoga jezika. Model prikaza znanja u rječnicima proveden je nad sedam odabranih rječnika tiskanih u rasponu od preko 300 godina (1595. – 1901.). Koristeći de facto standard (Text Encoding Initiative, TEI), omogućena je interoperabilnost resursa. Konačno, primijenjene su metode za automatsku i poluautomatsku obradu digitaliziranih povijesnih tekstova čime se ubrzava i pojednostavljuje proces obrade starijih rječničkih tekstova. Korišten je najsuvremeniji algoritam nadziranog strojnog učenja za označavanje sekvenci nazvan uvjetna nasumična polja (engl. conditional random fields, CRF). Istraživanje je provedeno na jednom rječniku s najsloženijom strukturom rječničke natuknice. Skup podataka sadrži 7 972 rječničke natuknice (403 128 pojavnica). Skup za učenje sastoji se od 101 nasumično odabrane rječničke natuknice (8 340 pojavnica). Svaka pojavnica označena je na dvije razine: oznakom za jezik i oznakom za strukturu. Jezična razina ima tri različite oznake, dok strukturna razina ima 19 oznaka. Kod označavanja jezika postignuta je točnost od 0, 98413, a kod označavanja strukture točnost iznosi 0, 96371. Dodatnim eksperimentom potvrđeno je da je ispravljanje automatskih oznaka 4, 46 puta brže od ručnog označavanja.

povijesni rječnici; označavanje jezika; označavanje strukture; nadzirano strojno učenje; Text Encoding Initative; uvjetna nasumična polja

nije evidentirano

engleski

Multilevel presentation model of old Croatian dictionary texts

nije evidentirano

historical dictionaries; language annotation; structural annotation; supervised machine learning; Text Encoding Initiative; conditional random fields

nije evidentirano

Podaci o izdanju

306

29.09.2014.

obranjeno

Podaci o ustanovi koja je dodijelila akademski stupanj

Filozofski fakultet u Zagrebu

Zagreb

Povezanost rada

Informacijske i komunikacijske znanosti