Pretražite po imenu i prezimenu autora, mentora, urednika, prevoditelja

Napredna pretraga

Pregled bibliografske jedinice broj: 773344

Model višerazinske prezentacije tekstova starijih hrvatskih rječnika


Bago, Petra
Model višerazinske prezentacije tekstova starijih hrvatskih rječnika, 2014., doktorska disertacija, Filozofski fakultet, Zagreb


CROSBI ID: 773344 Za ispravke kontaktirajte CROSBI podršku putem web obrasca

Naslov
Model višerazinske prezentacije tekstova starijih hrvatskih rječnika
(Multilevel presentation model of old Croatian dictionary texts)

Autori
Bago, Petra

Vrsta, podvrsta i kategorija rada
Ocjenski radovi, doktorska disertacija

Fakultet
Filozofski fakultet

Mjesto
Zagreb

Datum
29.09

Godina
2014

Stranica
306

Mentor
Boras, Damir ; Ljubešić, Nikola

Ključne riječi
povijesni rječnici; označavanje jezika; označavanje strukture; nadzirano strojno učenje; Text Encoding Initative; uvjetna nasumična polja
(historical dictionaries; language annotation; structural annotation; supervised machine learning; Text Encoding Initiative; conditional random fields)

Sažetak
Cilj istraživanja je razvoj modela koji omogućavavišerazinski prikaz znanja u tekstovima starijih hrvatskih rječnika. Dodatno je omogućena interoperabilnost s drugim jezičnim resursima, alatima i sustavima za obradu prirodnoga jezika. Model prikaza znanja u rječnicima proveden je nad sedam odabranih rječnika tiskanih u rasponu od preko 300 godina (1595. – 1901.). Koristeći de facto standard (Text Encoding Initiative, TEI), omogućena je interoperabilnost resursa. Konačno, primijenjene su metode za automatsku i poluautomatsku obradu digitaliziranih povijesnih tekstova čime se ubrzava i pojednostavljuje proces obrade starijih rječničkih tekstova. Korišten je najsuvremeniji algoritam nadziranog strojnog učenja za označavanje sekvenci nazvan uvjetna nasumična polja (engl. conditional random fields, CRF). Istraživanje je provedeno na jednom rječniku s najsloženijom strukturom rječničke natuknice. Skup podataka sadrži 7 972 rječničke natuknice (403 128 pojavnica). Skup za učenje sastoji se od 101 nasumično odabrane rječničke natuknice (8 340 pojavnica). Svaka pojavnica označena je na dvije razine: oznakom za jezik i oznakom za strukturu. Jezična razina ima tri različite oznake, dok strukturna razina ima 19 oznaka. Kod označavanja jezika postignuta je točnost od 0, 98413, a kod označavanja strukture točnost iznosi 0, 96371. Dodatnim eksperimentom potvrđeno je da je ispravljanje automatskih oznaka 4, 46 puta brže od ručnog označavanja.

Izvorni jezik
Hrvatski

Znanstvena područja
Informacijske i komunikacijske znanosti



POVEZANOST RADA


Projekti:
130-1301679-1380 - Hrvatska rječnička baština i hrvatski europski identitet (Boras, Damir, MZOS ) ( CroRIS)

Ustanove:
Filozofski fakultet, Zagreb

Profili:

Avatar Url Petra Bago (autor)

Avatar Url Nikola Ljubešić (mentor)

Avatar Url Damir Boras (mentor)


Citiraj ovu publikaciju:

Bago, Petra
Model višerazinske prezentacije tekstova starijih hrvatskih rječnika, 2014., doktorska disertacija, Filozofski fakultet, Zagreb
Bago, P. (2014) 'Model višerazinske prezentacije tekstova starijih hrvatskih rječnika', doktorska disertacija, Filozofski fakultet, Zagreb.
@phdthesis{phdthesis, author = {Bago, Petra}, year = {2014}, pages = {306}, keywords = {povijesni rje\v{c}nici, ozna\v{c}avanje jezika, ozna\v{c}avanje strukture, nadzirano strojno u\v{c}enje, Text Encoding Initative, uvjetna nasumi\v{c}na polja}, title = {Model vi\v{s}erazinske prezentacije tekstova starijih hrvatskih rje\v{c}nika}, keyword = {povijesni rje\v{c}nici, ozna\v{c}avanje jezika, ozna\v{c}avanje strukture, nadzirano strojno u\v{c}enje, Text Encoding Initative, uvjetna nasumi\v{c}na polja}, publisherplace = {Zagreb} }
@phdthesis{phdthesis, author = {Bago, Petra}, year = {2014}, pages = {306}, keywords = {historical dictionaries, language annotation, structural annotation, supervised machine learning, Text Encoding Initiative, conditional random fields}, title = {Multilevel presentation model of old Croatian dictionary texts}, keyword = {historical dictionaries, language annotation, structural annotation, supervised machine learning, Text Encoding Initiative, conditional random fields}, publisherplace = {Zagreb} }




Contrast
Increase Font
Decrease Font
Dyslexic Font