Pregled bibliografske jedinice broj: 348726
Investigating Language Independence in HMM PoS/MSD-Tagging
Investigating Language Independence in HMM PoS/MSD-Tagging // Proceedings of the 30th International Conference on Information Technology Interfaces / Lužar-Stiffler, Vesna ; Hljuz Dobrić, Vesna ; Bekić, Zoran (ur.).
Zagreb: Sveučilišni računski centar Sveučilišta u Zagrebu (Srce), 2008. str. 657-662 (predavanje, međunarodna recenzija, cjeloviti rad (in extenso), znanstveni)
CROSBI ID: 348726 Za ispravke kontaktirajte CROSBI podršku putem web obrasca
Naslov
Investigating Language Independence in HMM PoS/MSD-Tagging
Autori
Agić, Željko ; Tadić, Marko ; Dovedan, Zdravko
Vrsta, podvrsta i kategorija rada
Radovi u zbornicima skupova, cjeloviti rad (in extenso), znanstveni
Izvornik
Proceedings of the 30th International Conference on Information Technology Interfaces
/ Lužar-Stiffler, Vesna ; Hljuz Dobrić, Vesna ; Bekić, Zoran - Zagreb : Sveučilišni računski centar Sveučilišta u Zagrebu (Srce), 2008, 657-662
ISBN
978-953-7138-12-7
Skup
30th International Conference on Information Technology Interfaces (ITI 2008)
Mjesto i datum
Dubrovnik, Hrvatska; Cavtat, Hrvatska, 23.06.2008. - 26.06.2008
Vrsta sudjelovanja
Predavanje
Vrsta recenzije
Međunarodna recenzija
Ključne riječi
language independence; part-of-speech tagging; morphosyntactic tagging; hidden Markov models
Sažetak
The paper presents an investigation of functional dependencies in morphosyntactic tagging using hidden Markov models. Starting from a well known fact that the HMM tagging paradigm relies on lexical knowledge acquired from training corpora and stored in form of transition and emission matrices, also called a language model, in the experiment, we apply the TnT trigram tagger on creating language models for seven different languages from the MULTEXT East v3 project translations of George Orwell’ s 1984. – Czech, Estonian, Hungarian, Romanian, Serbian, Slovene and original English version. We then use these language models in the tagging procedure and obtain details on various relations between training corpora statistics, training outputs and outputs of the tagging procedure.
Izvorni jezik
Engleski
Znanstvena područja
Računarstvo, Informacijske i komunikacijske znanosti, Filologija
POVEZANOST RADA
Projekti:
036-1300646-1986 - Otkrivanje znanja u tekstnim podacima (Dalbelo-Bašić, Bojana, MZO ) ( CroRIS)
130-1300646-0645 - Hrvatski jezični resursi i njihovo obilježavanje (Tadić, Marko, MZOS ) ( CroRIS)
130-1300646-1776 - Računalna sintaksa hrvatskoga jezika (Dovedan Han, Zdravko, MZOS ) ( CroRIS)
Ustanove:
Filozofski fakultet, Zagreb