Pretražite po imenu i prezimenu autora, mentora, urednika, prevoditelja

Napredna pretraga

Pregled bibliografske jedinice broj: 433148

Tagset Reductions in Morphosyntactic Tagging of Croatian Texts


Agić, Željko; Tadić, Marko; Dovedan, Zdravko
Tagset Reductions in Morphosyntactic Tagging of Croatian Texts // The Future of Information Sciences: Digital Resources and Knowledge Sharing (INFuture 2009) / Stančić, Hrvoje ; Seljan, Sanja ; Bawden, David ; Lasić-Lazić, Jadranka ; Slavić, Aida (ur.).
Zagreb: Odsjek za informacijske i komunikacijske znanosti Filozofskog fakulteta Sveučilišta u Zagrebu, 2009. str. 289-298 (predavanje, međunarodna recenzija, cjeloviti rad (in extenso), znanstveni)


CROSBI ID: 433148 Za ispravke kontaktirajte CROSBI podršku putem web obrasca

Naslov
Tagset Reductions in Morphosyntactic Tagging of Croatian Texts

Autori
Agić, Željko ; Tadić, Marko ; Dovedan, Zdravko

Vrsta, podvrsta i kategorija rada
Radovi u zbornicima skupova, cjeloviti rad (in extenso), znanstveni

Izvornik
The Future of Information Sciences: Digital Resources and Knowledge Sharing (INFuture 2009) / Stančić, Hrvoje ; Seljan, Sanja ; Bawden, David ; Lasić-Lazić, Jadranka ; Slavić, Aida - Zagreb : Odsjek za informacijske i komunikacijske znanosti Filozofskog fakulteta Sveučilišta u Zagrebu, 2009, 289-298

ISBN
978-953-175-355-5

Skup
INFuture 2009

Mjesto i datum
Zagreb, Hrvatska, 04.11.2009. - 06.11.2009

Vrsta sudjelovanja
Predavanje

Vrsta recenzije
Međunarodna recenzija

Ključne riječi
morphosyntactic tagging; part-of-speech tagging; stochastic tagger; Multext East tagset; tagset reductions; Croatian language

Sažetak
Morphosyntactic tagging of Croatian texts is performed with stochastic taggers by using a language model built on a manually annotated corpus implementing the Multext East version 3 specifications for Croatian. Tagging accuracy in this framework is basically predefined, i.e. proportionally dependent of two things: the size of the training corpus and the number of different morphosyntactic tags encompassed by that corpus. Being that the 100 kw Croatia Weekly newspaper corpus by definition makes a rather small language model in terms of stochastic tagging of free domain texts, the paper presents an approach dealing with tagset reductions. Several meaningful subsets of the Croatian Multext- East version 3 morphosyntactic tagset specifications are created and applied on Croatian texts with the CroTag stochastic tagger, measuring overall tagging accuracy and F1-measures. Obtained results are discussed in terms of applying different reductions in different natural language processing systems and specific tasks defined by specific user requirements.

Izvorni jezik
Engleski

Znanstvena područja
Informacijske i komunikacijske znanosti, Filologija



POVEZANOST RADA


Projekti:
130-1300646-0645 - Hrvatski jezični resursi i njihovo obilježavanje (Tadić, Marko, MZOS ) ( CroRIS)
130-1300646-1776 - Računalna sintaksa hrvatskoga jezika (Dovedan Han, Zdravko, MZOS ) ( CroRIS)

Ustanove:
Filozofski fakultet, Zagreb

Profili:

Avatar Url Zdravko Dovedan Han (autor)

Avatar Url Marko Tadić (autor)

Avatar Url Željko Agić (autor)

Poveznice na cjeloviti tekst rada:

Pristup cjelovitom tekstu rada

Citiraj ovu publikaciju:

Agić, Željko; Tadić, Marko; Dovedan, Zdravko
Tagset Reductions in Morphosyntactic Tagging of Croatian Texts // The Future of Information Sciences: Digital Resources and Knowledge Sharing (INFuture 2009) / Stančić, Hrvoje ; Seljan, Sanja ; Bawden, David ; Lasić-Lazić, Jadranka ; Slavić, Aida (ur.).
Zagreb: Odsjek za informacijske i komunikacijske znanosti Filozofskog fakulteta Sveučilišta u Zagrebu, 2009. str. 289-298 (predavanje, međunarodna recenzija, cjeloviti rad (in extenso), znanstveni)
Agić, Ž., Tadić, M. & Dovedan, Z. (2009) Tagset Reductions in Morphosyntactic Tagging of Croatian Texts. U: Stančić, H., Seljan, S., Bawden, D., Lasić-Lazić, J. & Slavić, A. (ur.)The Future of Information Sciences: Digital Resources and Knowledge Sharing (INFuture 2009).
@article{article, author = {Agi\'{c}, \v{Z}eljko and Tadi\'{c}, Marko and Dovedan, Zdravko}, year = {2009}, pages = {289-298}, keywords = {morphosyntactic tagging, part-of-speech tagging, stochastic tagger, Multext East tagset, tagset reductions, Croatian language}, isbn = {978-953-175-355-5}, title = {Tagset Reductions in Morphosyntactic Tagging of Croatian Texts}, keyword = {morphosyntactic tagging, part-of-speech tagging, stochastic tagger, Multext East tagset, tagset reductions, Croatian language}, publisher = {Odsjek za informacijske i komunikacijske znanosti Filozofskog fakulteta Sveu\v{c}ili\v{s}ta u Zagrebu}, publisherplace = {Zagreb, Hrvatska} }
@article{article, author = {Agi\'{c}, \v{Z}eljko and Tadi\'{c}, Marko and Dovedan, Zdravko}, year = {2009}, pages = {289-298}, keywords = {morphosyntactic tagging, part-of-speech tagging, stochastic tagger, Multext East tagset, tagset reductions, Croatian language}, isbn = {978-953-175-355-5}, title = {Tagset Reductions in Morphosyntactic Tagging of Croatian Texts}, keyword = {morphosyntactic tagging, part-of-speech tagging, stochastic tagger, Multext East tagset, tagset reductions, Croatian language}, publisher = {Odsjek za informacijske i komunikacijske znanosti Filozofskog fakulteta Sveu\v{c}ili\v{s}ta u Zagrebu}, publisherplace = {Zagreb, Hrvatska} }




Contrast
Increase Font
Decrease Font
Dyslexic Font