Building Named Entity Recognition Models For Croatian And Slovene

Ljubešić, Nikola; Stupar, Marija; Jurić, Tereza

izvor podataka: crosbi !

Building Named Entity Recognition Models For Croatian And Slovene (CROSBI ID 594346)

Prilog sa skupa u zborniku | izvorni znanstveni rad | međunarodna recenzija

Ljubešić, Nikola ; Stupar, Marija ; Jurić, Tereza Building Named Entity Recognition Models For Croatian And Slovene // Proceedings of the Eighth LANGUAGE TECHNOLOGIES Conference / Erjavec, Tomaž ; Žganec Gros, Jerneja (ur.). Ljubljana, 2012. str. 129-134

Podaci o odgovornosti

Autori

Ljubešić, Nikola ; Stupar, Marija ; Jurić, Tereza

Osnovni podaci na izvornom jeziku
Osnovni podaci na ostalim jezicima

Jezik

engleski

Naslov

Building Named Entity Recognition Models For Croatian And Slovene

Sažetak

The paper presents efforts in developing freely available models for named entity recognition and classification for Croatian and Slovene. Our experiments focus on the most informative set of linguistic features taking into account the availability of language tools for the lan- guages in question. Beside the classic linguistic features, distributional similarity features calculated from large unannotated monolingual corpora are exploited as well. Using distributional information improves the results for 7-8 points in F1 while adding morphological infor- mation improves the results for additional 3-4 points in both languages. The best performing models, along with test sets for comparison with future and existing systems and a HunPos part-of-speech model for Croatian are available for download for academic usage.

Ključne riječi

named entity recognition; distributional similarity; Croatian language; Slovene language

Napomena

nije evidentirano

Jezik

nije evidentirano

Naslov

nije evidentirano

Sažetak

nije evidentirano

Ključne riječi

nije evidentirano

Napomena

nije evidentirano

Podaci o prilogu

Stranice rada

129-134.

Godina izdavanja

2012.

Status objave rada

objavljeno

Podaci o matičnoj publikaciji

Naslov

Proceedings of the Eighth LANGUAGE TECHNOLOGIES Conference

Urednici

Erjavec, Tomaž ; Žganec Gros, Jerneja

Izdavač

Ljubljana:

Podaci o skupu

Skup

Eighth Language Technologies Conference

Vrsta sudjelovanja

predavanje

Datum održavanja skupa

08.10.2012-09.10.2012

Mjesto održavanja skupa

Ljubljana, Slovenija

Povezanost rada

Povezane osobe

Nikola Ljubešić (autor/i)

Povezane ustanove

Filozofski fakultet u Zagrebu (130) (autorova ustanova)

Povezani projekti

Hrvatska rječnička baština i hrvatski europski identitet (rezultat rada na projektu)

Područje

Informacijske i komunikacijske znanosti