Generating a Morphological Lexicon of Organization Entity Names

Ljubešić, Nikola; Lauc, Tomislava; Boras, Damir

izvor podataka: crosbi !

Generating a Morphological Lexicon of Organization Entity Names (CROSBI ID 552937)

Prilog sa skupa u zborniku | izvorni znanstveni rad | međunarodna recenzija

Ljubešić, Nikola ; Lauc, Tomislava ; Boras, Damir Generating a Morphological Lexicon of Organization Entity Names // Proceedings of the Sixth International Language Resources and Evaluation (LREC'08) / Nicoletta Calzolari (Conference Chair), Khalid Choukri, Bente Maegaard, Joseph Mariani, Jan Odjik, Stelios Piperidis, Daniel Tapias (ur.). Marakeš: European Language Resources Association (ELRA), 2008

Podaci o odgovornosti

Autori

Ljubešić, Nikola ; Lauc, Tomislava ; Boras, Damir

Osnovni podaci na izvornom jeziku
Osnovni podaci na ostalim jezicima

Jezik

engleski

Naslov

Generating a Morphological Lexicon of Organization Entity Names

Sažetak

This paper describes methods used for generating a morphological lexicon of organization entity names in Croatian. This resource is intended for two primary tasks: template-based natural language generation and named entity identification. The main problems concerning the lexicon generation are high level of inflection in Croatian and low linguistic quality of the primary resource containing named entities in normal form. The problem is divided into two subproblems concerning single- word and multi-word expressions. The single-word problem is solved by training a supervised learning algorithm called linear successive abstraction. With existing common language morphological resources and two simple hand-crafted rules backing up the algorithm, accuracy of 98.70% on the test set is achieved. The multi-word problem is solved through a semi- automated process for multi-word entities occurring in the first 10, 000 named entities. The generated multi-word lexicon will be used for natural language generation only while named entity identification will be solved algorithmically in forthcoming research. The single-word lexicon is capable of handling both tasks.

Ključne riječi

morphological lexicon; lexicon generation; organization entity names; linear successive abstraction

Napomena

nije evidentirano

Jezik

nije evidentirano

Naslov

nije evidentirano

Sažetak

nije evidentirano

Ključne riječi

nije evidentirano

Napomena

nije evidentirano

Podaci o prilogu

Godina izdavanja

2008.

Status objave rada

objavljeno

Podaci o matičnoj publikaciji

Naslov

Proceedings of the Sixth International Language Resources and Evaluation (LREC'08)

Urednici

Nicoletta Calzolari (Conference Chair), Khalid Choukri, Bente Maegaard, Joseph Mariani, Jan Odjik, Stelios Piperidis, Daniel Tapias

Izdavač

Marakeš: European Language Resources Association (ELRA)

ISBN

2-9517408-4-0

Podaci o skupu

Skup

Sixth International Language Resources and Evaluation Conference

Vrsta sudjelovanja

poster

Datum održavanja skupa

28.05.2008-30.05.2008

Mjesto održavanja skupa

Marrakesh, Maroko

Povezanost rada

Povezane osobe

Damir Boras (autor/i)

Tomislava Lauc (autor/i)

Nikola Ljubešić (autor/i)

Povezane ustanove

Filozofski fakultet u Zagrebu (130) (autorova ustanova)

Povezani projekti

Hrvatska rječnička baština i hrvatski europski identitet (rezultat rada na projektu)

Oblikovanje i upravljanje javnim znanjem u informacijskom prostoru (rezultat rada na projektu)

Područje

Informacijske i komunikacijske znanosti

Poveznice

lrec-conf.org