Multi-word term extraction from comparable corpora by combining contextual and constituent clues

Ljubešić, Nikola; Vintar, Špela; Fišer, Darja

izvor podataka: crosbi !

Multi-word term extraction from comparable corpora by combining contextual and constituent clues (CROSBI ID 594347)

Prilog sa skupa u zborniku | izvorni znanstveni rad | međunarodna recenzija

Ljubešić, Nikola ; Vintar, Špela ; Fišer, Darja Multi-word term extraction from comparable corpora by combining contextual and constituent clues // Proceedings of the Workshop on Building and Using Comparable Corpora (BUCC’12) / Rapp, Reinhard ; Tadić, Marko ; Sharoff, Serge et al. (ur.). Istanbul, 2012. str. 143-147

Podaci o odgovornosti

Autori

Ljubešić, Nikola ; Vintar, Špela ; Fišer, Darja

Osnovni podaci na izvornom jeziku
Osnovni podaci na ostalim jezicima

Jezik

engleski

Naslov

Multi-word term extraction from comparable corpora by combining contextual and constituent clues

Sažetak

In this paper we present an approach to automatically extract and align multi-word terms from an English-Slovene comparable health corpus. First, the terms are extracted from the corpus for each language separately using a list of user-adjustable morphosyntactic patterns and a term weighting measure. Then, the extracted terms are aligned in a bag-of-equivalents fashion with a seed bilingual lexicon. In the extension of the approach we also show that the small general seed lexicon can be enriched with domain-specific vocabulary by harvesting it directly from the comparable corpus, which significantly improves the results of multi-word term mapping. While most previous efforts in bilingual lexicon extraction from comparable corpora have focused on mapping of single words, the proposed technique successfully augments them in that it is able to deal with multi-word terms as well. Since the proposed approach requires minimal knowledge resources, it is easily adaptable for a new language pair or domain, which is one of its biggest advantages.

Ključne riječi

bilingual term extraction; comparable corpora; multi-word expressions; constituent clues

Napomena

nije evidentirano

Jezik

nije evidentirano

Naslov

nije evidentirano

Sažetak

nije evidentirano

Ključne riječi

nije evidentirano

Napomena

nije evidentirano

Podaci o prilogu

Stranice rada

143-147.

Godina izdavanja

2012.

Status objave rada

objavljeno

Podaci o matičnoj publikaciji

Naslov

Proceedings of the Workshop on Building and Using Comparable Corpora (BUCC’12)

Urednici

Rapp, Reinhard ; Tadić, Marko ; Sharoff, Serge ; Zweigenbaum, Pierre

Izdavač

Istanbul:

Podaci o skupu

Skup

5th Workshop on Building and Using Comparable Corpora (BUCC 2012)

Vrsta sudjelovanja

predavanje

Datum održavanja skupa

26.05.2012-26.05.2012

Mjesto održavanja skupa

Istanbul, Turska

Povezanost rada

Povezane osobe

Nikola Ljubešić (autor/i)

Povezane ustanove

Filozofski fakultet u Zagrebu (130) (autorova ustanova)

Povezani projekti

Hrvatska rječnička baština i hrvatski europski identitet (rezultat rada na projektu)

Područje

Informacijske i komunikacijske znanosti