Comparative Analysis of Automatic Term and Collocation Extraction

Seljan, Sanja; Dalbelo Bašić, Bojana; Šnajder, Jan; Delač, Davor; Šamec-Gjurin, Matija; Crnec, Dina

izvor podataka: crosbi ✓

Comparative Analysis of Automatic Term and Collocation Extraction (CROSBI ID 557835)

Prilog sa skupa u zborniku | izvorni znanstveni rad | međunarodna recenzija

Seljan, Sanja ; Dalbelo Bašić, Bojana ; Šnajder, Jan ; Delač, Davor ; Šamec-Gjurin, Matija ; Crnec, Dina Comparative Analysis of Automatic Term and Collocation Extraction // 2nd international conference The future of information sciences (INFuture 2009) : Digital resources and knowledge sharing / Stančić, H. ; Seljan, S. ; Bawden, D. et al. (ur.). Zagreb: Odsjek za informacijske i komunikacijske znanosti Filozofskog fakulteta Sveučilišta u Zagrebu, 2009. str. 219-228

Podaci o odgovornosti

Autori

Seljan, Sanja ; Dalbelo Bašić, Bojana ; Šnajder, Jan ; Delač, Davor ; Šamec-Gjurin, Matija ; Crnec, Dina

Osnovni podaci na izvornom jeziku
Osnovni podaci na ostalim jezicima

Jezik

engleski

Naslov

Comparative Analysis of Automatic Term and Collocation Extraction

Sažetak

Monolingual and multilingual terminology and collocation bases, covering a specific domain, used independently or integrated with other resources, have become a valuable electronic resource. Building of such resources could be assisted by automatic term extraction tools, combining statistical and linguistic approaches. In this paper, the research on term extraction from monolingual corpus is presented. The corpus consists of publicly accessible English legislative documents. In the paper, results of two hybrid approaches are compared: extraction using the TermeX tool and an automatic statistical extraction procedure followed by linguistic filtering through the open source linguistic engineering tool. The results have been elaborated through statistical measures of precision, recall, and F-measure.

Ključne riječi

automatic extraction; term and collocation base; English language; evaluation metrics

Napomena

nije evidentirano

Jezik

nije evidentirano

Naslov

nije evidentirano

Sažetak

nije evidentirano

Ključne riječi

nije evidentirano

Napomena

nije evidentirano

Podaci o prilogu

Stranice rada

219-228.

Godina izdavanja

2009.

Status objave rada

objavljeno

Podaci o matičnoj publikaciji

Naslov

2nd international conference The future of information sciences (INFuture 2009) : Digital resources and knowledge sharing

Urednici

Stančić, H. ; Seljan, S. ; Bawden, D. ; Lasić-Lazić, J. ; Slavić, A.

Izdavač

Zagreb: Odsjek za informacijske i komunikacijske znanosti Filozofskog fakulteta Sveučilišta u Zagrebu

ISBN

978-953-175-355-5

Podaci o skupu

Skup

International Conference The Future of Information Sciences (2 ; 2009)

Vrsta sudjelovanja

poster

Datum održavanja skupa

04.11.2009-06.11.2009

Mjesto održavanja skupa

Zagreb, Hrvatska

Povezanost rada

Povezane osobe

Jan Šnajder (autor/i)

Dina Crnec (autor/i)

Sanja Seljan (autor/i)

Bojana Dalbelo Bašić (autor/i)

Povezane ustanove

Fakultet elektrotehnike i računarstva (036) (autorova ustanova)

Filozofski fakultet u Zagrebu (130) (autorova ustanova)

Povezani projekti

Otkrivanje znanja u tekstnim podacima (rezultat rada na projektu)

Informacijska tehnologija u prevođenju hrvatskoga i e-učenju jezika (rezultat rada na projektu)

Područje

Informacijske i komunikacijske znanosti, Filologija