Evaluation of Croatian Word Embeddings

Svoboda, Lukáš; Beliga, Slobodan

izvor podataka: crosbi !

Evaluation of Croatian Word Embeddings (CROSBI ID 661764)

Prilog sa skupa u zborniku | izvorni znanstveni rad | međunarodna recenzija

Svoboda, Lukáš ; Beliga, Slobodan Evaluation of Croatian Word Embeddings // Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018) / Calzolari, N. ; Choukri, K. ; Cieri, C. et al. (ur.). Pariz: European Language Resources Association (ELRA), 2018. str. 1512-1518

Podaci o odgovornosti

Autori

Svoboda, Lukáš ; Beliga, Slobodan

Osnovni podaci na izvornom jeziku
Osnovni podaci na ostalim jezicima

Jezik

engleski

Naslov

Evaluation of Croatian Word Embeddings

Sažetak

Croatian is poorly resourced and highly inflected language from Slavic language family. Nowadays, research is focusing mostly on English. We created a new word analogy dataset based on the original English Word2vec word analogy dataset and added some of the specific linguistic aspects from the Croatian language. Next, we created Croatian WordSim353 and RG65 datasets for a basic evaluation of word similarities. We compared created datasets on two popular word representation models, based on Word2Vec tool and fastText tool. Models have been trained on 1.37B tokens training data corpus and tested on a new robust Croatian word analogy dataset. Results show that models are able to create meaningful word representation. This research has shown that free word order and the higher morphological complexity of Croatian language influences the quality of resulting word embeddings.

Ključne riječi

Croatian word embeddings ; Croatian word analogy ; Croatian language ; Slavic language family ; Word2Vec ; FastText ; Croatian word similarity dataset ; WordSim353 ; RG65

Napomena

nije evidentirano

Jezik

nije evidentirano

Naslov

nije evidentirano

Sažetak

nije evidentirano

Ključne riječi

nije evidentirano

Napomena

nije evidentirano

Podaci o prilogu

Stranice rada

1512-1518.

Godina izdavanja

2018.

Status objave rada

objavljeno

Podaci o matičnoj publikaciji

Naslov

Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018)

Urednici

Calzolari, N. ; Choukri, K. ; Cieri, C. ; Declerck, T. ; Goggi, S. ; Hasida, K. ; Isahara, H. ; Maegaard, B. ; Mariani, J. ; Mazo, H. ; Moreno, A. ; Odijk, J. ; Piperidis, S. ; Tokunaga, T.

Izdavač

Pariz: European Language Resources Association (ELRA)

ISBN

979-10-95546-00-9

Podaci o skupu

Skup

11th International Conference on Language Resources and Evaluation (LREC 2018)

Vrsta sudjelovanja

predavanje

Datum održavanja skupa

07.05.2018-12.05.2018

Mjesto održavanja skupa

Miyazaki, Japan

Povezanost rada

Povezane osobe

Slobodan Beliga (autor/i)

Povezane ustanove

Sveučilište u Rijeci, Fakultet informatike i digitalnih tehnologija (318) (autorova ustanova)

Područje

Računarstvo, Informacijske i komunikacijske znanosti

Poveznice

lrec-conf.org

Indeksiranost

Web of Science Core Collection, Conference Proceedings Citation Index - Science (WoSCC-CPCI-S)

Web of Science Core Collection, Conference Proceedings Citation Index - Social Science & Humanities (WoSCC-CPCI-SSH)