hrWaC and slWac: Compiling Web Corpora for Croatian and Slovene

Ljubešić, Nikola; Erjavec, Tomaž

izvor podataka: crosbi !

hrWaC and slWac: Compiling Web Corpora for Croatian and Slovene (CROSBI ID 45032)

Prilog u knjizi | izvorni znanstveni rad

Ljubešić, Nikola ; Erjavec, Tomaž hrWaC and slWac: Compiling Web Corpora for Croatian and Slovene // Text, Speech and Dialogue, Lecture Notes in Computer Science / Ivan Habernal and Vaclav Matousek (ur.). Berlin : Heidelberg: Springer, 2011. str. 395-402

Podaci o odgovornosti

Autori

Ljubešić, Nikola ; Erjavec, Tomaž

Osnovni podaci na izvornom jeziku
Osnovni podaci na ostalim jezicima

Jezik

engleski

Naslov

hrWaC and slWac: Compiling Web Corpora for Croatian and Slovene

Sažetak

Web corpora have become an attractive source of linguistic content, yet are for many languages still not available. This paper introduces two new annotated web corpora: the Croatian hrWaC and the Slovene slWaC. Both were built using a modified standard “Web as Corpus” pipeline having in mind the limited amount of available web data. The modifications are described in the paper, focusing on the content extraction from HTML pages, which combines high precision of extracted language content with a decent recall. The paper also investigates text-types of the acquired corpora using topic modeling, comparing the two corpora among themselves and with ukWaC.

Ključne riječi

web corpus, Croatian, Slovene, topic modeling

Napomena

nije evidentirano

Jezik

nije evidentirano

Naslov

nije evidentirano

Sažetak

nije evidentirano

Ključne riječi

nije evidentirano

Napomena

nije evidentirano

Podaci o prilogu

Stranice rada

395-402.

Status objave rada

objavljeno

Podaci o knjizi

Knjiga u kojoj je prilog objavljen

Text, Speech and Dialogue, Lecture Notes in Computer Science

Urednici

Ivan Habernal and Vaclav Matousek

Izdavač

Berlin : Heidelberg: Springer

Godina izdavanja

2011.

ISBN

978-3-642-23537-5

Povezanost rada

Povezane osobe

Nikola Ljubešić (autor/i)

Povezane ustanove

Filozofski fakultet u Zagrebu (130) (autorova ustanova)

Povezani projekti

Hrvatska rječnička baština i hrvatski europski identitet (rezultat rada na projektu)

Područje

Informacijske i komunikacijske znanosti