Corpus-Based Comparison of Contemporary Croatian, Serbian and Bosnian

Bekavac, Božo; Seljan, Sanja; Simeon, Ivana

izvor podataka: crosbi !

Corpus-Based Comparison of Contemporary Croatian, Serbian and Bosnian (CROSBI ID 545496)

Prilog sa skupa u zborniku | izvorni znanstveni rad | međunarodna recenzija

Bekavac, Božo ; Seljan, Sanja ; Simeon, Ivana Corpus-Based Comparison of Contemporary Croatian, Serbian and Bosnian // Proceedings of the 6th International Conference on Formal Approaches to South Slavic and Balkan Languages / Tadić, Marko ; Dimitrova-Vulchanova, Mila ; Koeva, Svetla (ur.). Zagreb: Hrvatsko društvo za jezične tehnologije, 2008. str. 33-39

Podaci o odgovornosti

Autori

Bekavac, Božo ; Seljan, Sanja ; Simeon, Ivana

Osnovni podaci na izvornom jeziku
Osnovni podaci na ostalim jezicima

Jezik

engleski

Naslov

Corpus-Based Comparison of Contemporary Croatian, Serbian and Bosnian

Sažetak

This paper explores the differences between three Slavic languages: Bosnian, Croatian and Serbian, drawing on the Southeast European Times newspaper corpus, translated to each language from the source English text and consisting of approximately 330, 000 tokens for each language. The paper is an effort intended to contribute to the establishment of the criteria and methodology for measuring similarities between these languages. The differences were explored at five levels: at the level of phonology, morphology, lexis, syntax and semantics. Empirical analysis has shown that a huge portion of differences across the three languages are systematic and regular, and as such, could be formalized for automatic translation/generation. The results of this study and of similar future corpus-based studies can be used in developing NLP tools such as annotating tools, e-dictionaries, text summarizers, machine translation systems, computerassisted language learning etc. for the three languages, as well as further linguistic investigation of their mutual relationship.

Ključne riječi

Slavic languages; Croatian; Serbian; Bosnian; language differences

Napomena

nije evidentirano

Jezik

nije evidentirano

Naslov

nije evidentirano

Sažetak

nije evidentirano

Ključne riječi

nije evidentirano

Napomena

nije evidentirano

Podaci o prilogu

Stranice rada

33-39.

Godina izdavanja

2008.

Status objave rada

objavljeno

Podaci o matičnoj publikaciji

Naslov

Proceedings of the 6th International Conference on Formal Approaches to South Slavic and Balkan Languages

Urednici

Tadić, Marko ; Dimitrova-Vulchanova, Mila ; Koeva, Svetla

Izdavač

Zagreb: Hrvatsko društvo za jezične tehnologije

ISBN

978-953-55375-0-2

Podaci o skupu

Skup

Formal Approaches to South Slavic and Balkan Languages FASSBL

Vrsta sudjelovanja

predavanje

Datum održavanja skupa

25.09.2008-28.09.2008

Mjesto održavanja skupa

Dubrovnik, Hrvatska

Povezanost rada

Povezane osobe

Sanja Seljan (autor/i)

Ivana Simeon (autor/i)

Božo Bekavac (autor/i)

Povezane ustanove

Filozofski fakultet u Zagrebu (130) (autorova ustanova)

Povezani projekti

Hrvatski jezični resursi i njihovo obilježavanje (rezultat rada na projektu)

Informacijska tehnologija u prevođenju hrvatskoga i e-učenju jezika (rezultat rada na projektu)

Leksička semantika u izradi Hrvatskog WordNeta (rezultat rada na projektu)

Područje

Informacijske i komunikacijske znanosti, Filologija