Označavanje pogrešaka u CroLTeC-u (računalnom učeničkom korpusu hrvatskog kao stranog jezika) (CROSBI ID 289375)
Prilog u časopisu | izvorni znanstveni rad | međunarodna recenzija
Podaci o odgovornosti
Mikelić Preradović, Nives
hrvatski
Označavanje pogrešaka u CroLTeC-u (računalnom učeničkom korpusu hrvatskog kao stranog jezika)
U radu je opisana shema za označavanje pogrešaka u CroLTeC-u (http://nlp.ffzg.hr/resources/corpora/croltec/) - prvom računalnom učeničkom korpusu hrvatskog kao stranog jezika. Korpus sadrži eseje 755 učenika s 36 različitih materinskih jezika među kojima su najzastupljeniji španjolski, engleski, njemački, poljski, kineski, francuski i arapski. Sastoji se od 6, 213 eseja od čega je 1, 217 eseja u izvornom digitalnom obliku, a 4, 996 ih je skenirano, transkribirano i pretvoreno u XML format. Korpus ima ukupno 1.054, 287 pojavnica, a eseji su prikupljali na svih šest razina učenja hrvatskog jezika u Croaticumu – Centru za hrvatski kao drugi i strani jezik na Filozofskom fakultetu u Zagrebu. Svi eseji obogaćeni su metapodatcima o naslovu, broju i vrsti eseja te okolnostima pod kojima su nastali (domaća zadaća, dio ispita ili terenske nastave i sl.). Svi eseji su lematizirani i provedeno je morfosintaktičko označavanje riječi pomoću RELDI označivača (Ljubesic et al., 2016). Također, korpus je moguće pretraživati prema dobi, spolu, razini znanja hrvatskog jezika te materinskim jezicima polaznika. Shema označavanja pogrešaka djelomično se temelji na shemi Šolara (razvojnog korpusa slovenskog jezika) i shemi Cambridge Learner korpusa i prilagođena je hrvatskom jeziku. Shema označavanja pogrešaka u korpusu razvijena je kako bi se izgradio potkoprus koji će poslužiti kao spremište autentičnih podataka o međujeziku učenika te omogućiti znanstvenicima i lektorima hrvatskog kao stranog jezika da otkriju aspekte gramatike koje je najteže svladati i prilagode nastavne materijale različitim skupinama učenika (ne samo s obzirom na njihovo poznavanje hrvatskog jezika, nego i s obzirom na materinski jezik). Konačno, potkorpus s označenim pogreškama bi mogao biti temelj za dizajn računalnih alata za pomoć u ispravljanju leksičkih pogrešaka, kod pogrešne uporabe glagolskih vremena, idioma i kolokacija.
učenički korpus ; CroLTeC ; označavanje pogrešaka ; obilježavanje pogrešaka ; normalizacija
nije evidentirano
engleski
Error-tagging of CroLTeC (electronic learner corpus of Croatian as a foreign language)
nije evidentirano
learner corpora ; CroLTeC ; error annotation ; error-tagging ; normalization
nije evidentirano
Podaci o izdanju
46 (2)
2020.
899-920
objavljeno
1331-6745
1849-0379
10.31724/rihjj.46.2.24
Povezanost rada
Informacijske i komunikacijske znanosti