Nalazite se na CroRIS probnoj okolini. Ovdje evidentirani podaci neće biti pohranjeni u Informacijskom sustavu znanosti RH. Ako je ovo greška, CroRIS produkcijskoj okolini moguće je pristupi putem poveznice www.croris.hr
izvor podataka: crosbi

Označavanje pogrešaka u CroLTeC-u (računalnom učeničkom korpusu hrvatskog kao stranog jezika) (CROSBI ID 289375)

Prilog u časopisu | izvorni znanstveni rad | međunarodna recenzija

Mikelić Preradović, Nives Označavanje pogrešaka u CroLTeC-u (računalnom učeničkom korpusu hrvatskog kao stranog jezika) // Rasprave Instituta za hrvatski jezik i jezikoslovlje, 46 (2020), 2; 899-920. doi: 10.31724/rihjj.46.2.24

Podaci o odgovornosti

Mikelić Preradović, Nives

hrvatski

Označavanje pogrešaka u CroLTeC-u (računalnom učeničkom korpusu hrvatskog kao stranog jezika)

U radu je opisana shema za označavanje pogrešaka u CroLTeC-u (http://nlp.ffzg.hr/resources/corpora/croltec/) - prvom računalnom učeničkom korpusu hrvatskog kao stranog jezika. Korpus sadrži eseje 755 učenika s 36 različitih materinskih jezika među kojima su najzastupljeniji španjolski, engleski, njemački, poljski, kineski, francuski i arapski. Sastoji se od 6, 213 eseja od čega je 1, 217 eseja u izvornom digitalnom obliku, a 4, 996 ih je skenirano, transkribirano i pretvoreno u XML format. Korpus ima ukupno 1.054, 287 pojavnica, a eseji su prikupljali na svih šest razina učenja hrvatskog jezika u Croaticumu – Centru za hrvatski kao drugi i strani jezik na Filozofskom fakultetu u Zagrebu. Svi eseji obogaćeni su metapodatcima o naslovu, broju i vrsti eseja te okolnostima pod kojima su nastali (domaća zadaća, dio ispita ili terenske nastave i sl.). Svi eseji su lematizirani i provedeno je morfosintaktičko označavanje riječi pomoću RELDI označivača (Ljubesic et al., 2016). Također, korpus je moguće pretraživati prema dobi, spolu, razini znanja hrvatskog jezika te materinskim jezicima polaznika. Shema označavanja pogrešaka djelomično se temelji na shemi Šolara (razvojnog korpusa slovenskog jezika) i shemi Cambridge Learner korpusa i prilagođena je hrvatskom jeziku. Shema označavanja pogrešaka u korpusu razvijena je kako bi se izgradio potkoprus koji će poslužiti kao spremište autentičnih podataka o međujeziku učenika te omogućiti znanstvenicima i lektorima hrvatskog kao stranog jezika da otkriju aspekte gramatike koje je najteže svladati i prilagode nastavne materijale različitim skupinama učenika (ne samo s obzirom na njihovo poznavanje hrvatskog jezika, nego i s obzirom na materinski jezik). Konačno, potkorpus s označenim pogreškama bi mogao biti temelj za dizajn računalnih alata za pomoć u ispravljanju leksičkih pogrešaka, kod pogrešne uporabe glagolskih vremena, idioma i kolokacija.

učenički korpus ; CroLTeC ; označavanje pogrešaka ; obilježavanje pogrešaka ; normalizacija

nije evidentirano

engleski

Error-tagging of CroLTeC (electronic learner corpus of Croatian as a foreign language)

nije evidentirano

learner corpora ; CroLTeC ; error annotation ; error-tagging ; normalization

nije evidentirano

Podaci o izdanju

46 (2)

2020.

899-920

objavljeno

1331-6745

1849-0379

10.31724/rihjj.46.2.24

Povezanost rada

Informacijske i komunikacijske znanosti

Poveznice
Indeksiranost