Označavanje pogrešaka u CroLTeC-u (računalnom učeničkom korpusu hrvatskog kao stranog jezika)

Mikelić Preradović, Nives

izvor podataka: crosbi ✓

Označavanje pogrešaka u CroLTeC-u (računalnom učeničkom korpusu hrvatskog kao stranog jezika) (CROSBI ID 289375)

Prilog u časopisu | izvorni znanstveni rad | međunarodna recenzija

Mikelić Preradović, Nives Označavanje pogrešaka u CroLTeC-u (računalnom učeničkom korpusu hrvatskog kao stranog jezika) // Rasprave Instituta za hrvatski jezik i jezikoslovlje, 46 (2020), 2; 899-920. doi: 10.31724/rihjj.46.2.24

Podaci o odgovornosti

Autori

Mikelić Preradović, Nives

Osnovni podaci na izvornom jeziku
Osnovni podaci na ostalim jezicima

Jezik

hrvatski

Naslov

Označavanje pogrešaka u CroLTeC-u (računalnom učeničkom korpusu hrvatskog kao stranog jezika)

Sažetak

U radu je opisana shema za označavanje pogrešaka u CroLTeC-u (http://nlp.ffzg.hr/resources/corpora/croltec/) - prvom računalnom učeničkom korpusu hrvatskog kao stranog jezika. Korpus sadrži eseje 755 učenika s 36 različitih materinskih jezika među kojima su najzastupljeniji španjolski, engleski, njemački, poljski, kineski, francuski i arapski. Sastoji se od 6, 213 eseja od čega je 1, 217 eseja u izvornom digitalnom obliku, a 4, 996 ih je skenirano, transkribirano i pretvoreno u XML format. Korpus ima ukupno 1.054, 287 pojavnica, a eseji su prikupljali na svih šest razina učenja hrvatskog jezika u Croaticumu – Centru za hrvatski kao drugi i strani jezik na Filozofskom fakultetu u Zagrebu. Svi eseji obogaćeni su metapodatcima o naslovu, broju i vrsti eseja te okolnostima pod kojima su nastali (domaća zadaća, dio ispita ili terenske nastave i sl.). Svi eseji su lematizirani i provedeno je morfosintaktičko označavanje riječi pomoću RELDI označivača (Ljubesic et al., 2016). Također, korpus je moguće pretraživati prema dobi, spolu, razini znanja hrvatskog jezika te materinskim jezicima polaznika. Shema označavanja pogrešaka djelomično se temelji na shemi Šolara (razvojnog korpusa slovenskog jezika) i shemi Cambridge Learner korpusa i prilagođena je hrvatskom jeziku. Shema označavanja pogrešaka u korpusu razvijena je kako bi se izgradio potkoprus koji će poslužiti kao spremište autentičnih podataka o međujeziku učenika te omogućiti znanstvenicima i lektorima hrvatskog kao stranog jezika da otkriju aspekte gramatike koje je najteže svladati i prilagode nastavne materijale različitim skupinama učenika (ne samo s obzirom na njihovo poznavanje hrvatskog jezika, nego i s obzirom na materinski jezik). Konačno, potkorpus s označenim pogreškama bi mogao biti temelj za dizajn računalnih alata za pomoć u ispravljanju leksičkih pogrešaka, kod pogrešne uporabe glagolskih vremena, idioma i kolokacija.

Ključne riječi

učenički korpus ; CroLTeC ; označavanje pogrešaka ; obilježavanje pogrešaka ; normalizacija

Napomena

nije evidentirano

Jezik

engleski

Naslov

Error-tagging of CroLTeC (electronic learner corpus of Croatian as a foreign language)

Sažetak

nije evidentirano

Ključne riječi

learner corpora ; CroLTeC ; error annotation ; error-tagging ; normalization

Napomena

nije evidentirano

Podaci o izdanju

Časopis

Rasprave Instituta za hrvatski jezik i jezikoslovlje

Volumen (broj)

46 (2)

Godina

2020.

Stranice rada

899-920

Status objave rada

objavljeno

ISSN

1331-6745

e-ISSN

1849-0379

DOI

10.31724/rihjj.46.2.24

Povezanost rada

Povezane osobe

Nives Mikelić Preradović (autor/i)

Povezane ustanove

Filozofski fakultet u Zagrebu (130) (autorova ustanova)

Područje

Informacijske i komunikacijske znanosti

Poveznice

doi.org

hrcak.srce.hr

Indeksiranost

Scopus

Web of Science Core Collection, Emerging Sources Citation Index (WoSCC-ESCI)