Nalazite se na CroRIS probnoj okolini. Ovdje evidentirani podaci neće biti pohranjeni u Informacijskom sustavu znanosti RH. Ako je ovo greška, CroRIS produkcijskoj okolini moguće je pristupi putem poveznice www.croris.hr
izvor podataka: crosbi !

Korpusnojezikoslovna obradba tekstova Sportskih novosti. N-gramsko modeliranje dohvaćanja podataka i vizualizacija (CROSBI ID 161403)

Prilog u časopisu | izvorni znanstveni rad

Stojanov, Tomislav ; Vučić, Zoran Korpusnojezikoslovna obradba tekstova Sportskih novosti. N-gramsko modeliranje dohvaćanja podataka i vizualizacija // Filologija - Šiauliu universitetas, 59 (2012), 103-129

Podaci o odgovornosti

Stojanov, Tomislav ; Vučić, Zoran

hrvatski

Korpusnojezikoslovna obradba tekstova Sportskih novosti. N-gramsko modeliranje dohvaćanja podataka i vizualizacija

U radu će se opisati metodologija rada s novinskim potkorpusom Hrvatske jezične riznice Instituta za hrvatski jezik i jezikoslovlje i to na internetskim tekstovima Sportskih novosti od travnja 2008. do lipnja 2009. godine. Obrađeni sportski potkorpus obuhvaća 3, 6 milijuna pojavnica koje čine više od 207 tisuća raznopisnica. Pokazat će se računalni postupci dohvaćanja i pretvorbe teksta, n-gramska korpusna raščlamba u cilju izvlačenja supojavnih čestotnica i otkrivanja frazema, naziva i stalnijih sintagmema, te njihova vizualizacija u prebirniku (browseru) uz pomoć nove javaskriptne žične (wiring) biblioteke WireIt. Aplikacija koja se razvija radi s formatom TEI XML, a poslužit će i za obradu tekstova drugih potkorpusnih cjelina Hrvatskog jezičnog korpusa (http://riznica.ihjj.hr/). N-gramski izlazni podatci bit će spremljeni u prenosivu (portable), besposlužilačku (serverless) i besplatnu bazu podataka SQLite čije će pretraživanje biti moguće preko raznih samostalnih ili nesamostalnih besplatnih klijenata (SQLite Administrator, SQLite Manager dodatak za Firefox itd.), odnosno u bazu MySQL za mrežni prikaz. Također, statistički podatci poslužit će i za raščlambu razgodaka i kratica u funkciji rečeničnog odjeljivanja.

dohvaćanje podataka; n-grami; engram; bigram; trigram; pravopis; vizualizacija; JavaScript; SQLite; korpus

nije evidentirano

engleski

Corpus linguistic processing of "Sportske novosti" texts. Information retrieval of N-gram models and visualization

nije evidentirano

information retrieval; n-grams; engram; bigram; trigram; ortography; visualization; JavaScript; SQLite; corpus

nije evidentirano

Podaci o izdanju

59

2012.

103-129

objavljeno

1392-561X

Povezanost rada

Kemija, Računarstvo, Filologija

Poveznice