Pregled bibliografske jedinice broj: 456337
Korpusnojezikoslovna obradba tekstova Sportskih novosti. N-gramsko modeliranje dohvaćanja podataka i vizualizacija
Korpusnojezikoslovna obradba tekstova Sportskih novosti. N-gramsko modeliranje dohvaćanja podataka i vizualizacija // Filologija, 59 (2012), 103-129 (podatak o recenziji nije dostupan, članak, znanstveni)
CROSBI ID: 456337 Za ispravke kontaktirajte CROSBI podršku putem web obrasca
Naslov
Korpusnojezikoslovna obradba tekstova Sportskih novosti. N-gramsko modeliranje dohvaćanja podataka i vizualizacija
(Corpus linguistic processing of "Sportske novosti" texts. Information retrieval of N-gram models and visualization)
Autori
Stojanov, Tomislav ; Vučić, Zoran
Izvornik
Filologija (1392-561X) 59
(2012);
103-129
Vrsta, podvrsta i kategorija rada
Radovi u časopisima, članak, znanstveni
Ključne riječi
dohvaćanje podataka; n-grami; engram; bigram; trigram; pravopis; vizualizacija; JavaScript; SQLite; korpus
(information retrieval; n-grams; engram; bigram; trigram; ortography; visualization; JavaScript; SQLite; corpus)
Sažetak
U radu će se opisati metodologija rada s novinskim potkorpusom Hrvatske jezične riznice Instituta za hrvatski jezik i jezikoslovlje i to na internetskim tekstovima Sportskih novosti od travnja 2008. do lipnja 2009. godine. Obrađeni sportski potkorpus obuhvaća 3, 6 milijuna pojavnica koje čine više od 207 tisuća raznopisnica. Pokazat će se računalni postupci dohvaćanja i pretvorbe teksta, n-gramska korpusna raščlamba u cilju izvlačenja supojavnih čestotnica i otkrivanja frazema, naziva i stalnijih sintagmema, te njihova vizualizacija u prebirniku (browseru) uz pomoć nove javaskriptne žične (wiring) biblioteke WireIt. Aplikacija koja se razvija radi s formatom TEI XML, a poslužit će i za obradu tekstova drugih potkorpusnih cjelina Hrvatskog jezičnog korpusa (http://riznica.ihjj.hr/). N-gramski izlazni podatci bit će spremljeni u prenosivu (portable), besposlužilačku (serverless) i besplatnu bazu podataka SQLite čije će pretraživanje biti moguće preko raznih samostalnih ili nesamostalnih besplatnih klijenata (SQLite Administrator, SQLite Manager dodatak za Firefox itd.), odnosno u bazu MySQL za mrežni prikaz. Također, statistički podatci poslužit će i za raščlambu razgodaka i kratica u funkciji rečeničnog odjeljivanja.
Izvorni jezik
Hrvatski
Znanstvena područja
Kemija, Računarstvo, Filologija
POVEZANOST RADA
Projekti:
125-2120898-3148 - Hrvatsko nazivlje u analitičkoj kemiji (Kaštelan-Macan, Marija, MZOS ) ( CroRIS)
212-2120920-0930 - Semantičke mreže i računalna leksikologija (Ćavar, Damir, MZOS ) ( CroRIS)
Ustanove:
Fakultet kemijskog inženjerstva i tehnologije, Zagreb,
Institut za hrvatski jezik i jezikoslovlje, Zagreb
Profili:
Tomislav Stojanov
(autor)