Pretražite po imenu i prezimenu autora, mentora, urednika, prevoditelja

Napredna pretraga

Pregled bibliografske jedinice broj: 456337

Korpusnojezikoslovna obradba tekstova Sportskih novosti. N-gramsko modeliranje dohvaćanja podataka i vizualizacija


Stojanov, Tomislav; Vučić, Zoran
Korpusnojezikoslovna obradba tekstova Sportskih novosti. N-gramsko modeliranje dohvaćanja podataka i vizualizacija // Filologija, 59 (2012), 103-129 (podatak o recenziji nije dostupan, članak, znanstveni)


CROSBI ID: 456337 Za ispravke kontaktirajte CROSBI podršku putem web obrasca

Naslov
Korpusnojezikoslovna obradba tekstova Sportskih novosti. N-gramsko modeliranje dohvaćanja podataka i vizualizacija
(Corpus linguistic processing of "Sportske novosti" texts. Information retrieval of N-gram models and visualization)

Autori
Stojanov, Tomislav ; Vučić, Zoran

Izvornik
Filologija (1392-561X) 59 (2012); 103-129

Vrsta, podvrsta i kategorija rada
Radovi u časopisima, članak, znanstveni

Ključne riječi
dohvaćanje podataka; n-grami; engram; bigram; trigram; pravopis; vizualizacija; JavaScript; SQLite; korpus
(information retrieval; n-grams; engram; bigram; trigram; ortography; visualization; JavaScript; SQLite; corpus)

Sažetak
U radu će se opisati metodologija rada s novinskim potkorpusom Hrvatske jezične riznice Instituta za hrvatski jezik i jezikoslovlje i to na internetskim tekstovima Sportskih novosti od travnja 2008. do lipnja 2009. godine. Obrađeni sportski potkorpus obuhvaća 3, 6 milijuna pojavnica koje čine više od 207 tisuća raznopisnica. Pokazat će se računalni postupci dohvaćanja i pretvorbe teksta, n-gramska korpusna raščlamba u cilju izvlačenja supojavnih čestotnica i otkrivanja frazema, naziva i stalnijih sintagmema, te njihova vizualizacija u prebirniku (browseru) uz pomoć nove javaskriptne žične (wiring) biblioteke WireIt. Aplikacija koja se razvija radi s formatom TEI XML, a poslužit će i za obradu tekstova drugih potkorpusnih cjelina Hrvatskog jezičnog korpusa (http://riznica.ihjj.hr/). N-gramski izlazni podatci bit će spremljeni u prenosivu (portable), besposlužilačku (serverless) i besplatnu bazu podataka SQLite čije će pretraživanje biti moguće preko raznih samostalnih ili nesamostalnih besplatnih klijenata (SQLite Administrator, SQLite Manager dodatak za Firefox itd.), odnosno u bazu MySQL za mrežni prikaz. Također, statistički podatci poslužit će i za raščlambu razgodaka i kratica u funkciji rečeničnog odjeljivanja.

Izvorni jezik
Hrvatski

Znanstvena područja
Kemija, Računarstvo, Filologija



POVEZANOST RADA


Projekti:
125-2120898-3148 - Hrvatsko nazivlje u analitičkoj kemiji (Kaštelan-Macan, Marija, MZOS ) ( CroRIS)
212-2120920-0930 - Semantičke mreže i računalna leksikologija (Ćavar, Damir, MZOS ) ( CroRIS)

Ustanove:
Fakultet kemijskog inženjerstva i tehnologije, Zagreb,
Institut za hrvatski jezik i jezikoslovlje, Zagreb

Profili:

Avatar Url Tomislav Stojanov (autor)

Poveznice na cjeloviti tekst rada:

Pristup cjelovitom tekstu rada Hrčak

Citiraj ovu publikaciju:

Stojanov, Tomislav; Vučić, Zoran
Korpusnojezikoslovna obradba tekstova Sportskih novosti. N-gramsko modeliranje dohvaćanja podataka i vizualizacija // Filologija, 59 (2012), 103-129 (podatak o recenziji nije dostupan, članak, znanstveni)
Stojanov, T. & Vučić, Z. (2012) Korpusnojezikoslovna obradba tekstova Sportskih novosti. N-gramsko modeliranje dohvaćanja podataka i vizualizacija. Filologija, 59, 103-129.
@article{article, author = {Stojanov, Tomislav and Vu\v{c}i\'{c}, Zoran}, year = {2012}, pages = {103-129}, keywords = {dohva\'{c}anje podataka, n-grami, engram, bigram, trigram, pravopis, vizualizacija, JavaScript, SQLite, korpus}, journal = {Filologija}, volume = {59}, issn = {1392-561X}, title = {Korpusnojezikoslovna obradba tekstova Sportskih novosti. N-gramsko modeliranje dohva\'{c}anja podataka i vizualizacija}, keyword = {dohva\'{c}anje podataka, n-grami, engram, bigram, trigram, pravopis, vizualizacija, JavaScript, SQLite, korpus} }
@article{article, author = {Stojanov, Tomislav and Vu\v{c}i\'{c}, Zoran}, year = {2012}, pages = {103-129}, keywords = {information retrieval, n-grams, engram, bigram, trigram, ortography, visualization, JavaScript, SQLite, corpus}, journal = {Filologija}, volume = {59}, issn = {1392-561X}, title = {Corpus linguistic processing of "Sportske novosti" texts. Information retrieval of N-gram models and visualization}, keyword = {information retrieval, n-grams, engram, bigram, trigram, ortography, visualization, JavaScript, SQLite, corpus} }




Contrast
Increase Font
Decrease Font
Dyslexic Font