Obogaćivanje podataka o govornicima i kognitivno-socio-lingvistička analiza korpusa saborskih rasprava (CROSBI ID 699361)
Prilog sa skupa u zborniku | sažetak izlaganja sa skupa | međunarodna recenzija
Podaci o odgovornosti
Perak, Benedikt
hrvatski
Obogaćivanje podataka o govornicima i kognitivno-socio-lingvistička analiza korpusa saborskih rasprava
Korpus saborskih rasprava tvori važan i jedinstven korpus javnog diskursa s a) izvanjezičnim obilježjima identiteta govornika, njihovog političkog angažmana, svjetonazorskih uvjerenja i društveno-političkog umreženja te b) unutarjezičnim načinima komunikacije ideja, profiliranja značenja i oblikovanja svjetonazora konvencionalizacijom figura mišljenja. Saborske rasprave mogu se pronaći u transkribiranoj inačici na mrežnim stranicama http://edoc.sabor.hr/. Međutim, njihov podatkovni format na tom izvoru nije baš lako dostupan za standardiziranu jezičnu obradu i daljnju jezikoslovnu analizu iz perspektive jednog korpusnog lingvista. Izlaganje će ponuditi opis računalnih metoda stvaranja morfo-sintaktički obilježenog, socio- lingvističkog korpusa saborskih rasprava (Perak i Rodik 2018), pohranjivanja u graf bazu (https://neo4j.com/) i obogaćivanja podataka o govornicima iz različitih institucionalnih i neinstitucionalnih informacijskih izvora te kognitivno- sociolingvističku leksičku analizu koja se temelji na čestotnoj (koji govornik najviše koristi pojam x), proporcijskoj (koji govornik najviše koristi pojam x u proporciji s ostalim iskazanim pojmovnima), i relacijskoj analizi (koji su zastupnici/zastupnički klubovi slični temeljem iskazanih pojmova) leksema. Navedeni se rezultati mogu koristiti za različite analize kritičke analize diskursa i računalno potpomognutu stilistiku diskursa. Također, prikazat će se rezultati metode conGraCnet (https://github.com/bperak/ConGraCNet) za analizu semantičkih odnosa na temelju sintaktičkih konstrukcija dobivenih računalnim morfosintaktičkim parsiranjem (http://ufal.mff.cuni.cz/udpipe). ConGraCNet metoda omogućuje produbljenje sociolingvističkih analiza na korpusu saborskih rasprava dohvaćanjem semantički označenih sintaktičkih konstrukcija (https://universaldependencies.org/) čime se za bilo koji leksem unutar korpusa mogu dobiti uvidi o sinonimiji, analogiji i potencijalno drugim semantičkim odnosima u odnosu na skupinu govornika. To je istovremeno i prilika za kulturološke usporedbe s drugim korpusima poput hrWac (Ljubešić i Erjavec 2011) i analizu njihove specifičnosti. Navedeni alati i metode razvijaju se unutar projekta EmocNet (http://emocnet.uniri.hr/) s ciljem implementacije alata za jezikoslovnu analizu diskurza u kulturi.
Saborske rasprave, računalna lingvistika, socio-lingvistička analiza
nije evidentirano
engleski
Enrichment of data on speakers and cognitive- socio-linguistic analysis of the corpus of parliamentary debates
nije evidentirano
Metadata enrichment and cognitive-socio-linguistic analysis, parliamentary debates, corpus
nije evidentirano
Podaci o prilogu
---.
2020.
objavljeno
Podaci o matičnoj publikaciji
XXXIV. međunarodni znanstveni skup JEZIČNO I IZVANJEZIČNO U MEĐUDJELOVANJU
Podaci o skupu
XXXIV. međunarodni znanstveni skup JEZIČNO I IZVANJEZIČNO U MEĐUDJELOVANJU
predavanje
24.09.2020-26.09.2020
Split, Hrvatska