Računalna obradba hrvatskih korpusa: povijest, stanje i perspektive (CROSBI ID 92650)
Prilog u časopisu | stručni rad
Podaci o odgovornosti
Tadić, Marko
hrvatski
Računalna obradba hrvatskih korpusa: povijest, stanje i perspektive
Članak daje pregled obradbe hrvatskih korpusa. Navode se najznačajniji korpusni projekti od prvoga hrvatskoga računalno podržanoga korpusa - Gundulićev Osman (Bujas 1967), preko Moguševa milijunskoga korpusa do današnjih dana. Nadalje se rad usredotočuje na Hrvatski nacionalni korpus koji je središnji projekt na području korpusne lingvistike u Hrvatskoj danas. Hrvatski nacionalni korpus (Tadić 1996) čine dvije sastavnice: 1) reprezentativni 30-milijunski korpus suvremenoga hrvatskoga jezika (30M) i 2) Hrvatski elektronski tekstovni arhiv (HETA). U prvoj fazi sastavljanja Hrvatskoga nacionalnoga korpusa naglasak je na zaokruživanju 30-milijunskoga korpusa dok će se u drugoj fazi sav napor preusmjeriti na širenje obuhvata Hrvatskoga elektronskog tekstovnoga arhiva. U sadašnjem stanju rad na 30-milijunski korpusu, koji bi trebao biti završen 2000, u fazi je uznapredovala planiranja i javnoga testiranja probne inačice korpusa (7, 68 milijuna pojavnica) putem WWW-a.
korpusna lingvistika; korpus; hrvatski jezik
nije evidentirano
engleski
Croatian Corpus Processing: History, State of the Art and Perspectives
nije evidentirano
corpus linguistics; corpus; Croatian language
nije evidentirano