Nalazite se na CroRIS probnoj okolini. Ovdje evidentirani podaci neće biti pohranjeni u Informacijskom sustavu znanosti RH. Ako je ovo greška, CroRIS produkcijskoj okolini moguće je pristupi putem poveznice www.croris.hr
izvor podataka: crosbi !

Usporedba jezičnih alata za njemački jezik (CROSBI ID 421905)

Ocjenski rad | sveučilišni preddiplomski završni rad

Beli, Dorian Usporedba jezičnih alata za njemački jezik / Martinčić-Ipšić, Sanda (mentor); Rijeka, . 2018

Podaci o odgovornosti

Beli, Dorian

Martinčić-Ipšić, Sanda

hrvatski

Usporedba jezičnih alata za njemački jezik

Kada govorimo o računalnoj analizi i razumijevanju teksta, alati poput lematizatora, korjenovatelja, obilježivača vrsta riječi te različiti korpusi jezika igraju veliku ulogu u području računalne lingvistike. Alati poput ovih promatraju sintaksu i lingvistiku nekog određenog jezika te što boljom primjenom pravila istih, uz pokoju implementaciju vjerojatnosnih algoritama, nastoje bolje obraditi zadani jezik. U ovom završnom radu obrađujemo 4 najpoznatija korjenovatelja, dva lematizatora te dva obilježivača vrsta riječi njemačkog jezika. Osim teorijske obrade navedenih alata, dotaknut ćemo se i praktične usporedbe navedenih u zasebnom poglavlju na vlastitim tekstovima. Korjenovatelji Snowball, CISTEM, Text::Geramn i UniNE, lematizatori GermaLemma i SMOR te obilježivači TIGER korpusa i Pro3GreDE imaju iskazanu točnost u postotcima. Među korjenovateljima najuspješniji se pokazao CISTEM korjenovatelj s 91.23% točnih korjenovanja, zatim Text::German sa 88, 55% kojeg slijedi Snowball sa 82, 44% te na kraju UniNE koji ima točnost u rasponu od 78, 63% do 80, 92%. Između dva obilježivača vrsta riječi točniji se pokazao hibridni Pro3GresDE sa 93, 55% te onaj uključen unutar TIGER korpusa sa 90, 32% točnosti. Kod lematizatora točnijim se pokazao SMOR sa 94, 27% točnosti te nakon njega GermaLemma sa 85, 5% točnosti.

korjenovatelj, lematizator, obilježivač vrsta riječi, njemački, korpus, računalna analiza njemačkog jezika

nije evidentirano

engleski

Comparative analysis of natural language processing tools for German language

nije evidentirano

stemmer, lemmatizer, part-of-speech tagger, German, corpus

nije evidentirano

Podaci o izdanju

78

21.09.2018.

obranjeno

Podaci o ustanovi koja je dodijelila akademski stupanj

Rijeka

Povezanost rada

Informacijske i komunikacijske znanosti, Računarstvo