Pretražite po imenu i prezimenu autora, mentora, urednika, prevoditelja

Napredna pretraga

Pregled bibliografske jedinice broj: 956201

Usporedba jezičnih alata za njemački jezik


Beli, Dorian
Usporedba jezičnih alata za njemački jezik, 2018., diplomski rad, preddiplomski, Odjel za informatiku, Rijeka


CROSBI ID: 956201 Za ispravke kontaktirajte CROSBI podršku putem web obrasca

Naslov
Usporedba jezičnih alata za njemački jezik
(Comparative analysis of natural language processing tools for German language)

Autori
Beli, Dorian

Vrsta, podvrsta i kategorija rada
Ocjenski radovi, diplomski rad, preddiplomski

Fakultet
Odjel za informatiku

Mjesto
Rijeka

Datum
21.09

Godina
2018

Stranica
78

Mentor
Martinčić-Ipšić, Sanda

Ključne riječi
korjenovatelj, lematizator, obilježivač vrsta riječi, njemački, korpus, računalna analiza njemačkog jezika
(stemmer, lemmatizer, part-of-speech tagger, German, corpus)

Sažetak
Kada govorimo o računalnoj analizi i razumijevanju teksta, alati poput lematizatora, korjenovatelja, obilježivača vrsta riječi te različiti korpusi jezika igraju veliku ulogu u području računalne lingvistike. Alati poput ovih promatraju sintaksu i lingvistiku nekog određenog jezika te što boljom primjenom pravila istih, uz pokoju implementaciju vjerojatnosnih algoritama, nastoje bolje obraditi zadani jezik. U ovom završnom radu obrađujemo 4 najpoznatija korjenovatelja, dva lematizatora te dva obilježivača vrsta riječi njemačkog jezika. Osim teorijske obrade navedenih alata, dotaknut ćemo se i praktične usporedbe navedenih u zasebnom poglavlju na vlastitim tekstovima. Korjenovatelji Snowball, CISTEM, Text::Geramn i UniNE, lematizatori GermaLemma i SMOR te obilježivači TIGER korpusa i Pro3GreDE imaju iskazanu točnost u postotcima. Među korjenovateljima najuspješniji se pokazao CISTEM korjenovatelj s 91.23% točnih korjenovanja, zatim Text::German sa 88, 55% kojeg slijedi Snowball sa 82, 44% te na kraju UniNE koji ima točnost u rasponu od 78, 63% do 80, 92%. Između dva obilježivača vrsta riječi točniji se pokazao hibridni Pro3GresDE sa 93, 55% te onaj uključen unutar TIGER korpusa sa 90, 32% točnosti. Kod lematizatora točnijim se pokazao SMOR sa 94, 27% točnosti te nakon njega GermaLemma sa 85, 5% točnosti.

Izvorni jezik
Hrvatski

Znanstvena područja
Računarstvo, Informacijske i komunikacijske znanosti



POVEZANOST RADA


Ustanove:
Fakultet informatike i digitalnih tehnologija, Rijeka

Profili:

Avatar Url Sanda Martinčić - Ipšić (mentor)


Citiraj ovu publikaciju:

Beli, Dorian
Usporedba jezičnih alata za njemački jezik, 2018., diplomski rad, preddiplomski, Odjel za informatiku, Rijeka
Beli, D. (2018) 'Usporedba jezičnih alata za njemački jezik', diplomski rad, preddiplomski, Odjel za informatiku, Rijeka.
@phdthesis{phdthesis, author = {Beli, Dorian}, year = {2018}, pages = {78}, keywords = {korjenovatelj, lematizator, obilje\v{z}iva\v{c} vrsta rije\v{c}i, njema\v{c}ki, korpus, ra\v{c}unalna analiza njema\v{c}kog jezika}, title = {Usporedba jezi\v{c}nih alata za njema\v{c}ki jezik}, keyword = {korjenovatelj, lematizator, obilje\v{z}iva\v{c} vrsta rije\v{c}i, njema\v{c}ki, korpus, ra\v{c}unalna analiza njema\v{c}kog jezika}, publisherplace = {Rijeka} }
@phdthesis{phdthesis, author = {Beli, Dorian}, year = {2018}, pages = {78}, keywords = {stemmer, lemmatizer, part-of-speech tagger, German, corpus}, title = {Comparative analysis of natural language processing tools for German language}, keyword = {stemmer, lemmatizer, part-of-speech tagger, German, corpus}, publisherplace = {Rijeka} }




Contrast
Increase Font
Decrease Font
Dyslexic Font