CroRIS - CROSBI

izvor podataka: crosbi !

Klasifikacija tekstova temeljem nestandardnih oblika riječi u hrvatskome jeziku (CROSBI ID 377647)

Ocjenski rad | diplomski rad

Beliga, Slobodan Klasifikacija tekstova temeljem nestandardnih oblika riječi u hrvatskome jeziku / Martinčić - Ipšić, Sanda (mentor); Rijeka, . 2013

Podaci o odgovornosti

Autori

Beliga, Slobodan

Mentori

Martinčić - Ipšić, Sanda

Osnovni podaci na izvornom jeziku
Osnovni podaci na ostalim jezicima

Jezik

hrvatski

Naslov

Klasifikacija tekstova temeljem nestandardnih oblika riječi u hrvatskome jeziku

Sažetak

Klasifikacija tekstova je proces automatskog klasificiranja tekstova u predefinirane klase. U posljednje se vrijeme klasifikaciji tekstova, kao području umjetne inteligencije, pridaje veliki interes i to zahvaljujući velikom broju dostupnih tekstova u digitalnom obliku. Eksperiment klasificiranja tekstova pisanih na hrvatskome jeziku u ovome diplomskom radu proveden je s ciljem istraživanja mogućnosti klasifikacije tekstova temeljem nestandardnih oblika (NSO) riječi. Prikupljeno je 390 tekstova, koji čine kolekciju SKIPEZ (službeno, književno, informativno, popularno, edukativno i znanstveno), a organizirani su u 6 klasa i to: edukacijsku, znanstvenu, službenu, informativnu, popularnu i književnu. Takav specijalizirani djelomični korpus tekstova pisanih na hrvatskome jeziku ima nešto više od 2.2 milijuna pojavnica, od čega približno 10% čine riječi nestandardnog oblika. Eksperiment je proveden na tri različite reprezentacije kolekcije SKIPEZ. Prva reprezentacija predstavljena je frekvencijama pojavnosti NSO. Druga reprezentacija kolekcije predstavljena je pomoću statističkih obilježja koja opisuju raspršenje NSO u pojedinome tekstu, dok treća ujedinjuje značajki prve i druge reprezentacije. Korišteno je šest različitih algoritama strojnoga učenja: Naive Bayes, CN2, C4.5, kNN, klasifikacijska stabla i Random Forest. Dobiveni rezultati potvrđuju opravdanost korištenja NSO riječi u hrvatskome jeziku kao reprezentativnih značajki vektora u postupcima klasifikacije. Model klasifikacije induciran Random Forest algoritmom pokazao se najboljim s rezultatom točnosti klasifikacije od 87%. Rezultat je postignut nad kolekcijom čija je reprezentacija temeljena na kombinaciji frekvencija pojavnosti NSO i deskriptivnoj statistici.

Ključne riječi

domena teksta; dubinska analiza teksta; frekvencija pojavnice; klasifikacija; kolekcija; nestandardni oblici riječi; reprezentacija kolekcije; strojno učenje; točnost klasifikatora; vektor značajki

Napomena

nije evidentirano

Jezik

engleski

Naslov

Text Classification Based on Croatian Non-standard Words

Sažetak

nije evidentirano

Ključne riječi

text domain; text mining; token frequency; classification; text collection; non-standard word forms; collection representation; machine learning; recall; precisin; f-measure; feature vectors

Napomena

nije evidentirano

Podaci o izdanju

Broj stranica

111

Datum obrane

04.04.2013.

Status objave rada

obranjeno

Podaci o ustanovi koja je dodijelila akademski stupanj

Mjesto

Rijeka

Povezanost rada

Povezane osobe

Slobodan Beliga (autor/i)

Sanda Martinčić-Ipšić (mentor/i)

Povezane ustanove

Sveučilište u Rijeci, Fakultet informatike i digitalnih tehnologija (318) (autorova ustanova)

Povezani projekti

Govorne tehnologije (rezultat rada na projektu)

Područje

Računarstvo, Informacijske i komunikacijske znanosti