Klasifikacija tekstova temeljem nestandardnih oblika riječi u hrvatskome jeziku (CROSBI ID 377647)
Ocjenski rad | diplomski rad
Podaci o odgovornosti
Beliga, Slobodan
Martinčić - Ipšić, Sanda
hrvatski
Klasifikacija tekstova temeljem nestandardnih oblika riječi u hrvatskome jeziku
Klasifikacija tekstova je proces automatskog klasificiranja tekstova u predefinirane klase. U posljednje se vrijeme klasifikaciji tekstova, kao području umjetne inteligencije, pridaje veliki interes i to zahvaljujući velikom broju dostupnih tekstova u digitalnom obliku. Eksperiment klasificiranja tekstova pisanih na hrvatskome jeziku u ovome diplomskom radu proveden je s ciljem istraživanja mogućnosti klasifikacije tekstova temeljem nestandardnih oblika (NSO) riječi. Prikupljeno je 390 tekstova, koji čine kolekciju SKIPEZ (službeno, književno, informativno, popularno, edukativno i znanstveno), a organizirani su u 6 klasa i to: edukacijsku, znanstvenu, službenu, informativnu, popularnu i književnu. Takav specijalizirani djelomični korpus tekstova pisanih na hrvatskome jeziku ima nešto više od 2.2 milijuna pojavnica, od čega približno 10% čine riječi nestandardnog oblika. Eksperiment je proveden na tri različite reprezentacije kolekcije SKIPEZ. Prva reprezentacija predstavljena je frekvencijama pojavnosti NSO. Druga reprezentacija kolekcije predstavljena je pomoću statističkih obilježja koja opisuju raspršenje NSO u pojedinome tekstu, dok treća ujedinjuje značajki prve i druge reprezentacije. Korišteno je šest različitih algoritama strojnoga učenja: Naive Bayes, CN2, C4.5, kNN, klasifikacijska stabla i Random Forest. Dobiveni rezultati potvrđuju opravdanost korištenja NSO riječi u hrvatskome jeziku kao reprezentativnih značajki vektora u postupcima klasifikacije. Model klasifikacije induciran Random Forest algoritmom pokazao se najboljim s rezultatom točnosti klasifikacije od 87%. Rezultat je postignut nad kolekcijom čija je reprezentacija temeljena na kombinaciji frekvencija pojavnosti NSO i deskriptivnoj statistici.
domena teksta; dubinska analiza teksta; frekvencija pojavnice; klasifikacija; kolekcija; nestandardni oblici riječi; reprezentacija kolekcije; strojno učenje; točnost klasifikatora; vektor značajki
nije evidentirano
engleski
Text Classification Based on Croatian Non-standard Words
nije evidentirano
text domain; text mining; token frequency; classification; text collection; non-standard word forms; collection representation; machine learning; recall; precisin; f-measure; feature vectors
nije evidentirano
Podaci o izdanju
111
04.04.2013.
obranjeno
Podaci o ustanovi koja je dodijelila akademski stupanj
Rijeka