Napredna pretraga

Pregled bibliografske jedinice broj: 624885

Klasifikacija tekstova temeljem nestandardnih oblika riječi u hrvatskome jeziku


Beliga, Slobodan
Klasifikacija tekstova temeljem nestandardnih oblika riječi u hrvatskome jeziku 2013., diplomski rad, diplomski, Odjel za informatiku, Rijeka


Naslov
Klasifikacija tekstova temeljem nestandardnih oblika riječi u hrvatskome jeziku
(Text Classification Based on Croatian Non-standard Words)

Autori
Beliga, Slobodan

Vrsta, podvrsta i kategorija rada
Ocjenski radovi, diplomski rad, diplomski

Fakultet
Odjel za informatiku

Mjesto
Rijeka

Datum
4.4

Godina
2013

Stranica
111

Mentor
Martinčić - Ipšić, Sanda

Ključne riječi
Domena teksta; dubinska analiza teksta; frekvencija pojavnice; klasifikacija; kolekcija; nestandardni oblici riječi; reprezentacija kolekcije; strojno učenje; točnost klasifikatora; vektor značajki
(Text domain; text mining; token frequency; classification; text collection; non-standard word forms; collection representation; machine learning; recall; precisin; f-measure; feature vectors)

Sažetak
Klasifikacija tekstova je proces automatskog klasificiranja tekstova u predefinirane klase. U posljednje se vrijeme klasifikaciji tekstova, kao području umjetne inteligencije, pridaje veliki interes i to zahvaljujući velikom broju dostupnih tekstova u digitalnom obliku. Eksperiment klasificiranja tekstova pisanih na hrvatskome jeziku u ovome diplomskom radu proveden je s ciljem istraživanja mogućnosti klasifikacije tekstova temeljem nestandardnih oblika (NSO) riječi. Prikupljeno je 390 tekstova, koji čine kolekciju SKIPEZ (službeno, književno, informativno, popularno, edukativno i znanstveno), a organizirani su u 6 klasa i to: edukacijsku, znanstvenu, službenu, informativnu, popularnu i književnu. Takav specijalizirani djelomični korpus tekstova pisanih na hrvatskome jeziku ima nešto više od 2.2 milijuna pojavnica, od čega približno 10% čine riječi nestandardnog oblika. Eksperiment je proveden na tri različite reprezentacije kolekcije SKIPEZ. Prva reprezentacija predstavljena je frekvencijama pojavnosti NSO. Druga reprezentacija kolekcije predstavljena je pomoću statističkih obilježja koja opisuju raspršenje NSO u pojedinome tekstu, dok treća ujedinjuje značajki prve i druge reprezentacije. Korišteno je šest različitih algoritama strojnoga učenja: Naive Bayes, CN2, C4.5, kNN, klasifikacijska stabla i Random Forest. Dobiveni rezultati potvrđuju opravdanost korištenja NSO riječi u hrvatskome jeziku kao reprezentativnih značajki vektora u postupcima klasifikacije. Model klasifikacije induciran Random Forest algoritmom pokazao se najboljim s rezultatom točnosti klasifikacije od 87%. Rezultat je postignut nad kolekcijom čija je reprezentacija temeljena na kombinaciji frekvencija pojavnosti NSO i deskriptivnoj statistici.

Izvorni jezik
Hrvatski

Znanstvena područja
Računarstvo, Informacijske i komunikacijske znanosti



POVEZANOST RADA


Projekt / tema
318-0361935-0852 - Govorne tehnologije (Ivo Ipšić, )

Ustanove
Sveučilište u Rijeci - Odjel za informatiku

Autor s matičnim brojem:
Slobodan Beliga, (346100)