Pregled bibliografske jedinice broj: 524118
Preklapanje n-grama pri automatskoj detekciji deriviranosti dokumenata
Preklapanje n-grama pri automatskoj detekciji deriviranosti dokumenata // 1. StuLiKon – Studentska lingvistička konferencija 2011.
Beograd, Srbija, 2011. (predavanje, podatak o recenziji nije dostupan, neobjavljeni rad, znanstveni)
CROSBI ID: 524118 Za ispravke kontaktirajte CROSBI podršku putem web obrasca
Naslov
Preklapanje n-grama pri automatskoj detekciji
deriviranosti dokumenata
(N-gram overlap in automatic detection of document
derivation)
Autori
Bosanac, Siniša ; Štefanec, Vanja
Vrsta, podvrsta i kategorija rada
Sažeci sa skupova, neobjavljeni rad, znanstveni
Skup
1. StuLiKon – Studentska lingvistička konferencija 2011.
Mjesto i datum
Beograd, Srbija, 06.-08.05.2011
Vrsta sudjelovanja
Predavanje
Vrsta recenzije
Podatak o recenziji nije dostupan
Ključne riječi
derivacija dokumenata ; ponovna upotreba teksta ; preklapanje n-grama ; automatska detekcija plagijata ; metrika stringova
(document derivation ; text reuse ; n-gram overlap ; automatic plagiarism detection ; string metrics)
Sažetak
Pitanje utvrđivanja izvornosti, odn. nezavisnosti nekoga dokumenta u odnosu na drugi nije novi problem, ali je svakako u vrijeme hiperprodukcije e-teksta dobio novu dimenziju. Sve se više javlja potreba za automatskim metodama utvrđivanja izvornosti, tj. deriviranosti dokumenata u digitalnom okruženju. Metoda preklapanja n-grama, odn. nizova od n susljednih riječi u tekstu, samo je jedna u nizu metodâ koje predlaže literatura te koje se koriste u raznim sustavima za automatsko utvrđivanje deriviranosti dokumenata. Premda je sâm postupak usporedbe rečenom metodom poprilično trivijalan, određivanje duljine n-grama koja bi bila dobar indikator deriviranosti nešto je složenije pitanje. Pretpostavljamo da optimalna duljina n-grama nije ista za sve jezike već da ovisi o karakteristikama pojedinog jezika kao što su morfološka tipologija, rigidnost sintakse itd., stoga je cilj ovoga rada utvrditi optimalnu duljinu n-grama za utvrđivanje deriviranosti dokumenata na hrvatskom jeziku. Među potencijalnim područjima primjene rezultata ovoga rada, mogli bismo izdvojiti automatsku detekciju plagijata u znanstvenim i studentskim radovima, analizu citata, praćenje toka informacija te detektiranje i praćenje događaja u člancima objavljenima na webu. Na poslijetku, možemo zamisliti i prednosti pretraživanja ili automatske klasifikacije dokumenata po kriteriju deriviranosti.
Izvorni jezik
Hrvatski
Znanstvena područja
Informacijske i komunikacijske znanosti, Filologija