Preklapanje n-grama pri automatskoj detekciji deriviranosti dokumenata

Bosanac, Siniša; Štefanec, Vanja

Pregled bibliografske jedinice broj: 524118

Preklapanje n-grama pri automatskoj detekciji deriviranosti dokumenata

Bosanac, Siniša; Štefanec, Vanja

Preklapanje n-grama pri automatskoj detekciji deriviranosti dokumenata // 1. StuLiKon – Studentska lingvistička konferencija 2011.
Beograd, Srbija, 2011. (predavanje, podatak o recenziji nije dostupan, neobjavljeni rad, znanstveni)

CROSBI ID: 524118 Za ispravke kontaktirajte CROSBI podršku putem web obrasca

Naslov
Preklapanje n-grama pri automatskoj detekciji deriviranosti dokumenata
(N-gram overlap in automatic detection of document derivation)

Autori
Bosanac, Siniša ; Štefanec, Vanja

Vrsta, podvrsta i kategorija rada
Sažeci sa skupova, neobjavljeni rad, znanstveni

Skup
1. StuLiKon – Studentska lingvistička konferencija 2011.

Mjesto i datum
Beograd, Srbija, 06.-08.05.2011

Vrsta sudjelovanja
Predavanje

Vrsta recenzije
Podatak o recenziji nije dostupan

Ključne riječi
derivacija dokumenata ; ponovna upotreba teksta ; preklapanje n-grama ; automatska detekcija plagijata ; metrika stringova
(document derivation ; text reuse ; n-gram overlap ; automatic plagiarism detection ; string metrics)

Sažetak
Pitanje utvrđivanja izvornosti, odn. nezavisnosti nekoga dokumenta u odnosu na drugi nije novi problem, ali je svakako u vrijeme hiperprodukcije e-teksta dobio novu dimenziju. Sve se više javlja potreba za automatskim metodama utvrđivanja izvornosti, tj. deriviranosti dokumenata u digitalnom okruženju. Metoda preklapanja n-grama, odn. nizova od n susljednih riječi u tekstu, samo je jedna u nizu metodâ koje predlaže literatura te koje se koriste u raznim sustavima za automatsko utvrđivanje deriviranosti dokumenata. Premda je sâm postupak usporedbe rečenom metodom poprilično trivijalan, određivanje duljine n-grama koja bi bila dobar indikator deriviranosti nešto je složenije pitanje. Pretpostavljamo da optimalna duljina n-grama nije ista za sve jezike već da ovisi o karakteristikama pojedinog jezika kao što su morfološka tipologija, rigidnost sintakse itd., stoga je cilj ovoga rada utvrditi optimalnu duljinu n-grama za utvrđivanje deriviranosti dokumenata na hrvatskom jeziku. Među potencijalnim područjima primjene rezultata ovoga rada, mogli bismo izdvojiti automatsku detekciju plagijata u znanstvenim i studentskim radovima, analizu citata, praćenje toka informacija te detektiranje i praćenje događaja u člancima objavljenima na webu. Na poslijetku, možemo zamisliti i prednosti pretraživanja ili automatske klasifikacije dokumenata po kriteriju deriviranosti.

Izvorni jezik
Hrvatski

Znanstvena područja
Informacijske i komunikacijske znanosti, Filologija

POVEZANOST RADA

Ustanove:
Filozofski fakultet, Zagreb

Profili:

Vanja Štefanec (autor)

CROSBI Hrvatska znanstvena bibliografija

Pregled bibliografske jedinice broj: 524118

Preklapanje n-grama pri automatskoj detekciji deriviranosti dokumenata

Citiraj ovu publikaciju:

Pregled bibliografske jedinice broj: 524118

Preklapanje n-grama pri automatskoj detekciji deriviranosti dokumenata

Citiraj ovu publikaciju:

Podijeli: