Pretražite po imenu i prezimenu autora, mentora, urednika, prevoditelja

Napredna pretraga

Pregled bibliografske jedinice broj: 524118

Preklapanje n-grama pri automatskoj detekciji deriviranosti dokumenata


Bosanac, Siniša; Štefanec, Vanja
Preklapanje n-grama pri automatskoj detekciji deriviranosti dokumenata // 1. StuLiKon – Studentska lingvistička konferencija 2011.
Beograd, Srbija, 2011. (predavanje, podatak o recenziji nije dostupan, neobjavljeni rad, znanstveni)


CROSBI ID: 524118 Za ispravke kontaktirajte CROSBI podršku putem web obrasca

Naslov
Preklapanje n-grama pri automatskoj detekciji deriviranosti dokumenata
(N-gram overlap in automatic detection of document derivation)

Autori
Bosanac, Siniša ; Štefanec, Vanja

Vrsta, podvrsta i kategorija rada
Sažeci sa skupova, neobjavljeni rad, znanstveni

Skup
1. StuLiKon – Studentska lingvistička konferencija 2011.

Mjesto i datum
Beograd, Srbija, 06.-08.05.2011

Vrsta sudjelovanja
Predavanje

Vrsta recenzije
Podatak o recenziji nije dostupan

Ključne riječi
derivacija dokumenata ; ponovna upotreba teksta ; preklapanje n-grama ; automatska detekcija plagijata ; metrika stringova
(document derivation ; text reuse ; n-gram overlap ; automatic plagiarism detection ; string metrics)

Sažetak
Pitanje utvrđivanja izvornosti, odn. nezavisnosti nekoga dokumenta u odnosu na drugi nije novi problem, ali je svakako u vrijeme hiperprodukcije e-teksta dobio novu dimenziju. Sve se više javlja potreba za automatskim metodama utvrđivanja izvornosti, tj. deriviranosti dokumenata u digitalnom okruženju. Metoda preklapanja n-grama, odn. nizova od n susljednih riječi u tekstu, samo je jedna u nizu metodâ koje predlaže literatura te koje se koriste u raznim sustavima za automatsko utvrđivanje deriviranosti dokumenata. Premda je sâm postupak usporedbe rečenom metodom poprilično trivijalan, određivanje duljine n-grama koja bi bila dobar indikator deriviranosti nešto je složenije pitanje. Pretpostavljamo da optimalna duljina n-grama nije ista za sve jezike već da ovisi o karakteristikama pojedinog jezika kao što su morfološka tipologija, rigidnost sintakse itd., stoga je cilj ovoga rada utvrditi optimalnu duljinu n-grama za utvrđivanje deriviranosti dokumenata na hrvatskom jeziku. Među potencijalnim područjima primjene rezultata ovoga rada, mogli bismo izdvojiti automatsku detekciju plagijata u znanstvenim i studentskim radovima, analizu citata, praćenje toka informacija te detektiranje i praćenje događaja u člancima objavljenima na webu. Na poslijetku, možemo zamisliti i prednosti pretraživanja ili automatske klasifikacije dokumenata po kriteriju deriviranosti.

Izvorni jezik
Hrvatski

Znanstvena područja
Informacijske i komunikacijske znanosti, Filologija



POVEZANOST RADA


Ustanove:
Filozofski fakultet, Zagreb

Profili:

Avatar Url Vanja Štefanec (autor)


Citiraj ovu publikaciju:

Bosanac, Siniša; Štefanec, Vanja
Preklapanje n-grama pri automatskoj detekciji deriviranosti dokumenata // 1. StuLiKon – Studentska lingvistička konferencija 2011.
Beograd, Srbija, 2011. (predavanje, podatak o recenziji nije dostupan, neobjavljeni rad, znanstveni)
Bosanac, S. & Štefanec, V. (2011) Preklapanje n-grama pri automatskoj detekciji deriviranosti dokumenata. U: 1. StuLiKon – Studentska lingvistička konferencija 2011..
@article{article, author = {Bosanac, Sini\v{s}a and \v{S}tefanec, Vanja}, year = {2011}, keywords = {derivacija dokumenata, ponovna upotreba teksta, preklapanje n-grama, automatska detekcija plagijata, metrika stringova}, title = {Preklapanje n-grama pri automatskoj detekciji deriviranosti dokumenata}, keyword = {derivacija dokumenata, ponovna upotreba teksta, preklapanje n-grama, automatska detekcija plagijata, metrika stringova}, publisherplace = {Beograd, Srbija} }
@article{article, author = {Bosanac, Sini\v{s}a and \v{S}tefanec, Vanja}, year = {2011}, keywords = {document derivation, text reuse, n-gram overlap, automatic plagiarism detection, string metrics}, title = {N-gram overlap in automatic detection of document derivation}, keyword = {document derivation, text reuse, n-gram overlap, automatic plagiarism detection, string metrics}, publisherplace = {Beograd, Srbija} }




Contrast
Increase Font
Decrease Font
Dyslexic Font