Pregled bibliografske jedinice broj: 816852
Hijerarhijska analiza svojstava nizova znakova metodama znanstvenog računanja i statistike
Hijerarhijska analiza svojstava nizova znakova metodama znanstvenog računanja i statistike, 2014., doktorska disertacija, Prirodoslovno-matematički fakultet- Matematički odsjek, Zagreb
CROSBI ID: 816852 Za ispravke kontaktirajte CROSBI podršku putem web obrasca
Naslov
Hijerarhijska analiza svojstava nizova znakova metodama znanstvenog računanja i statistike
(A hierarchical analysis of character strings by statistical analysis and scientific computing)
Autori
Ugrina, Ivo
Vrsta, podvrsta i kategorija rada
Ocjenski radovi, doktorska disertacija
Fakultet
Prirodoslovno-matematički fakultet- Matematički odsjek
Mjesto
Zagreb
Datum
31.03
Godina
2014
Stranica
161
Mentor
Basrak, Bojan ; Grubišić, Luka
Ključne riječi
centralni granični teorem ; m-zavisni nizovi ; normalna distribucija ; palindromi u DNA ; sličnost nizova znakova ; poštanske adrese ; prepoznavanje adresa ; geografska lokacija ; stabla odlučivanja ; CP dekompozicija ; stršeće vrijednosti
(central limit theorem ; m-dependent sequence ; normal distribution ; palindromes in DNA ; string similarity ; postal addresses ; address extraction ; decision trees ; geographic location ; CP decomposition ; outliers)
Sažetak
U prvom dijelu disertacije prezentira se rezultat o distribuciji broja palindroma predodređene duljine u nizovima znakova s naglaskom na DNA nizove. Izvedeni su uvjeti pod kojima distribucija broja palindroma asimptotski teži normalnoj distribuciji. Također, izvedena je ocjena pogreške aproksimacije normalnom distribucijom te je prikazan primjer primjene na stvarnom DNA nizu. U drugom dijelu disertacije prezentira se novi pristup modeliranju sličnosti nizova znakova pomoću Markovljevih lanaca. Prikazan je model čija je motivacija ponajprije bila modeliranje pisanja poštanskih adresa u Hrvatskoj. No, model je upotrebljiv i na drugim problemima u različitim jezicima. U trećem dijelu disertacije prezentira se metoda prepoznavanja poštanskih adresa u slobodnom tekstu s naglaskom na dokumente s hrvatskih WWW stranica. Predložen je pristup putem metoda strojnog učenja. Izdvajaju se bitni prediktori te se prikazuju rezultati primjene na hrvatske WWW stranice. U četvrtom, krajnjem, dijelu disertacije proučava se kvaliteta metode izdvajanja dominantnih podgrupa iz podataka opisanih višedimenzionalnim atributima putem tenzorske CP dekompozicije i modificirane Thompsonove τ metode za prepoznavanje stršećih vrijednosti.
Izvorni jezik
Hrvatski
Znanstvena područja
Matematika, Biologija, Računarstvo
POVEZANOST RADA
Ustanove:
Prirodoslovno-matematički fakultet, Matematički odjel, Zagreb,
Prirodoslovno-matematički fakultet, Zagreb