Teorija i pravila segmentacije teksta na hrvatskom jeziku

Boras, Damir

izvor podataka: crosbi !

Teorija i pravila segmentacije teksta na hrvatskom jeziku (CROSBI ID 330577)

Ocjenski rad | doktorska disertacija

Boras, Damir Teorija i pravila segmentacije teksta na hrvatskom jeziku / Tuđman, Miroslav (mentor); Zagreb, Filozofski fakultet u Zagrebu, . 1998

Podaci o odgovornosti

Autori

Boras, Damir

Mentori

Tuđman, Miroslav

Osnovni podaci na izvornom jeziku
Osnovni podaci na ostalim jezicima

Jezik

hrvatski

Naslov

Teorija i pravila segmentacije teksta na hrvatskom jeziku

Sažetak

Problem segmentacije teksta definira se kao razlaganje teksta na manje cjeline pri čemu se u ovoj disertaciji on ograničava isključivo na računalno zapisani tekst, a sama segmentacija na automatsku (računalnu) segmentaciju teksta. Lingvističkom pristupu opisima razlika između pisanoga i govorenoga jezika suprotstavlja se informacijski pristup koji uzima u obzir i druga sredstva koja se rabe u prezentaciji pisanoga teksta, tj. uporabu rečeničnih znakova - interpunkcija, različitih strukturalnih oznaka i/ili različitih vrsta pisama, pri čemu se lingvistička (pred)znanja upotrebljavaju samo u ograničenoj mjeri, do razine formalnog prepoznavanja mogućih oblika riječi. Nakon prikaza razvoja automatske segmentacije teksta kao znanstvenog problema (na razinama prethodne obrade teksta, segmentacije teksta na rečenice, segmentacije rečenice te segmentacije na značenjske cjeline), definiraju se struktura i cjeline pisanoga teksta (tekst, odlomak, rečenica, riječ, te diskurs, izreka i rečenica) pri čemu se terminologija slična lingvističkoj definira u smislu informacijske znanosti, opisuju i analiziraju sastavnice pisanoga teksta i uočava osnovni problem njihove funkcionalne višeznačnosti. Razrješavanje takve višeznačnosti bitan je dio segmentacije teksta te se stoga detaljno opisuje i analizira standardizirana uporaba pravopisnih i rečeničnih znakova, uporaba razmaka i vrsta slova kao razgodaka (interpunkcija) za tekstove pisane na hrvatskome jeziku, način uporabe različitih pravopisnih i interpunkcijih znakova i ostalih znakova i sredstava koji se upotrebljavaju pri pisanju računalno pripremljenih tekstova te uporaba nekih nepromjenljivih riječi poput veznika i priloga. Na temelju te analize na dva se načina klasificiraju svi ti znakovi, riječi i načini njihove uporabe, prvo kao indikatori teksta, a zatim kao indikatori opće strukture teksta i indikatori tekstualnih kategorija te razmatraju mogućnosti definiranja formalnog, algoritamskog modela segmentacije teksta na rečenice i podrečenične sklopove, za razliku od inače prevladavajućeg statističkog pristupa. Autor nadalje postavlja problem strojne primjene segmentacijskog modela te procjenjuje strukturalnu složenost nacrta modela s obzirom na snagu gramatičkog formalizma te pokazuje i dokazuje da je moguće načiniti sustav automatske (računalne) segmentacije tekstova pisanih na temelju pravila o rečeničnim znacima, odnosno sintakse teksta, te da se takav sustav može definirati modelom nemonotoničkog zaključivanja koji omogućuje definiranje pravila i dodatnog definiranja iznimaka, a da se početna pravila pri tome ne mijenjaju. Također je pokazano da se za dijelove sustava mogu koristiti i neke druge gramatike, slabije formalne jačine, poput gramatike regularnih izraza. Pokazano je također da se algoritamski sustav na temelju pravila ne može izvesti bez postojanja dodatnih znanja o jeziku na kojem je tekst pisan, te da je stoga potrebno takva znanja ugraditi u sustav U sustav je stoga ugrađena rječnička baza, sustav za lematizaciju tekstova na hrvatskom jeziku a razvijeni su i dodatni sustavi za automatsku lematizaciju vlastitih imena i sastavljeni različiti rječnici/popisi (imena, prezimena, vlastitih imena, država i gradova) te rječnik kratica. Također je izvedeno programsko sučelje za prethodnu obradu teksta (rastavljanje na pojavnice) i komunikaciju s programskim sustavom AMZI Prolog u kojem je model segmentacije izveden. Na kraju je model ispitan na stvarnom korpusu. Uočene su određene poteškoće u provjeri modela, s obzirom na to da je veličina korpusa nedovoljno velika. Isto tako, uočen je problem međuzavisnosti segmentacije i gramatičke analize, jer se problem višeznačnosti pri segmentaciji teksta (naročito na razini segmentacije rečenice), ne može uvijek u potpunosti razriješiti bez dodatne sintaktičke i gramatičke analize teksta. Budući da za hrvatski jezik (još) nije razvijen sustav za gramatičku analizu (parser) za razliku od većine drugih europskih jezika, za sada nije moguće razriješiti te dodatne probleme iako ovaj rad i rječnička baza predstavljaju dobru osnovu za razvoj sustava gramatičke analize hrvatskoga jezika.

Ključne riječi

segmentacija teksta; obrada prirodnog jezika

Napomena

nije evidentirano

Jezik

engleski

Naslov

Theory and rules of text segmentation for the Croatian language

Sažetak

nije evidentirano

Ključne riječi

text segmentation; natural language processing

Napomena

nije evidentirano

Podaci o izdanju

Broj stranica

284

Datum obrane

05.05.1998.

Status objave rada

obranjeno

Podaci o ustanovi koja je dodijelila akademski stupanj

Ustanova / Organizacija

Filozofski fakultet u Zagrebu

Mjesto

Zagreb

Povezanost rada

Povezane osobe

Damir Boras (autor/i)

Miroslav Tuđman (mentor/i)

Povezane ustanove

Filozofski fakultet u Zagrebu (130) (autorova ustanova)

Područje

Informacijske i komunikacijske znanosti