Napredna pretraga

Pregled bibliografske jedinice broj: 33564

Teorija i pravila segmentacije teksta na hrvatskom jeziku


Boras, Damir
Teorija i pravila segmentacije teksta na hrvatskom jeziku 1998., doktorska disertacija, Filozofski fakultet, Zagreb


Naslov
Teorija i pravila segmentacije teksta na hrvatskom jeziku
(Theory and rules of text segmentation for the Croatian language)

Autori
Boras, Damir

Vrsta, podvrsta i kategorija rada
Ocjenski radovi, doktorska disertacija

Fakultet
Filozofski fakultet

Mjesto
Zagreb

Datum
05.05

Godina
1998

Stranica
284

Mentor
Tuđman, Miroslav

Ključne riječi
Segmentacija teksta; obrada prirodnog jezika
(Text segmentation; natural language processing)

Sažetak
Problem segmentacije teksta definira se kao razlaganje teksta na manje cjeline pri čemu se u ovoj disertaciji on ograničava isključivo na računalno zapisani tekst, a sama segmentacija na automatsku (računalnu) segmentaciju teksta. Lingvističkom pristupu opisima razlika između pisanoga i govorenoga jezika suprotstavlja se informacijski pristup koji uzima u obzir i druga sredstva koja se rabe u prezentaciji pisanoga teksta, tj. uporabu rečeničnih znakova - interpunkcija, različitih strukturalnih oznaka i/ili različitih vrsta pisama, pri čemu se lingvistička (pred)znanja upotrebljavaju samo u ograničenoj mjeri, do razine formalnog prepoznavanja mogućih oblika riječi. Nakon prikaza razvoja automatske segmentacije teksta kao znanstvenog problema (na razinama prethodne obrade teksta, segmentacije teksta na rečenice, segmentacije rečenice te segmentacije na značenjske cjeline), definiraju se struktura i cjeline pisanoga teksta (tekst, odlomak, rečenica, riječ, te diskurs, izreka i rečenica) pri čemu se terminologija slična lingvističkoj definira u smislu informacijske znanosti, opisuju i analiziraju sastavnice pisanoga teksta i uočava osnovni problem njihove funkcionalne višeznačnosti. Razrješavanje takve višeznačnosti bitan je dio segmentacije teksta te se stoga detaljno opisuje i analizira standardizirana uporaba pravopisnih i rečeničnih znakova, uporaba razmaka i vrsta slova kao razgodaka (interpunkcija) za tekstove pisane na hrvatskome jeziku, način uporabe različitih pravopisnih i interpunkcijih znakova i ostalih znakova i sredstava koji se upotrebljavaju pri pisanju računalno pripremljenih tekstova te uporaba nekih nepromjenljivih riječi poput veznika i priloga. Na temelju te analize na dva se načina klasificiraju svi ti znakovi, riječi i načini njihove uporabe, prvo kao indikatori teksta, a zatim kao indikatori opće strukture teksta i indikatori tekstualnih kategorija te razmatraju mogućnosti definiranja formalnog, algoritamskog modela segmentacije teksta na rečenice i podrečenične sklopove, za razliku od inače prevladavajućeg statističkog pristupa. Autor nadalje postavlja problem strojne primjene segmentacijskog modela te procjenjuje strukturalnu složenost nacrta modela s obzirom na snagu gramatičkog formalizma te pokazuje i dokazuje da je moguće načiniti sustav automatske (računalne) segmentacije tekstova pisanih na temelju pravila o rečeničnim znacima, odnosno sintakse teksta, te da se takav sustav može definirati modelom nemonotoničkog zaključivanja koji omogućuje definiranje pravila i dodatnog definiranja iznimaka, a da se početna pravila pri tome ne mijenjaju. Također je pokazano da se za dijelove sustava mogu koristiti i neke druge gramatike, slabije formalne jačine, poput gramatike regularnih izraza. Pokazano je također da se algoritamski sustav na temelju pravila ne može izvesti bez postojanja dodatnih znanja o jeziku na kojem je tekst pisan, te da je stoga potrebno takva znanja ugraditi u sustav U sustav je stoga ugrađena rječnička baza, sustav za lematizaciju tekstova na hrvatskom jeziku a razvijeni su i dodatni sustavi za automatsku lematizaciju vlastitih imena i sastavljeni različiti rječnici/popisi (imena, prezimena, vlastitih imena, država i gradova) te rječnik kratica. Također je izvedeno programsko sučelje za prethodnu obradu teksta (rastavljanje na pojavnice) i komunikaciju s programskim sustavom AMZI Prolog u kojem je model segmentacije izveden. Na kraju je model ispitan na stvarnom korpusu. Uočene su određene poteškoće u provjeri modela, s obzirom na to da je veličina korpusa nedovoljno velika. Isto tako, uočen je problem međuzavisnosti segmentacije i gramatičke analize, jer se problem višeznačnosti pri segmentaciji teksta (naročito na razini segmentacije rečenice), ne može uvijek u potpunosti razriješiti bez dodatne sintaktičke i gramatičke analize teksta. Budući da za hrvatski jezik (još) nije razvijen sustav za gramatičku analizu (parser) za razliku od većine drugih europskih jezika, za sada nije moguće razriješiti te dodatne probleme iako ovaj rad i rječnička baza predstavljaju dobru osnovu za razvoj sustava gramatičke analize hrvatskoga jezika.

Izvorni jezik
Hrvatski

Znanstvena područja
Informacijske i komunikacijske znanosti



POVEZANOST RADA


Projekt / tema
130743

Ustanove
Filozofski fakultet, Zagreb

Autor s matičnim brojem:
Damir Boras, (4513)