Pregled bibliografske jedinice broj: 476329
Postupak automatskog određivanja rečeničnih granica
Postupak automatskog određivanja rečeničnih granica, 2010., diplomski rad, preddiplomski, Fakultet elektrotehnike i računarstva, Zagreb
CROSBI ID: 476329 Za ispravke kontaktirajte CROSBI podršku putem web obrasca
Naslov
Postupak automatskog određivanja rečeničnih granica
(Automated Sentence Boundary Detection)
Autori
Kegalj, Ante
Vrsta, podvrsta i kategorija rada
Ocjenski radovi, diplomski rad, preddiplomski
Fakultet
Fakultet elektrotehnike i računarstva
Mjesto
Zagreb
Datum
07.07
Godina
2010
Stranica
39
Mentor
Dalbelo Bašić, Bojana
Neposredni voditelj
Šnajder, Jan
Ključne riječi
višejezična detekcija rečeničnih granica; obrada prirodnog jezika; strojno učenje; nenadzirano učenje
(multilingual sentence boundary detection; natural language processing; machine learning; unsupervised learning)
Sažetak
Određivanje rečeničnih granica jedan je od osnovnih problema pri strojnoj obradi prirodnoga jezika te preduvjet mnogim drugim zadacima kao što su označavanje vrste riječi, crpljenje imenovanih entiteta, sintaktička analiza itd. Problem pri automatskom određivanju rečeničnih granica predstavlja višeznačnost interpunkcijskih znakova, posebice znaka točke koja se, osim za označavanje kraja rečenice, upotrebljava i kod pisanja kratica. U ovome radu predstavljen je jezično neovisan, nenadziran pristup automatskom određivanju rečeničnih granica. Temelji se na razrješavanju kratica za koje se utvrdilo da stvaraju velike probleme u sličnim sustavima. Umjesto da se sustav oslanja na informacije o veličini slova, predloženi sustav u mogućnosti je prepoznati kratice s velikom točnošću koristeći tri kriterija koja su potpuno neovisna o kontekstu u kojemu se nalazi kratica : Kratica je jaka kolokacija skraćene riječi i točke, kratice uglavnom sadrže mali broj slova, i kratice katkada unutar riječi sadrže točke. Pokazane su i druge sekundarne metode kojima bi se pridonijelo točnosti sustava. U tu skupinu spadaju metode za detekciju inicijala i brojeva, kao i neke metode koje paze na veličinu slova u tekstu. U sklopu rada prikazani su rezultati evaluacije sustava na 11 stranih jezika te na hrvatskom jeziku.
Izvorni jezik
Hrvatski
Znanstvena područja
Računarstvo
POVEZANOST RADA
Projekti:
036-1300646-1986 - Otkrivanje znanja u tekstnim podacima (Dalbelo-Bašić, Bojana, MZO ) ( CroRIS)
Ustanove:
Fakultet elektrotehnike i računarstva, Zagreb