Pretražite po imenu i prezimenu autora, mentora, urednika, prevoditelja

Napredna pretraga

Pregled bibliografske jedinice broj: 476329

Postupak automatskog određivanja rečeničnih granica


Kegalj, Ante
Postupak automatskog određivanja rečeničnih granica, 2010., diplomski rad, preddiplomski, Fakultet elektrotehnike i računarstva, Zagreb


CROSBI ID: 476329 Za ispravke kontaktirajte CROSBI podršku putem web obrasca

Naslov
Postupak automatskog određivanja rečeničnih granica
(Automated Sentence Boundary Detection)

Autori
Kegalj, Ante

Vrsta, podvrsta i kategorija rada
Ocjenski radovi, diplomski rad, preddiplomski

Fakultet
Fakultet elektrotehnike i računarstva

Mjesto
Zagreb

Datum
07.07

Godina
2010

Stranica
39

Mentor
Dalbelo Bašić, Bojana

Neposredni voditelj
Šnajder, Jan

Ključne riječi
višejezična detekcija rečeničnih granica; obrada prirodnog jezika; strojno učenje; nenadzirano učenje
(multilingual sentence boundary detection; natural language processing; machine learning; unsupervised learning)

Sažetak
Određivanje rečeničnih granica jedan je od osnovnih problema pri strojnoj obradi prirodnoga jezika te preduvjet mnogim drugim zadacima kao što su označavanje vrste riječi, crpljenje imenovanih entiteta, sintaktička analiza itd. Problem pri automatskom određivanju rečeničnih granica predstavlja višeznačnost interpunkcijskih znakova, posebice znaka točke koja se, osim za označavanje kraja rečenice, upotrebljava i kod pisanja kratica. U ovome radu predstavljen je jezično neovisan, nenadziran pristup automatskom određivanju rečeničnih granica. Temelji se na razrješavanju kratica za koje se utvrdilo da stvaraju velike probleme u sličnim sustavima. Umjesto da se sustav oslanja na informacije o veličini slova, predloženi sustav u mogućnosti je prepoznati kratice s velikom točnošću koristeći tri kriterija koja su potpuno neovisna o kontekstu u kojemu se nalazi kratica : Kratica je jaka kolokacija skraćene riječi i točke, kratice uglavnom sadrže mali broj slova, i kratice katkada unutar riječi sadrže točke. Pokazane su i druge sekundarne metode kojima bi se pridonijelo točnosti sustava. U tu skupinu spadaju metode za detekciju inicijala i brojeva, kao i neke metode koje paze na veličinu slova u tekstu. U sklopu rada prikazani su rezultati evaluacije sustava na 11 stranih jezika te na hrvatskom jeziku.

Izvorni jezik
Hrvatski

Znanstvena područja
Računarstvo



POVEZANOST RADA


Projekti:
036-1300646-1986 - Otkrivanje znanja u tekstnim podacima (Dalbelo-Bašić, Bojana, MZO ) ( CroRIS)

Ustanove:
Fakultet elektrotehnike i računarstva, Zagreb

Profili:

Avatar Url Jan Šnajder (mentor)

Avatar Url Bojana Dalbelo Bašić (mentor)


Citiraj ovu publikaciju:

Kegalj, Ante
Postupak automatskog određivanja rečeničnih granica, 2010., diplomski rad, preddiplomski, Fakultet elektrotehnike i računarstva, Zagreb
Kegalj, A. (2010) 'Postupak automatskog određivanja rečeničnih granica', diplomski rad, preddiplomski, Fakultet elektrotehnike i računarstva, Zagreb.
@phdthesis{phdthesis, author = {Kegalj, Ante}, year = {2010}, pages = {39}, keywords = {vi\v{s}ejezi\v{c}na detekcija re\v{c}eni\v{c}nih granica, obrada prirodnog jezika, strojno u\v{c}enje, nenadzirano u\v{c}enje}, title = {Postupak automatskog odre\djivanja re\v{c}eni\v{c}nih granica}, keyword = {vi\v{s}ejezi\v{c}na detekcija re\v{c}eni\v{c}nih granica, obrada prirodnog jezika, strojno u\v{c}enje, nenadzirano u\v{c}enje}, publisherplace = {Zagreb} }
@phdthesis{phdthesis, author = {Kegalj, Ante}, year = {2010}, pages = {39}, keywords = {multilingual sentence boundary detection, natural language processing, machine learning, unsupervised learning}, title = {Automated Sentence Boundary Detection}, keyword = {multilingual sentence boundary detection, natural language processing, machine learning, unsupervised learning}, publisherplace = {Zagreb} }




Contrast
Increase Font
Decrease Font
Dyslexic Font