Pretražite po imenu i prezimenu autora, mentora, urednika, prevoditelja

Napredna pretraga

Pregled bibliografske jedinice broj: 635457

Funkcionalna leksikografija mrežnoga pravopisnog provjernika


Šandor Dembitz
Funkcionalna leksikografija mrežnoga pravopisnog provjernika // Filologija : časopis Razreda za filološke znanosti Hrvatske akademije znanosti i umjetnosti, 58 (2012), 55-98 (međunarodna recenzija, članak, znanstveni)


CROSBI ID: 635457 Za ispravke kontaktirajte CROSBI podršku putem web obrasca

Naslov
Funkcionalna leksikografija mrežnoga pravopisnog provjernika
(Functional Lexicography of an Online Spellchecker)

Autori
Šandor Dembitz

Izvornik
Filologija : časopis Razreda za filološke znanosti Hrvatske akademije znanosti i umjetnosti (0449-363X) 58 (2012); 55-98

Vrsta, podvrsta i kategorija rada
Radovi u časopisima, članak, znanstveni

Ključne riječi
pravopisni provjernik; korpus; indeks učenja; pokrivanje teksta; Heapsov zakon
(spellchecker; language corpus; learning index; text coverage; Heaps’ law)

Sažetak
Mrežni pravopisni provjernici nude jedinstvenu priliku za popravljanje vlastite jezične funkcionalnosti interakcijom sa svojim korisnicima. Navedenu mogućnost posebno je važno iskoristiti u jezičnotehnološki perifernim jezicima, kakav je hrvatski, radi prevladavanja jaza koji postoji u tehnologiji obrade prirodnoga jezika između njih i jezičnotehnološki središnjih jezika. Načini na koje je ova mogućnost iskorištena u slučaju hrvatskoga jezika bit će opisana na primjeru mrežnoga pravopisnog provjernika poznatog pod imenom Hascheck. Hascheck je prvi hrvatski javni pravopisni provjernik u uporabi od početka 1993. godine. Njegov je početni rječnik obasezao 100 tisuća različnica hrvatskoga općejezičnog fonda. Učenjem iz tekstova koji su mu pristizali na obradu opseg njegova rječnika je do svibnja 2010. godine narastao na 830 tisuća općejezičnih različnica i 600 tisuća različnica posebnojezičnoga fonda (osobna, vlastita i druga imena, kratice i tako dalje). Ovo je rezultat obrade korpusa od 260 milijuna pojavnica ostvaren zahvaljujući ekspertnom sustavu za učenje inkorporiranom u programski sustav pravopisnoga provjernika. Iako je sustav za učenje visokoautomatiziran, nove se različnice ne uvrštavaju u leksičku bazu bez prethodnog ljudskog nadzora. Nadzor je potreban radi očuvanja točnosti rječnika. Tijekom nadzora posebno se vodi računa da u rječnik ne uđu različnice koje se vrlo rijetko javljaju u uporabi, a identične su pogreškama u pisanju puno učestalijih riječi hrvatskoga jezika. Velika količina podataka prikupljana godinama omogućuje i pouzdano matematičko modeliranje mnogih aspekata Hascheckova života, što će također biti iscrpno opisano u ovome radu.

Izvorni jezik
Hrvatski

Znanstvena područja
Računarstvo



POVEZANOST RADA


Ustanove:
Fakultet elektrotehnike i računarstva, Zagreb

Profili:

Avatar Url Šandor Dembitz (autor)


Citiraj ovu publikaciju:

Šandor Dembitz
Funkcionalna leksikografija mrežnoga pravopisnog provjernika // Filologija : časopis Razreda za filološke znanosti Hrvatske akademije znanosti i umjetnosti, 58 (2012), 55-98 (međunarodna recenzija, članak, znanstveni)
Šandor Dembitz (2012) Funkcionalna leksikografija mrežnoga pravopisnog provjernika. Filologija : časopis Razreda za filološke znanosti Hrvatske akademije znanosti i umjetnosti, 58, 55-98.
@article{article, year = {2012}, pages = {55-98}, keywords = {pravopisni provjernik, korpus, indeks u\v{c}enja, pokrivanje teksta, Heapsov zakon}, journal = {Filologija : \v{c}asopis Razreda za filolo\v{s}ke znanosti Hrvatske akademije znanosti i umjetnosti}, volume = {58}, issn = {0449-363X}, title = {Funkcionalna leksikografija mre\v{z}noga pravopisnog provjernika}, keyword = {pravopisni provjernik, korpus, indeks u\v{c}enja, pokrivanje teksta, Heapsov zakon} }
@article{article, year = {2012}, pages = {55-98}, keywords = {spellchecker, language corpus, learning index, text coverage, Heaps’ law}, journal = {Filologija : \v{c}asopis Razreda za filolo\v{s}ke znanosti Hrvatske akademije znanosti i umjetnosti}, volume = {58}, issn = {0449-363X}, title = {Functional Lexicography of an Online Spellchecker}, keyword = {spellchecker, language corpus, learning index, text coverage, Heaps’ law} }

Časopis indeksira:


  • Scopus





Contrast
Increase Font
Decrease Font
Dyslexic Font