Nalazite se na CroRIS probnoj okolini. Ovdje evidentirani podaci neće biti pohranjeni u Informacijskom sustavu znanosti RH. Ako je ovo greška, CroRIS produkcijskoj okolini moguće je pristupi putem poveznice www.croris.hr
izvor podataka: crosbi !

Proširenje leksičke baze mrežnog pravopisnog provjernika (CROSBI ID 368156)

Ocjenski rad | magistarski rad (mr. sc. i mr. art.)

Pavlek, Jakov Proširenje leksičke baze mrežnog pravopisnog provjernika / Dembitz, Šandor (mentor); Zagreb, Fakultet elektrotehnike i računarstva, . 2010

Podaci o odgovornosti

Pavlek, Jakov

Dembitz, Šandor

hrvatski

Proširenje leksičke baze mrežnog pravopisnog provjernika

Svaki živi prirodni jezik neiscrpan je izvor novih riječi. On ih stvara ili preuzima iz drugih jezika prilagođujući ih sebi. Stoga se može reći da niti jedna leksička baza nije konačna i potpuna. To vrijedi i za leksičke baze mrežnih pravopisnih provjernika koji u stalnoj interakciji s okolinom nude pogodno okruženje za učenje novih riječi iz pristižućih tekstova za obradu. Kao okolina za učenje novih riječi ispitane su internetske nacionalne vršne domene i domena Wikipedije. Preispitane su postojeće i razvijene nove metode i programski alati za ručno, automatsko i poluautomatsko proširenje leksičke baze u okruženju mrežnog pravopisnog provjernika Hascheck. Predložena je metrika na temelju koje se može odlučivati koji se sadržaji mogu nedvojbeno smatrati riječima, koji pogrješkama, a nad kojima je potrebno da čovjek donosi odluku o uvrštavanju u leksičku bazu. Razvijenim metodama je proces proširenja leksičke baze, odnosno nadgledano učenje sustava Hascheck znatno ubrzan, čime je smanjeno radno opterećenje osobe koja nadgleda učenje. Metode su ispitane i ocijenjene na uzorku od 135.000 novih različnica uz ručnu provjeru. Stvoreni su uvjeti i za proširenje baze podatcima za označavanje morfoloških kategorija i vrsta riječi čime se otvara prostor istraživanju na području kontekstnog ispravljanja tekstova na hrvatskom jeziku.

mrežni pravopisni provjernik; mrežna usluga Hascheck; pretraživanje; tražilica Google; Wikipedija; nadgledano strojno učenje; hrvatski jezik; morfologija

nije evidentirano

engleski

Online Spell Checker Lexical Database Expansion

nije evidentirano

online spell checker; Hascheck web service; Google Search; Wikipedia; supervised machine learning; the Croatian language; morphology

nije evidentirano

Podaci o izdanju

105

30.05.2010.

obranjeno

Podaci o ustanovi koja je dodijelila akademski stupanj

Fakultet elektrotehnike i računarstva

Zagreb

Povezanost rada

Elektrotehnika