Nalazite se na CroRIS probnoj okolini. Ovdje evidentirani podaci neće biti pohranjeni u Informacijskom sustavu znanosti RH. Ako je ovo greška, CroRIS produkcijskoj okolini moguće je pristupi putem poveznice www.croris.hr
izvor podataka: crosbi !

Postupak čišćenja web stranica u svrhu dubinske analize teksta (CROSBI ID 355213)

Ocjenski rad | sveučilišni preddiplomski završni rad

Krišto, Ivan Postupak čišćenja web stranica u svrhu dubinske analize teksta / Dalbelo Bašić, Bojana (mentor); Šnajder, Jan (neposredni voditelj). Zagreb, Fakultet elektrotehnike i računarstva, . 2009

Podaci o odgovornosti

Krišto, Ivan

Dalbelo Bašić, Bojana

Šnajder, Jan

hrvatski

Postupak čišćenja web stranica u svrhu dubinske analize teksta

Za razliku od tradicionalnih tekstovnih dokumenata, web stranice tipično sa državaju veliku količinu informacija koje se ne odnose izravno na njihov sadržaj, poput promidžbenih poruka, navigacijskih uputa, i sl. U kontekstu dubinske analize teksta i računalno-lingvističke obrade, takve informacije predstavljaju neželjeni šum. U okviru rada proučeni su postupci za automatsko čišćenje dokumenata u HTML-u od nepotrebnog sadržaja, razvijena programska implementacija postupka pogodna za ugradnju u pobirač dokumenata s web sjedišta te provedeno eksperimentalno vrednovanje postupka.

HTML; web stranice; uklanjanje šuma; automatsko čišćenje; dubinska analiza teksta

nije evidentirano

engleski

Web Page Cleaning Techniques for Text Mining

nije evidentirano

HTML; web pages; boilerplate removal; automated web cleaner; text mining

nije evidentirano

Podaci o izdanju

38

15.07.2009.

obranjeno

Podaci o ustanovi koja je dodijelila akademski stupanj

Fakultet elektrotehnike i računarstva

Zagreb

Povezanost rada

Računarstvo