Postupak čišćenja web stranica u svrhu dubinske analize teksta (CROSBI ID 355213)
Ocjenski rad | sveučilišni preddiplomski završni rad
Podaci o odgovornosti
Krišto, Ivan
Dalbelo Bašić, Bojana
Šnajder, Jan
hrvatski
Postupak čišćenja web stranica u svrhu dubinske analize teksta
Za razliku od tradicionalnih tekstovnih dokumenata, web stranice tipično sa državaju veliku količinu informacija koje se ne odnose izravno na njihov sadržaj, poput promidžbenih poruka, navigacijskih uputa, i sl. U kontekstu dubinske analize teksta i računalno-lingvističke obrade, takve informacije predstavljaju neželjeni šum. U okviru rada proučeni su postupci za automatsko čišćenje dokumenata u HTML-u od nepotrebnog sadržaja, razvijena programska implementacija postupka pogodna za ugradnju u pobirač dokumenata s web sjedišta te provedeno eksperimentalno vrednovanje postupka.
HTML; web stranice; uklanjanje šuma; automatsko čišćenje; dubinska analiza teksta
nije evidentirano
engleski
Web Page Cleaning Techniques for Text Mining
nije evidentirano
HTML; web pages; boilerplate removal; automated web cleaner; text mining
nije evidentirano
Podaci o izdanju
38
15.07.2009.
obranjeno
Podaci o ustanovi koja je dodijelila akademski stupanj
Fakultet elektrotehnike i računarstva
Zagreb