Pregled bibliografske jedinice broj: 425111
Postupak čišćenja web stranica u svrhu dubinske analize teksta
Postupak čišćenja web stranica u svrhu dubinske analize teksta, 2009., diplomski rad, preddiplomski, Fakultet elektrotehnike i računarstva, Zagreb
CROSBI ID: 425111 Za ispravke kontaktirajte CROSBI podršku putem web obrasca
Naslov
Postupak čišćenja web stranica u svrhu dubinske analize teksta
(Web Page Cleaning Techniques for Text Mining)
Autori
Krišto, Ivan
Vrsta, podvrsta i kategorija rada
Ocjenski radovi, diplomski rad, preddiplomski
Fakultet
Fakultet elektrotehnike i računarstva
Mjesto
Zagreb
Datum
15.07
Godina
2009
Stranica
38
Mentor
Dalbelo Bašić, Bojana
Neposredni voditelj
Šnajder, Jan
Ključne riječi
HTML; web stranice; uklanjanje šuma; automatsko čišćenje; dubinska analiza teksta
(HTML; web pages; boilerplate removal; automated web cleaner; text mining)
Sažetak
Za razliku od tradicionalnih tekstovnih dokumenata, web stranice tipično sa državaju veliku količinu informacija koje se ne odnose izravno na njihov sadržaj, poput promidžbenih poruka, navigacijskih uputa, i sl. U kontekstu dubinske analize teksta i računalno-lingvističke obrade, takve informacije predstavljaju neželjeni šum. U okviru rada proučeni su postupci za automatsko čišćenje dokumenata u HTML-u od nepotrebnog sadržaja, razvijena programska implementacija postupka pogodna za ugradnju u pobirač dokumenata s web sjedišta te provedeno eksperimentalno vrednovanje postupka.
Izvorni jezik
Hrvatski
Znanstvena područja
Računarstvo
POVEZANOST RADA
Projekti:
036-1300646-1986 - Otkrivanje znanja u tekstnim podacima (Dalbelo-Bašić, Bojana, MZO ) ( CroRIS)
Ustanove:
Fakultet elektrotehnike i računarstva, Zagreb