Pretražite po imenu i prezimenu autora, mentora, urednika, prevoditelja

Napredna pretraga

Pregled bibliografske jedinice broj: 425111

Postupak čišćenja web stranica u svrhu dubinske analize teksta


Krišto, Ivan
Postupak čišćenja web stranica u svrhu dubinske analize teksta, 2009., diplomski rad, preddiplomski, Fakultet elektrotehnike i računarstva, Zagreb


CROSBI ID: 425111 Za ispravke kontaktirajte CROSBI podršku putem web obrasca

Naslov
Postupak čišćenja web stranica u svrhu dubinske analize teksta
(Web Page Cleaning Techniques for Text Mining)

Autori
Krišto, Ivan

Vrsta, podvrsta i kategorija rada
Ocjenski radovi, diplomski rad, preddiplomski

Fakultet
Fakultet elektrotehnike i računarstva

Mjesto
Zagreb

Datum
15.07

Godina
2009

Stranica
38

Mentor
Dalbelo Bašić, Bojana

Neposredni voditelj
Šnajder, Jan

Ključne riječi
HTML; web stranice; uklanjanje šuma; automatsko čišćenje; dubinska analiza teksta
(HTML; web pages; boilerplate removal; automated web cleaner; text mining)

Sažetak
Za razliku od tradicionalnih tekstovnih dokumenata, web stranice tipično sa državaju veliku količinu informacija koje se ne odnose izravno na njihov sadržaj, poput promidžbenih poruka, navigacijskih uputa, i sl. U kontekstu dubinske analize teksta i računalno-lingvističke obrade, takve informacije predstavljaju neželjeni šum. U okviru rada proučeni su postupci za automatsko čišćenje dokumenata u HTML-u od nepotrebnog sadržaja, razvijena programska implementacija postupka pogodna za ugradnju u pobirač dokumenata s web sjedišta te provedeno eksperimentalno vrednovanje postupka.

Izvorni jezik
Hrvatski

Znanstvena područja
Računarstvo



POVEZANOST RADA


Projekti:
036-1300646-1986 - Otkrivanje znanja u tekstnim podacima (Dalbelo-Bašić, Bojana, MZO ) ( CroRIS)

Ustanove:
Fakultet elektrotehnike i računarstva, Zagreb

Profili:

Avatar Url Jan Šnajder (mentor)

Avatar Url Bojana Dalbelo Bašić (mentor)


Citiraj ovu publikaciju:

Krišto, Ivan
Postupak čišćenja web stranica u svrhu dubinske analize teksta, 2009., diplomski rad, preddiplomski, Fakultet elektrotehnike i računarstva, Zagreb
Krišto, I. (2009) 'Postupak čišćenja web stranica u svrhu dubinske analize teksta', diplomski rad, preddiplomski, Fakultet elektrotehnike i računarstva, Zagreb.
@phdthesis{phdthesis, author = {Kri\v{s}to, Ivan}, year = {2009}, pages = {38}, keywords = {HTML, web stranice, uklanjanje \v{s}uma, automatsko \v{c}i\v{s}\'{c}enje, dubinska analiza teksta}, title = {Postupak \v{c}i\v{s}\'{c}enja web stranica u svrhu dubinske analize teksta}, keyword = {HTML, web stranice, uklanjanje \v{s}uma, automatsko \v{c}i\v{s}\'{c}enje, dubinska analiza teksta}, publisherplace = {Zagreb} }
@phdthesis{phdthesis, author = {Kri\v{s}to, Ivan}, year = {2009}, pages = {38}, keywords = {HTML, web pages, boilerplate removal, automated web cleaner, text mining}, title = {Web Page Cleaning Techniques for Text Mining}, keyword = {HTML, web pages, boilerplate removal, automated web cleaner, text mining}, publisherplace = {Zagreb} }




Contrast
Increase Font
Decrease Font
Dyslexic Font