Programski sustav za izdvajanje glavnog tekstualnog sadržaja iz web-stranica (CROSBI ID 411151)
Ocjenski rad | diplomski rad
Podaci o odgovornosti
Budić, Dora
Srbljić, Siniša
Vladimir, Klemo
hrvatski
Programski sustav za izdvajanje glavnog tekstualnog sadržaja iz web-stranica
U sklopu rada proučavaju se različite metode i dostupni alati otvorenog koda (eng. Open Source) za izdvajanje glavnog tekstualnog sadržaja iz web-stranica. Također, zbog nedostatka programskih sustava za usporedbu takvih alata, razvijen je takav programski sustav pomoću kojeg se, unosom željenog URL-a web-stranice i manualno izdvojenog glavnog sadržaja, pokreće automatizirano izdvajanje sadržaja te se prikazuju pojedinačne statističke metrike za svakog. Te statističke metrike čine: vrijeme izvođenja, preciznost, povrat te F1 rezultat. Alati se uspoređuju i na skupu stranica: sve unesene stranice, kategorije stranica (vijesti, blog, forum, stranice za prodaju), jezici stranica (hrvatski, engleski, njemački). Za implementaciju navedenog programskog sustava, zbog njegovih prednosti u izgradnji takvog sustava, koristio se Docker.
izdvajanje tekstualnog sadržaja ; web-stranica ; tehnike izdvajanja ; alati za izdvajanje ; Boilerpipe ; Dragnet ; Newspaper ; Goose ; Docker
nije evidentirano
engleski
Programming System for the Extraction of Main Textual Content from Web Pages
nije evidentirano
textual content extraction ; web site ; extraction techniques ; extraction tools ; Boilerpipe ; Dragnet ; Newspaper ; Goose ; Docker
nije evidentirano
Podaci o izdanju
42
03.07.2017.
obranjeno
Podaci o ustanovi koja je dodijelila akademski stupanj
Fakultet elektrotehnike i računarstva
Zagreb