Pregled bibliografske jedinice broj: 883930
Programski sustav za izdvajanje glavnog tekstualnog sadržaja iz web-stranica
Programski sustav za izdvajanje glavnog tekstualnog sadržaja iz web-stranica, 2017., diplomski rad, diplomski, Fakultet elektrotehnike i računarstva, Zagreb
CROSBI ID: 883930 Za ispravke kontaktirajte CROSBI podršku putem web obrasca
Naslov
Programski sustav za izdvajanje glavnog tekstualnog sadržaja iz web-stranica
(Programming System for the Extraction of Main Textual Content from Web Pages)
Autori
Budić, Dora
Vrsta, podvrsta i kategorija rada
Ocjenski radovi, diplomski rad, diplomski
Fakultet
Fakultet elektrotehnike i računarstva
Mjesto
Zagreb
Datum
03.07
Godina
2017
Stranica
42
Mentor
Srbljić, Siniša
Neposredni voditelj
Vladimir, Klemo
Ključne riječi
izdvajanje tekstualnog sadržaja ; web-stranica ; tehnike izdvajanja ; alati za izdvajanje ; Boilerpipe ; Dragnet ; Newspaper ; Goose ; Docker
(textual content extraction ; web site ; extraction techniques ; extraction tools ; Boilerpipe ; Dragnet ; Newspaper ; Goose ; Docker)
Sažetak
U sklopu rada proučavaju se različite metode i dostupni alati otvorenog koda (eng. Open Source) za izdvajanje glavnog tekstualnog sadržaja iz web-stranica. Također, zbog nedostatka programskih sustava za usporedbu takvih alata, razvijen je takav programski sustav pomoću kojeg se, unosom željenog URL-a web-stranice i manualno izdvojenog glavnog sadržaja, pokreće automatizirano izdvajanje sadržaja te se prikazuju pojedinačne statističke metrike za svakog. Te statističke metrike čine: vrijeme izvođenja, preciznost, povrat te F1 rezultat. Alati se uspoređuju i na skupu stranica: sve unesene stranice, kategorije stranica (vijesti, blog, forum, stranice za prodaju), jezici stranica (hrvatski, engleski, njemački). Za implementaciju navedenog programskog sustava, zbog njegovih prednosti u izgradnji takvog sustava, koristio se Docker.
Izvorni jezik
Hrvatski
Znanstvena područja
Računarstvo
POVEZANOST RADA
Ustanove:
Fakultet elektrotehnike i računarstva, Zagreb