Pretražite po imenu i prezimenu autora, mentora, urednika, prevoditelja

Napredna pretraga

Pregled bibliografske jedinice broj: 883930

Programski sustav za izdvajanje glavnog tekstualnog sadržaja iz web-stranica


Budić, Dora
Programski sustav za izdvajanje glavnog tekstualnog sadržaja iz web-stranica, 2017., diplomski rad, diplomski, Fakultet elektrotehnike i računarstva, Zagreb


CROSBI ID: 883930 Za ispravke kontaktirajte CROSBI podršku putem web obrasca

Naslov
Programski sustav za izdvajanje glavnog tekstualnog sadržaja iz web-stranica
(Programming System for the Extraction of Main Textual Content from Web Pages)

Autori
Budić, Dora

Vrsta, podvrsta i kategorija rada
Ocjenski radovi, diplomski rad, diplomski

Fakultet
Fakultet elektrotehnike i računarstva

Mjesto
Zagreb

Datum
03.07

Godina
2017

Stranica
42

Mentor
Srbljić, Siniša

Neposredni voditelj
Vladimir, Klemo

Ključne riječi
izdvajanje tekstualnog sadržaja ; web-stranica ; tehnike izdvajanja ; alati za izdvajanje ; Boilerpipe ; Dragnet ; Newspaper ; Goose ; Docker
(textual content extraction ; web site ; extraction techniques ; extraction tools ; Boilerpipe ; Dragnet ; Newspaper ; Goose ; Docker)

Sažetak
U sklopu rada proučavaju se različite metode i dostupni alati otvorenog koda (eng. Open Source) za izdvajanje glavnog tekstualnog sadržaja iz web-stranica. Također, zbog nedostatka programskih sustava za usporedbu takvih alata, razvijen je takav programski sustav pomoću kojeg se, unosom željenog URL-a web-stranice i manualno izdvojenog glavnog sadržaja, pokreće automatizirano izdvajanje sadržaja te se prikazuju pojedinačne statističke metrike za svakog. Te statističke metrike čine: vrijeme izvođenja, preciznost, povrat te F1 rezultat. Alati se uspoređuju i na skupu stranica: sve unesene stranice, kategorije stranica (vijesti, blog, forum, stranice za prodaju), jezici stranica (hrvatski, engleski, njemački). Za implementaciju navedenog programskog sustava, zbog njegovih prednosti u izgradnji takvog sustava, koristio se Docker.

Izvorni jezik
Hrvatski

Znanstvena područja
Računarstvo



POVEZANOST RADA


Ustanove:
Fakultet elektrotehnike i računarstva, Zagreb

Profili:

Avatar Url Siniša Srbljić (mentor)

Avatar Url Klemo Vladimir (mentor)


Citiraj ovu publikaciju:

Budić, Dora
Programski sustav za izdvajanje glavnog tekstualnog sadržaja iz web-stranica, 2017., diplomski rad, diplomski, Fakultet elektrotehnike i računarstva, Zagreb
Budić, D. (2017) 'Programski sustav za izdvajanje glavnog tekstualnog sadržaja iz web-stranica', diplomski rad, diplomski, Fakultet elektrotehnike i računarstva, Zagreb.
@phdthesis{phdthesis, author = {Budi\'{c}, Dora}, year = {2017}, pages = {42}, keywords = {izdvajanje tekstualnog sadr\v{z}aja, web-stranica, tehnike izdvajanja, alati za izdvajanje, Boilerpipe, Dragnet, Newspaper, Goose, Docker}, title = {Programski sustav za izdvajanje glavnog tekstualnog sadr\v{z}aja iz web-stranica}, keyword = {izdvajanje tekstualnog sadr\v{z}aja, web-stranica, tehnike izdvajanja, alati za izdvajanje, Boilerpipe, Dragnet, Newspaper, Goose, Docker}, publisherplace = {Zagreb} }
@phdthesis{phdthesis, author = {Budi\'{c}, Dora}, year = {2017}, pages = {42}, keywords = {textual content extraction, web site, extraction techniques, extraction tools, Boilerpipe, Dragnet, Newspaper, Goose, Docker}, title = {Programming System for the Extraction of Main Textual Content from Web Pages}, keyword = {textual content extraction, web site, extraction techniques, extraction tools, Boilerpipe, Dragnet, Newspaper, Goose, Docker}, publisherplace = {Zagreb} }




Contrast
Increase Font
Decrease Font
Dyslexic Font