Filtriranje geoprostornog toka podataka korištenjem platforme Apache Spark (CROSBI ID 428172)
Ocjenski rad | sveučilišni preddiplomski završni rad
Podaci o odgovornosti
Britvec, Darko
Pripužić, Krešimir
Katušić, Damjan
hrvatski
Filtriranje geoprostornog toka podataka korištenjem platforme Apache Spark
Cilj ovog rada je stvaranje učinkovitog raspodijeljenog sustava za filtriranje geoprostornog toka podataka korištenjem platforme Apache Spark. Arhitektura korištena u implementaciji programskog rješenja naziva se „objavi-pretplati“. Objave u sustavu predstavljaju poruke formata GeoJSON koje sadrže geoprostornu značajku (točku, liniju, poligon) te dodatne informacije. Pretplate u sustavu predstavljaju poligoni u prostoru uz koje vežemo dodatne značajke. Tok podataka implementiran je pomoću alata Apache Kafka. Za konzumaciju toka podataka koristi se Spark Streaming koji tok obrađuje u dijelovima koji se mogu primiti u određenom vremenskom intervalu (engl. micro-batch). Za filtriranje geoprostornih podataka korištena je programska knjižnica GeoSpark koja dodatno koristi knjižnice Java Topology Suite i Geotools. Učinkovito filtriranje prostornih podataka ostvareno je pomoću particioniranja skupa pretplata pomoću različitih strategija particioniranja. Izlaz sustava je poruka u formatu JSON koja sadrži identifikator objave i pripadne pretplate. U evaluaciji rješenja isprobane su strategije particioniranja pomoću Hilbertove krivulje, KDB-stabla, Q-stabla i R-stabla. Dodatno, za poboljšanje rezultata ispitano je i korištenje geoprostornih indeksa ostvarenih pomoću R-stabla i Q-stabla. U evaluaciji je također ispitan utjecaj korištenja pričuvne memorije za spremanje skupa pretplata.
raspodijeljeni sustav ; Apache Spark ; objavi-pretplati ; geoprostorni tok ; GeoJSON ; Apache Kafka ; Spark Streaming ; GeoSpark ; Java Topology Suite ; Geotools ; particioniranje ; Hilbertova krivulja ; Voronoijev dijagram ; R-stablo ; Q-stablo ; KDB-stablo ; prostorni indeks
nije evidentirano
engleski
Filtering of Geospatial Data Streams using Apache Spark Platform
nije evidentirano
distributed system ; Apache Spark ; publish-subscribe ; geospatial data stream ; GeoJSON ; Apache Kafka ; Spark Streaming ; GeoSpark ; Java Topology Suite ; Geotools ; partitioning ; Hilbert curve ; Voronoi diagram ; R-tree, Q-tree ; KDB-tree ; geospatial index
nije evidentirano
Podaci o izdanju
45
08.07.2019.
obranjeno
Podaci o ustanovi koja je dodijelila akademski stupanj
Fakultet elektrotehnike i računarstva
Zagreb