Information Extraction from Security-Related Datasets

Seljan, Sanja; Tolj, Nevenka; Dunđer, Ivan

izvor podataka: crosbi !

Information Extraction from Security-Related Datasets (CROSBI ID 737422)

Prilog sa skupa u zborniku | izvorni znanstveni rad | međunarodna recenzija

Seljan, Sanja ; Tolj, Nevenka ; Dunđer, Ivan Information Extraction from Security-Related Datasets // MIPRO Proceedings - ICT and Electronics Convention / Skala, Karolj (ur.). Rijeka: Hrvatska udruga za informacijsku i komunikacijsku tehnologiju, elektroniku i mikroelektroniku - MIPRO, 2023. str. 595-600 doi: 10.23919/MIPRO57284.2023.10159920

Podaci o odgovornosti

Autori

Seljan, Sanja ; Tolj, Nevenka ; Dunđer, Ivan

Osnovni podaci na izvornom jeziku
Osnovni podaci na ostalim jezicima

Jezik

engleski

Naslov

Information Extraction from Security-Related Datasets

Sažetak

There are various approaches to executing security breaches which are nowadays massively occurring in electronic communication environments, and phishing attacks are one of the most applied ones. A vast majority of phishing attacks are initiated using electronic messages, which attackers utilize to direct users to harmful or fake websites, to infect computers or to obtain personal or sensitive data for malicious purposes. Consequently, it is necessary to identify phishing messages in order to provide suitable user protection. Research and numerous studies have included machine learning algorithms and techniques from the field of artificial intelligence which predominantly depend on language-specific datasets and characteristics of phishing messages, and which have demonstrated to be effective for extracting critical information and for data-driven decision making. However, phishing datasets exist mainly for the English language. The aim of this paper is to present an information extraction pipeline that encompasses phases, such as corpus pre-processing, generating predictions of phishing messages using selected machine learning algorithms, along with a basic analysis, confusion matrices and evaluation scores for Croatian phishing messages. This type of key information can be used for teaching in higher education, e.g. in security-related courses or subjects that deal with artificial intelligence, machine learning, big data analysis, computational linguistics etc. This is essential as it can provide deeper insights into phishing attack strategies and potential countermeasures.

Ključne riječi

information extraction ; machine learning ; corpus analysis ; security datasets ; information security ; information and communication sciences

Napomena

nije evidentirano

Jezik

nije evidentirano

Naslov

nije evidentirano

Sažetak

nije evidentirano

Ključne riječi

nije evidentirano

Napomena

nije evidentirano

Podaci o prilogu

Stranice rada

595-600.

Godina izdavanja

2023.

Status objave rada

objavljeno

DOI

10.23919/MIPRO57284.2023.10159920

Podaci o matičnoj publikaciji

Naslov

MIPRO Proceedings - ICT and Electronics Convention

Urednici

Skala, Karolj

Izdavač

Rijeka: Hrvatska udruga za informacijsku i komunikacijsku tehnologiju, elektroniku i mikroelektroniku - MIPRO

ISSN

1847-3938

e-ISSN

1847-3946

Podaci o skupu

Skup

46th MIPRO ICT and Electronics Convention

Vrsta sudjelovanja

predavanje

Datum održavanja skupa

22.05.2023-26.05.2023

Mjesto održavanja skupa

Opatija, Hrvatska

Povezanost rada

Povezane osobe

Ivan Dunđer (CroRIS ID: 32136; MBZ: 345536) (autor/i)

Sanja Seljan (CroRIS ID: 5564; MBZ: 219255) (autor/i)

Povezane ustanove

Filozofski fakultet u Zagrebu (130) (autorova ustanova)

Povezani projekti

Istraživanje obrade prirodnog jezika (za hrvatski jezik) i razvoj proizvoda PhisHRban za povećanje kibernetičke sigurnosti (rezultat rada na projektu)

Strojno učenje i obrada prirodnog jezika u domeni računalne sigurnosti – II. dio (rezultat rada na projektu)

Područje

Informacijske i komunikacijske znanosti, Računarstvo

Poveznice

doi.org

mipro-proceedings.com