Keywords: Detección de Intrusiones, AutoEncoder, Random Forest Intrusion Detection, AutoEncoder, Random Forest Detecció d’intrusions, AutoEncoder, Random Forest
Title in different languages: Detección de nuevos ataques y clasificación temprana de actividades maliciosas en sistemas de control industrial Novelty detection and early classification of malicious activities on industrial control systems Detecció de novetats i classificació primerenca d'activitats malicioses en sistemes de control industrial
Subject areas: Ingeniería informática Computer engineering Enginyeria informàtica
Confidenciality: No
Academic year: 2020-2021
Work's codirector: 46557028Z
Student: Palacios Prados, Maria Carmen
Department: Enginyeria Informàtica i Matemàtiques
Access Rights: info:eu-repo/semantics/openAccess
Work's public defense date: 2021-09-21
Project director: Gómez Jiménez, Sergio
Abstract: Industrial Control Systems (ICS) are a set of industrial processes that manage, direct and regulate the behaviour of other devices. In particular, these processes are vital to service critical infrastructure, such as communications, manufacturing, and energy. An attack on these infrastructures can pose a threat to the day to day of the states. Unfortunately, in recent years ICS have been subject to an increase in the number of attacks Although Network Anomaly Detection Systems (NADS) are capable of detecting existing and zero-day attacks, it is still not universally implemented in industry and real applications, since current systems produce high False Positive Rates (FPRs) and low Detection Rates (DRs). Consequently, anomaly detection is still under-utilized in the cybersecurity arena. However, the alternative technique, the detection of abuse, is limited by the fact that it only addresses known vulnerabilities. Therefore, there is a mandatory need for anomaly detection to be operational to increase the coverage of current Intrusion Detection Systems (IDS). The goal of this master thesis is to apply machine learning and deep learning techniques that allow the normality space definition to address novelty detection and early classification of malicious activities on ICS. The rationale behind is that if the underlying infrastructure of malware samples is similar (e.g., as a result of being controlled by the same attacker, or by reusing code from another author), their behaviours or the order in which they perform certain actions would be similar. Specifically, the solution looks at similarities shown in industrial network traffic modelized by an enhanced feature set composed of simple, high-level features, extracted from the headers and payloads of the network packets. Regarding machine learning techniques, some traditional Machine Learning methods and Deep Neural Networks well suited for high-dimensional datasets have been implemented and tested. After several trails, the final solution combines an unsupervised anomaly detection technique called AutoEncoder (for the detection of unknown attacks) with Random Forest, a supervised machine learning that supports the detection of known attacks as well to reduce the false positive rate. This novel machine learning pipeline successfully detects zero-day and specific attacks since it achieves a precision of 0.998425, recall of 0.9607375 and f1-score of 0.9733375 while reduces to a negligible value the false positive rate. The performance evaluations of this approach have been carried out using the benchmark dataset named as CICIDS2017. This dataset was created by the Canadian Institute for Cybersecurity (CIC) and the University of New Brunswick (UNB). This dataset accommodates a variety of up-to-date multistage attacks and intruder strategies in modern normal behaviours. Els sistemes de control industrial (IC) són un conjunt de processos industrials que gestionen, dirigeixen i regulen el comportament d'altres dispositius. En particular, aquests processos són vitals per al servei d'infraestructures crítiques, com les comunicacions, la fabricació i l'energia. Un atac a aquestes infraestructures pot suposar una amenaça per al dia a dia dels Estats. Malauradament, en els últims anys, els sistemes de detecció d'anomalies de xarxa (SIGC) han estat subjectes a un augment en el nombre d'atacs, tot i que els sistemes de detecció d'anomalies de xarxa (NSD) són capaços de detectar atacs existents i de zero dies, encara no s'implementa universalment en la indústria i les aplicacions reals, ja que els sistemes actuals produeixen alts índexs de falsos positius (FPR) i baixos índexs de detecció (DR). En conseqüència, la detecció d'anomalies segueix sent infrautilitzada en l'àmbit de la ciberseguretat. No obstant això, la tècnica alternativa, la detecció d'abusos, està limitada pel fet que només aborda les vulnerabilitats conegudes. Per tant, hi ha una necessitat obligatòria de detecció d'anomalia per ser operacional per augmentar la cobertura dels sistemes actuals de detecció d'intrusió (IDS). L'objectiu d'aquesta tesi mestra és aplicar l'aprenentatge automàtic i les tècniques d'aprenentatge profund que permeten la definició de l'espai de normalitat per abordar la detecció de novetats i la classificació primerenca d'activitats malicioses en ICS. La raó que hi ha darrere és que si la infraestructura subjacent de mostres de malware és similar (per exemple, com a resultat de ser controlat pel mateix atacant, o reutilitzar codi d'un altre autor), els seus comportaments o l'ordre en què realitzen certes accions serien similars. Concretament, la solució mira les similituds mostrades en el trànsit de xarxa industrial modelitzat per un conjunt de característiques millorades compost de característiques simples d'alt nivell, extretes de les capçaleres i càrregues útils dels paquets de xarxa. Pel que fa a les tècniques d'aprenentatge automàtic, s'han implementat i provat alguns mètodes tradicionals d'aprenentatge automàtic i xarxes neuronals profundes molt adequades per a conjunts de dades d'alta dimensió. Després de diversos rastres, la solució final combina una tècnica de detecció d'anomalia no supervisada anomenada AutoEncoder (per a la detecció d'atacs desconeguts) amb Random Forest, un aprenentatge automàtic supervisat que suporta la detecció d'atacs coneguts, així com reduir la falsa taxa positiva. Aquest nou conducte d'aprenentatge automàtic detecta amb èxit atacs de zero dies i específics, ja que aconsegueix una precisió de 0,998425, recordant de 0,9607375 i f1- puntuació de 0,9733375, mentre que redueix a un valor insignificant la falsa taxa positiva. Les avaluacions de rendiment d'aquest enfocament s'han dut a terme utilitzant el conjunt de dades de referència anomenat CICIDS2017. Aquest conjunt de dades va ser creat per l'Institut Canadenc de Ciberseguretat (CIC) i la Universitat de Nova Brunsvic (UNB). Aquest conjunt de dades s'adapta a una varietat d'atacs multi-escenaris actualitzats i estratègies d'intrusos en comportaments normals moderns.
Subject: Enginyeria informàtica
Entity: Universitat Rovira i Virgili (URV)
Language: en
Education area(s): Enginyeria de la Seguretat Informàtica i Intel·ligència Artificial
Title in original language: Novelty detection and early classification of malicious activities on industrial control systems
Creation date in repository: 2022-05-17