学术咨询

让论文发表更省时、省事、省心

基于特征选择的工业互联网入侵检测分类方法

时间:2022年02月11日 分类:科学技术论文 次数:

摘要由于工业互联网接入设备的多样性和差异性,使其维护困难,易受攻击,针对该安全问题需要引入相关的防御系统来识别各种入侵攻击.传统的入侵检测系统能够检测到的攻击类型较少,且网络流量数据由于存在冗余导致无关特征使得分类性能较差.因此,提出一种基于特征选择的工业

  摘要由于工业互联网接入设备的多样性和差异性,使其维护困难,易受攻击,针对该安全问题需要引入相关的防御系统来识别各种入侵攻击.传统的入侵检测系统能够检测到的攻击类型较少,且网络流量数据由于存在冗余导致无关特征使得分类性能较差.因此,提出一种基于特征选择的工业互联网入侵检测分类方法.该方法首先对数据集进行预处理,并通过计算特征的皮尔逊相关系数来判断特征的强弱关系,确定最优的阈值进行特征提取;之后从机器学习和深度学习2个角度,利用逻辑回归、支持向量机、K近邻、决策树、随机森林,多层感知机、卷积神经网络和时空网络8种模型分别进行二分类和多分类实验,并作评估.实验结果表明,随机森林的二分类效果最佳,决策树的多分类效果最佳.最后在真实工业互联网实践中验证了所提方法的有效性.

  关键词工业互联网;入侵检测;皮尔逊相关系数;机器学习;深度学习

工业互联网知识

  互联网行业的发展,使得“工业互联网”这个名词也开始走进了大众的生活,给电子装备、钢铁、采矿、电力等工业制造业带来了便捷.所谓的工业互联网就是把工业制造与互联网融合起来,将工业系统中的设备、车间、工厂、员工与客户等利用互联网这个平台作为枢纽连接起来的网络,从而推动工业的智能化,实现行业间的互通、资源间的共享.然而,由于各种移动终端、工厂车间的接入,使得工业互联网群体日益强大,安全问题愈加突出.

  研究发现,2020年上半年,通过国家工业互联网的安全态势感知平台,检测到了各种恶意攻击1356.3万次,其中流量异常、非法外联、僵尸网络占恶意攻击总数的80%以上[1].随着工业互联网的发展与应用,其遭受的恶意攻击与日俱增,给工业互联网带来各种安全隐患,更严重的可能会导致工厂车间的瘫痪,生态系统失衡[2].

  针对工业互联网的安全现状,网络入侵检测系统(intrusiondetectionsystem,IDS)可以有效地识别网络中的攻击行为,实时监测网络状况,一旦发现入侵就会立即、主动地做出响应.入侵检测系统的关键在于对攻击行为的识别,传统的入侵检测系统从最初的利用审计信息来追踪用户的可疑行为,到提出了第一个实时的入侵检测专家系统模型[3],再到利用状态转换分析来进行完善,对攻击的识别始终是网络安全领域的热点问题.然而,随着工业互联网环境的日益复杂,传统入侵检测系统的问题便突显了出来,如较多地占用网络资源,网络流量分析能力不足,对各种攻击的监测能力较差[4],误报率较高,等.

  随着机器学习和深度学习模型的普及,大量学者开始将机器学习和深度学习模型运用到工业互联网的入侵检测系统中[5G10],有效地缓解了传统入侵检测系统的瓶颈问题.在传统入侵检测系统中引入机器学习和深度学习,就可以把入侵检测问题简化为识别与分类问题来处理,智能化地实现网络安全维护.研究表明,机器学习和深度学习模型能够有效地识别正常与异常行为.但是,针对异常攻击中的具体攻击类别如DOS,Generic,Exploits等,研究成果较少.

  为了实现具体攻击类别的识别,帮助入侵检测系统快速、准确地做出响应,还需要对工业互联网网络流量数据进行特征选择,以此减小冗余特征对分类效果的影响.常见的特征选择方法有相关系数法、卡方检验、信息增益[11]、递归特征消除[12]等,通过这些方法,能够减少特征的数量和降低数据维度.其中相关系数法最为简单高效,通过计算皮尔逊相关系数,能够快速准确地判断特征之间的相关性,避免不相关特征未被筛选或相关特征过度筛选的情况,提高模型精度.因此,为了去除无关特征并更好地提高分类性能,本文提出了一种基于皮尔逊特征选择的入侵检测分类方法,主要贡献包含3点:

  1)对原始数据集进行分析,利用独热编码、归一化等进行预处理,利用皮尔逊相关系数进行特征选择,提高模型识别的准确率.2)从机器学习和深度学习2个角度,通过8种模型对入侵检测攻击进行分类评估和比较分析,确定了性能最佳的二分类和多分类模型.3)在公共数据集和工业互联网真实流量数据集上,验证了本文评估方法对入侵检测二分类和多分类的有效性.

  1相关工作

  工业互联网网络流量数据复杂多变,特征冗余度高,使得其产生的安全问题难以被发现.目前用于验证入侵检测方法的经典数据集主要有KDD99,NSLGKDD99等,但是这些传统的数据集数据陈旧、更新缓慢,只能识别Normal,DOS,R2L,U2L和Probe这5种攻击类型,对于现在网络中出现的其他攻击无法实现精准识别.

  Kilincer等人[13]详细介绍了网络入侵检测系统中常用的6种数据集,并对其进行对比分析,表明了UNSWGNB15数据集更适用于现在的各种研究;Almomani等人[14]基于UNSWGNB15数据集,利用机器学习中的逻辑回归、贝叶斯、决策树、随机森林等分类器进行了二分类的实验,实验结果显示随机森林的分类效果最好,准确率为87%;Zhang等人[15]基于UNSWGNB15和MSU数据集,采用MRMR算法和支持向量机方法对特征进行选择,实验结果表明有的特征之间具有强耦合性,而有的特征冗余.

  Kumar等人[16G17]基于UNSWGNB15数据集提出了一种新型统一的入侵检测算法,通过计算信息增益进行特征选择,其结果仅识别了4~5种攻击类型,成功识别的种类较少;Agarwal等人[18]利用朴素贝叶斯、支持向量机、K近邻3种机器学习模型进行了分类,其中支持向量机的准确率最高,达到97.77%.

  上述大多研究中,没有充分利用各种机器学习和深度学习模型分别进行二分类和多分类实验.其中涉及特征选择的研究,虽然有效地识别出了网络流量中的异常行为,但是识别出的具体攻击类型最多为5种.本文通过计算皮尔逊相关系数,选择合适的特征,分别结合机器学习和深度学习模型进行二分类和多分类实验,对工业互联网入侵检测情况进行详细的分析.

  2方法设计

  本节首先给出了基于特征选择的入侵检测分类方法的整体框架;其次,对特征选择和分类模型分别进行具体讲述.

  2.1研究框架

  本文的结构框架分为工业互联网流量数据预处理、特征选择、训练并验证模型、评估分析、特征分析5个部分.1)数据预处理.从不同维度分析UNSWGNB15数据集的数据特征,对数据进行统一的清理与归一化,并根据特征属性的类型,将其转化成模型可识别的数据.

  2)特征选择.对原始数据集进行预处理后,计算特征的皮尔逊相关系数,判断每种特征相关程度强弱,通过实验选择最优阈值,实现特征选择.3)训练并验证模型.利用支持向量机、逻辑回归、K近邻、决策树、随机森林等传统机器学习模型和多层感知机、卷积神经网络、时空网络等深度学习模型进行训练和验证.

  4)评估分析.对工业互联网网络流量分别进行二分类和多分类研究,二分类指的是能够识别正常行为与攻击行为,多分类能够识别出具体的攻击类型,根据准确率等评价参数,确定哪种模型二分类效果最佳,哪种模型多分类效果最佳.5)特征分析.根据分类结果,分析不同特征和特征相关性对分类结果的影响.

  2.2预处理

  工业互联网需要收集来自各种工业场景的数据并形成数据集,但收集的过程会因为设备、网络、人工等因素导致一些数据出现错误或偏差,也会因为一些数据的属性特点,无法对这些数据进一步分析处理.因此,在得到原始数据之后,首先要对其进行预处理,以此来降低后续实验的难度,提升实验效果.工业互联网流量数据的特征属性主要分为连续型和离散型,本文针对离散型特征,利用独热编码实现特征的映射;针对连续型特征,利用归一化将连续型特征数据缩放至[0,1]区间.

  2.3特征选择

  入侵检测数据中大多包含一些冗余无关的数据特征,需要进行特征的提取,挑选出满足实验要求的特征.常见的特征选择方法有过滤法、包装法和嵌入法.过滤法是通过对每种属性相关性的评价,设置阈值来进行特征的筛选;包装法在过滤法的基础上,实现了多种特征之间交互关系的检测,并结合机器学习算法来对子集进行评估;嵌入法结合了过滤法和包装法的优点,实现了特征选择和算法训练的并行操作.特征选择过程中,根据网络流量的特征,需要用评价函数来衡量特征子集的性能,常见的评价函数有距离度量、信息度量和依赖性度量等.

  距离度量通过计算样本之间的距离来实现对样本的分类,距离越小,越可能属于同一种类别;信息度量通过计算信息增益、信息熵等,将特征信息量化,计算所得值越大,越说明了分类器的性能较优;依赖性度量用来评价特征之间或类别与特征间的相关性,与类别相关性大的特征被认为是好的特征.前2种评价方式无法判断特征对分类结果的影响,也忽略了网络流量特征之间的关联性对分类结果的影响情况,鉴于网络流量特征数据的复杂性和异构性,前2种评价方式较少用于评估生成特征子集的好坏.依赖性度量的评价方法能够很好地实现网络流量特征对类别影响的评估.依赖性度量中的皮尔逊相关系数具有易于理解、简洁高效且计算复杂度较低等优点。

  2.4分类模型

  工业互联网入侵检测系统利用机器学习和深度学习中的各种模型对流量数据进行二分类和多分类,识别出攻击类型并正确分类.机器学习模型中,逻辑回归经常被用于解决二分类问题,也可用来解决多分类问题,通过Logistics函数来归一化预测值;支持向量机通过超平面来对数据进行分类,在训练数据的同时学习攻击模型进而实现分类,主要适用于线性分类且特征量大的数据集[18];K近邻是分类模型中最简单的分类器之一,通过判断与未知样本最近的K个样本的类别,将其分类为K个样本点中大多数样本所属类别;在决策树中,通过样本的特征值进行分类,树的节点代表数据集的特征,分支表示划分的决策规则[20];随机森林是基于多个决策树来构建的,以此可以有效预防过拟合问题,通过对每一棵树进行预测,最终获得最优解,大多用于多分类问题。

  3实验与结果

  3.1实验环境

  本文所有的实验均在Windows10PC,Intel

  3.2数据集

  本文选取了UNSWGNB15数据集进行实验,数据集基于IXIAPerfectStorm创建,并最终以CSV文件的形式生成.数据集中包含49种特征,根据这些特征的数据类型,将其划分成5种:Object,Integer,Float,Timestamp,Binary,如表2所示.经过对这些特征的分析,最终可以识别攻击的类别(正常或攻击).根据各种攻击的性质特点,将攻击类型进一步划分成9种类别,包含Analysis,Backdoor,DoS,Exploits,Fuzzers,Generic,Shellcode,Reconnaissance,Worms,是目前攻击种类较全的数据集.

  3.3预处理

  3.3.1数据清理

  对工业互联网流量数据集‘service’列的值进行转化.该列代表使用的通信服务类型,常见的通信服务包括HTTP,FTP,SMTP,SSH,DNS,FTPGdata,IRC协议,但数据集中有的结果是“-”,代表了不常用的协议,模型无法识别,导致结果产生错误.

  因此,将“-”用“None”来代替,便于模型的识别,同时也不会对结果造成较大的影响.数据集中某些属性列的取值错误将对分类结果产生影响,需对其进行筛选.‘ct_flw_http_mthd’列和‘is_ftp_login’列的结果属于Binary列,其结果非0即1.以‘is_ftp_login’列为例,该属性的含义是:FTP会话是否被用户和密码访问,如果是,结果为0,反之即为1.根据左侧‘is_ftp_login’属性列的数据分布情况可知,该属性共有4个取值[0,1,4,2],违背了“非0即1”的原则,说明2和4属于错误值,将包含错误值的数据应用于分类中,会对结果产生较大影响,因此,要对这些数据进行处理.正常处理方法是进行替代,将该列所有取值为2或4的数据,都用1进行替代.

  3.3.2特征映射

  UNSWGNB15数据集中,属于“object”类型的特征都是string字符串,模型无法识别.因此利用独热编码(OneGHot)实现特征映射.如‘proto’列代表了传输协议,其取值包含TCP,UDP这2种,则映射的编码为01和10,‘state’列的取值有5种,分别是CON,FIN,INT,REQ和RST,则映射的特征编码分别为10000,01000,00100,00010,00001.

  3.4特征选择

  特征的选择,直接影响了分类的结果,因此特征选择是入侵检测的关键.通过计算每种属性的皮尔逊相关系数,可以达到选择特征的目的,但是往往去掉或留下哪些特征难以确定.本文根据特征相关程度强弱对应表,直接摒弃了无相关程度和相关程度极弱的特征,之后在弱相关强度阈值0.2~0.4范围内,进行分类实验.经过实验分析,表4列出了在随机森林模型下,不同皮尔逊系数对应的二分类实验结果,经对比可以看出,皮尔逊系数的值为0.3时,实验效果最佳.因此,二分类实验下,以皮尔逊系数等于0.3作为阈值,进行特征选择.

  3.5二分类

  从不同的机器学习和深度学习模型入手,对工业互联网流量数据中的正常和异常行为进行检测和分类.

  4讨论

  在工业互联网中,不同的应用场景下会产生不同的网络流量数据,流量数据特征的选择直接影响工业互联网入侵检测分类的结果.本文通过计算皮尔逊相关系数,选择出了与分类结果显著相关的特征,达到了提高模型精度的效果.但是该方法未考虑特征之间的相互作用对分类效果的影响,主要度量特征之间的线性关系,未来工作将对特征间非线性关系的度量效果进行分析研究[29],针对不同的攻击类别,判断哪些特征对此类攻击的影响程度较大.此外,将入侵检测系统智能化,使其自动识别环境变化并做出响应;优化网络流量攻击的多分类算法,提高每种攻击的识别率;运用可视化技术,更直观、生动、立体地展现检测结果.

  5结论

  本文提出了基于特征选择的工业互联网入侵检测分类方法.首先,通过数据预处理,筛选异常或错误数据;在此基础上,通过计算特征的皮尔逊相关系数,判断特征的相关程度强弱,通过实验找到合适的阈值,并根据阈值进行特征选择;然后使用5种机器学习模型———支持向量机、逻辑回归、K近邻、决策树和随机森林,3种深度学习模型———多层感知机、前馈神经网络和卷积神经网络,进行二分类和多分类的实验.在二分类实验中,随机森林的准确率为99.19%,二分类效果最好;在多分类实验中,决策树的准确率为97.07%,多分类效果最好.最后,分析了工业互联网流量数据集中特征对分类结果的影响,并在真实工业互联网的实践中,验证了本文提出方法的有效性.

  参考文献

  [1]中国信通院.2020年上半年工业互联网安全态势报告[EB∕OL].[2022G01G20].

  [2]WangZhendong,ZhangLin,LiDahai.AsurveyofintrusiondetectionsystemforInternetofthingsbasedonmachinelearning[J].ComputerEngineeringandApplications,2021,57(4):1827(inChinese)(王振东,张林,李大海.基于机器学习的物联网入侵检测系统综述[J].计算机工程与应用,2021,57(4):1827)

  [3]DenningD,NeumannPG.RequirementsandModelforIDES—ARealGTimeIntrusionGDetectionExpertSystem[M].MenloPark:SRIInternational,1985

  [4]ZhuKun,ZhangQi.Applicationofmachinelearninginnetworkintrusiondetection[J].DataAcquisitionandProcessing,2017,32(3):479488(inChinese)(朱琨,张琪.机器学习在网络入侵检测中的应用[J].数据采集与处理,2017,32(3):479488)

  [5]KumarP,GuptaGP,TripathiR.Adistributedensembledesignbasedintrusiondetectionsystemusingfogcomputingtoprotecttheinternetofthingsnetworks[J].JournalofAmbientIntelligenceandHumanizedComputing,2020:118

  作者:任家东张亚飞张炳李尚洋