学术咨询

让论文发表更省时、省事、省心

基于宽度学习的智能电网数据服务器流量异常检测算法

时间:2019年10月28日 分类:电子论文 次数:

摘要:电力系统的信息网络是电力行业长久持续有效运行下的重要组成部分,而智能电网中电力网与信息网耦合下的复杂网络结构给信息通讯网络安全中的流量异常检测带来了巨大的挑战。传统机器学习算法与新兴的深度学习算法在解决流量异常检测问题领域往往存在着检

  摘要:电力系统的信息网络是电力行业长久持续有效运行下的重要组成部分,而智能电网中电力网与信息网耦合下的复杂网络结构给信息通讯网络安全中的流量异常检测带来了巨大的挑战。传统机器学习算法与新兴的深度学习算法在解决流量异常检测问题领域往往存在着检测准确度低、实时性差等缺陷,而结合宽度学习与质量管理图的流量异常检测流程则有着训练速度快、准确性高、实时性强的优势,在一定程度上可以满足智能电网服务器流量异常检测需求,从而达到提升电网信息安全的目的。

  关键词:宽度学习;流量异常检测;人工神经网络;正常行为模型;质量管理图;智能电网

电网技术

  0引言

  智能电网是通过互联网及物联网技术实现电能在生产、输送、分配和使用等各个环节的数字化与信息化,其在很大程度上将发展成一类由信息网和电力网构成的相互依存网络,成为“经济高效、灵活互动、友好开放、清洁环保”的新一代电力系统[1-4]。作为智能电网的核心命脉,通讯网络在极大地提升了电力自动化水平、提高社会生产效率、改善用户体验的同时,也给电力系统的安全带来了诸多隐患[5-6]。

  电力网与信息网本身都属于规模庞大的复杂网络,其单一网络本身内部稳定运行的安全风险已十分复杂;而对于两者耦合在一起所形成的智能电网这一复合网络而言,其安全风险在某些极端情况下会远远大于单一的复杂网络[7]。由于在信息层面,节点之间在完整的通信过程中实际上是处于开放或半开放的环境中,一旦信息系统遭到外界的干扰或主动攻击,在很大程度上会对电网系统的性能产生严重的影响[8]。

  对网络整体流量相关状态的实时监测是实时、准确、有效评估智能电网信息安全性的一种最为行之有效的手段,但由于电力网络本身的复杂网络特性,瞬息万变的工作状态使得对网络流量异常情况的辨识难度骤增,进一步给智能电网场景下的信息安全问题提出了更为严峻的挑战。有关学者也在近几年对网络异常检测进行了相关研究。

  文献[9]基于无阈值等先验知识的研究思路直接对数据流量进行聚类,通过对比聚类结果欧氏空间中的距离信息来实现流量信息的异常检测,并通过结合随机森林算法的方式来提升异常检测结果的准确性;文献[10]主要结合多尺度下的主成分分析(PrincipleComponentAnalysis,PCA)与小波分析(WaveletAnalysis,WA)等算法的相关优势,通过对网络流量矩阵数据集的相关优化与降维分析的手段实现分布式拒绝服务(DistributedDenialofService,DDoS)攻击注入产生网络流量异常的分析与检测。

  文献[11]采用有监督的k-近邻(kNearestNeighbor,kNN)算法与无监督的k-均值算法相融合的方式将离线训练与在线应用相结合,在保证流量异常检测结果准确性的前提下克服了有监督学习中kNN算法的效率低下问题;文献[12]则考虑了不同特征属性对流量异常检验的影响,通过改进的朴素贝叶斯算法来提高检测的准确性;文献[13]采用循环神经网络(RecurrentNeuralNetwork,RNN)算法实现异常流量的检测与异常类型的分类研究,并取得了十分准确的检测效果。

  对于智能电网复合型网络结构而言,无监督学习由于并未考虑信息网络内部以及电力-信息耦合关系等先验知识,无论从分析流程还是检测结果上均具有较高的主观性,准确性程度相比于有监督学习而言较低;而传统有监督学习算法的迭代速度较慢,且极易陷入局部最优收敛,难以满足信息安全领域的实时性、最优性等需求。

  针对以上研究中存在的相关问题,本文提出一种基于宽度学习神经网络的智能电网数据服务器流量的异常检测流程,该方法通过对网络流量相关正常数据进行训练的方式构建智能电网数据服务器流量在正常工作情况下的正常行为模型,实现利用其他流量相关数据对当前服务器流量的估计,进一步通过质量管理图对实际测量值与估计值进行对比,从而实现智能电网数据服务器流量异常的检测。

  该异常检测流程中的宽度学习算法相比于传统无监督学习算法而言具有更高的异常检测准确度,相比于深度学习流量异常检测算法具有训练速度快、实时性高的实际应用优势[14-15];质量管理图相关技术相比于传统固定阈值判定算法而言具有更强的普适性,对多种类流量异常均具有一定的检测能力。

  1基于宽度学习的智能电网信息网络流量正常行为模型

  1.1智能电网数据服务器网络流量相关数据

  就现在而言,我国大多数智能电网数据服务器仍采用TCP协议作为数据交互的主流协议。为不失一般性,本文针对的智能电网数据服务器网络流量相关数据采用TCP的相关数据属性来进行研究。在本文中使用的TCP数据集来源于某电网公司的某台数据服务器相关日志文件。

  在实际研究过程中,服务器数据的异常问题主要体现在流量变量上:上行流量异常主要表现为上行流量数据的不正常变化,具体现象包括遭受主动拥塞攻击、网络异常问题等;而下行流量异常主要表现为下行流量的激增,具体现象包括网络拓扑结构突变、服务器业务计划外变更等。本文的数据集中具体包括的异常主要体现在人为的主动拥塞攻击方面,因此对网络流量正常行为模型构建的目标属性变量为上行流量,而其他的13个属性变量则作为已知量用于估计当前上行流量使用。

  1.2宽度学习系统相关理论基础

  1.2.1流量异常检测问题抽象描述

  在完成异常流量的识别之前,基于正常行为模型的相关研究理念,需要基于其他有效信息首先对待分析目标变量实现同时刻下的估计,即构建同一时刻t下的其他变量与目标变量之间的关系模型。

  2基于正常行为模型残差与质量管理

  图的网络流量异常检测由于训练过程中采用服务器在正常运行情况下的相关变量及上行流量数据信息,因此在训练得到的上行流量正常行为模型中,通过模型计算获得的上行流量估计值与上行流量在当前时刻的实际测量值之间的偏差应仅包括随机误差与装置测量过程中的偶然误差[14]。在本文中,利用宽度学习系统来实现对上行流量正常行为模型的构建。

  采用的相关数据均为人工标定下服务器处于正常运行状态的数据作为训练集,因此可以通过分析真实值与估计值之间残差的方式来判断服务器上行流量数据是否处于异常状态,但由于对残差数值的可能范围无法确定,仅凭直接设计单一阈值的方式可能会导致很多误检测出现,因此很难应用在复杂多变的网络流量数据上。

  质量管理图作为实现对监控生产过程中出现的异常问题进行消除的主要手段,在当今各大生产行业的异常检测中都得到了广泛的应用,其概念的发展也愈发成熟,并逐渐在生产行业以外的领域大放异彩[16-19]。作为应对生产流程中待观测参数的小漂移检测手段的进一步改进,本文选取指数加权滑动平均(ExponentiallyWeightedMovingAverage,EWMA)质量管理图作为上行流量信息异常检测的手段。

  通过EWMA可以通过对历史一段时间以内的流量数据进行统计分析,进而确定当前流量处于正常范围的上下界,即上下控制限:若当前流量的实际值超出了以估计值为中心的上下控制限,则认为当前数据表征上行流量的异常状态;反之则认为上行流量处于正常[20]。就EWMA质量管理图的本质而言,该算法实际上是使用一个统计量来分析时间序列中当前数据情况的同时,同样考虑历史数据产生的影响[21]。

  3实验结果及分析

  本文采用的数据集来自某电网公司某服务器的相关日志文件,数据集包括前述14个变量,数据采样间隔为1min,数据跨度约为1个月。基于详细的日志记载与人工分析,该服务器在前3周内均无上行流量异常情况发生,而在第4周的第4天下午出现了由人为拥塞攻击所导致的上行流量异常现象。

  因此在训练过程中将前21天的相关数据作为训练集,并按照8:2的比例进行10折交叉检验数据集划分,进一步采用宽度学习系统进行正常行为模型的训练;将后7天的数据作为测试集,验证本文提出的模型能否实现服务器上行流量的异常检测。本文验证使用的平台配置为:Inteli7-7700kCPU、16GB内存以及Windows10-64bit操作系统,软件环境为MatlabR2017b64-bit。

  基于宽度学习系统对上行流量的训练集进行正常行为模型训练。本文通过与传统的无监督异常检测算法PCA结合HotellingT2检测控制图进行对比分析的方式对宽度学习算法在流量异常检测应用场景下的效果进行验证[23]:记原数据为x=[XY],首先将原始训练集数据利用PCA算法进行降维,提取其中占比95%以上贡献度的前n个主成份,并将其对应特征向量组成重构矩阵V。进一步利用重构矩阵V将原数据还原重构,记重构后的数据为x^;最终对训练集的平方预测误差(SquaredPredictionError,SPE)序列利用HotellingT2检测控制图确定控制限。

  进一步计算训练好的最优宽度学习系统在训练集以及测试集上的残差。利用EWMA对残差数据进行分析,其中2条黑色虚线分别为EWMA确定出上行流量残差合理的上下控制限。对于训练集而言,残差序列值均落在上下控制限以内,可见EWMA判断当前上行流量处于正常运行范围内;而对于测试集而言,在第37651个数据前后处出现了残差超出控制限的情况。

  表明EWMA判断对应时刻的上行流量存在异常,而这一结果与日志记录中拥塞攻击发生的时间(第37647个数据前后)相一致,因此本文提出的算法准确地实现了对于智能电网数据服务器上行流量异常状况的检测。可以看出算法在第34223、36128、38549和38862处分别检测出了异常,与真实拥塞攻击的发生时间偏差较大,且对应误报情况较为严重,不能很好地实现对网络流量异常的检测。

  4结束语

  本文针对智能电网数据服务器流量存在异常的现状以及传统异常检测算法与深度学习算法存在的弊端,提出了一种基于宽度学习的智能电网数据服务器流量异常检测算法,并基于服务器的上行流量及其他相关变量正常工况下的数据,通过宽度学习系统训练得到对应最优的服务器网络流量正常行为模型,并进一步结合EWMA质量管理图对实际运行时上行流量的估计值与真实测量值之间残差时间序列进行统计分析,绘制出对应的上下控制限,最终成功地实现了对某电网公司某数据服务器下的数据集中由拥塞攻击导致的上行流量异常的准确检测,能较好地完成对智能电网场景下信息的安全保障。

  参考文献:

  [1]FANB,WANGC,YANGQM,etal.Performanceguaranteedcontrolofflywheelenergystoragesystemforpulsedpowerloadaccommodation[J].IEEETransactionsonPowerSystems,2018,33(4):3994-4004.

  [2]YANGQM,JAGANNATHANS,SUNYX.RobustintegralofneuralnetworkanderrorsigncontrolofMIMOnonlinearsystems[J].IEEETransactionsonNeuralNetworksandLearningSystems,2015,26(12):3278-3286.

  [3]郭创新,陆海波,俞斌,等.电力二次系统安全风险评估研究综述[J].电网技术,2013,37(1):112-118.

  智能电网论文投稿期刊:电网技术创刊于1957年1月,被《物理学、电技术、计算机及控制信息数据库》收录.经过50年的发展目前已成为系统内技术门类最广泛的资深学术技术期刊。