时间:2022年03月07日 分类:推荐论文 次数:
摘要:针对现有的故障诊断方法在处理高维度且动态特征明显的化工生产过程中观测的数据时,存在无法识别长时间依赖关系、精确度不够的问题,本文对长短时记忆模型进行改进,提出了一种基于深度学习与attention机制的分类模型,以田纳西-伊斯曼仿真平台的仿真数据作为研究对象,通过小波阈值去噪法对数据进行预处理,再对模型分类效果进行验证,比较了本文模型与改进前的模型,最后通过t-sne算法绘制样本数据及在模型各层输出特征向量在二维空间的分布图。实验结果表明,改进后的深度学习模型,对故障分类时能达到92.71%的召回率与93.05%的准确率,相对改进前的模型分别提高了16.84%与13.66%,对数据特征的学习效果更好,更适用于化工数据。
关键词:深度学习;attention机制;故障诊断
0引言
随着化工工业的迅速发展,化工生产的规模越来越庞大,大规模的生产使得企业的效益成倍提升[1],但复杂的生产过程也使得出现生产故障的可能性变的更高。因此实时监控过程数据,及时发现异常情s0引言随着化工工业的迅速发展,化工生产的规模越来越庞大,大规模的生产使得企业的效益成倍提升[1],但复杂的生产过程也使得出现生产故障的可能性变的更高。
因此实时监控过程数据,及时发现异常情况并且判断出故障类型很重要。化工生产过程监控的数据具有动态、高维度的特性,可测的过程变量和故障之间的关系复杂[2]。最初数据驱动的分类方法以统计学和机器学习为主[3,4],如文献[5]结合了支持向量机与PCA的方法用于TE过程数据的故障分类;文献[6]提出了一种基于核主元分析与关联向量机(RVM)相结合的故障诊断算法(KPCA-RVM)。近年来计算机的性能得到提升,在处理大数据时深度学习的优势逐渐展现。深度学习中能够通过算法本身提取特征值,在应用于难以人工提取特征的复杂数据时具有优势。
文献[7]通过结合数据增强与深度卷积网络(CNN)的方法对TE过程仿真数据进行了研究,得到了不错的结果。但是CNN由于结构的局限性,只能对数据的静态特征进行训练,忽略了序列数据间在时间上长期的依赖关系。循环神经网络相比传统方法增加了循环结构解决了长时间依赖关系,在此基础上文献[8]采用了长短时记忆网络(LongShortTermMemory,LSTM),增加了记忆单元来选择性的记忆过去的信息,缓解了循环结构在处理长序列问题的不足,因此近年来成为了工业故障诊断的热门,如文献[9]提出了一种基于长短期记忆(LSTM)的方法直接对原始过程数据进行分类,实验结果在精确度上较于RNN有所提高。
虽然LSTM在处理长序列数据时具有结构上的优势,但在面对高维度的数据时,仍然存在不足。高维数据各变量对于故障的判断而言存在相关度的差异,模型能够关注更重要的变量时,分类的精度必然更高。为了使算法具有识别变量相关性程度的能力,一些学者采用了数据统计的方法对数据降维,去掉了不相关的变量。如文献[10]提出了一种基于组合核函数KPCA与改进ELM的故障诊断方法,但是这种方法在降维的同时会丢失很多局部信息,影响诊断结果。
Attention机制的提出提供了一种在不丢失数据的前提下量化各特征权重的方法,文献[11]结合了卷积网络与attention机制,在图片分类的任务中提高了对人脸微小运动的识别能力,这是因为注意力机制增加关键特征的权重后,能够使模型忽略干扰信息,识别样本间的微小差异。在本文的研究中将改进LSTM模型,并将其与attention机制结合,使得模型在兼具对数据的局部感知能力与对动态特征识别能力的前提下,能够识别故障数据间微小的差异,提高模型对高维度序列数据的识别精度。
1TenesseeEastman化工过程
1.1TE过程仿真原理
在实际中化工数据大多是不能向外公开的,得到真实的采样数据对于研究者来说是一件困难的事情,而化工生产的研究又非常必要,为了研究人员能够较容易的获得实验数据,美国Eastman化学公司开发了TennesseeEastman(TE)仿真平台[12],是根据伊斯曼化学公司的实际工艺做少许修改后得到的。
1.2数据预处理
本文将数据集分为训练集以及测试集两部分,其中数据集由TE仿真平台48h运行下获得,观测数据总数为960,每个样本由52个过程变量组成,其中故障在8h时引入,前160个观察值为正常数据,中间600个值作为训练集,后200个值作为测试集。本文将训练模型对其中的6种故障进行识别,用以验证训练的效率与分类的精度。由于化工过程生产环境合操作复杂等因素[13],监测的数据会受到各种噪声的影响,这些噪声会影响对过程数据的分析和数据特征学习。本文将采用小波降噪算法对TE过程数据降噪[14]。
2CNN-LSTM-Attention模型
2.1模型的优点
为了应对化工过程数据动态高维度的特点,本文采用CNN-LSTM的深度学习结构[15,16],结合了attention机制的特点[17],增加了相关性强变量的权重,使得在训练模型时能够更加关注与对故障分类更有决定性的变量,从而提高训练的效率。对相关性较弱的变量通过降低权重的方式防止了数据的丢失,保证了分类的精度。
1)采用循环神经网络作为框架的核心部分,能有效的关注到数据中的动态特征;2)LSTM由于结构的特点感受野会受到限制,通过与CNN的结合能够提高整个深度学习框架的感受野,使得每次训练接受的输入信息更加全面,从而提升深度学习的训练效率;3)在模型的输出层前增加了Attention结构,使得模型在训练的过程中能够更关注相关性高的特征。
2.2模型的组成
本文模型由卷积层、最大池化层、循环层、全连接层、以及softmax和输出层组成,在全连接层与softmax层之间加入attention机制,用来筛选最重要的特征值,模型输出的结果与真实结果进行对比。
1)一维卷积层数据集数据有较长的时间维度,直接传入LSTM网络会面临梯度爆炸的问题,通过卷积层初步提取特征再传入循环层的方式可以有效的减少循环层训练的参数,并且提高训练的效率。在一维卷积网络中,卷积层会在感受野中逐层提取输入序列数据的特征,通过迭代选择出最有效的高级特征。
可见,较高层中的神经元通过上一层的部分神经元加权传递信息,这部分神经元就是高层神经元的感受野,通过多层的传递后,输出层神经元的感受野足够大,包含了整体数据的信息,从而做到了权值共享,减小了模型的复杂度,便于网络的训练。
2)循环层数据集具有动态特征,循环神经网络可以有效的提取此类特征,通过对卷积层提取特征进行训练,可以得到包含时序信息的更有效的特征值。主要由三个部分组成,分别是输入门、遗忘门、输出门以及神经单元。
3仿真实验及结果分析
本文将在模型训练时的学习效率、模型的泛化性两个方面对提出深度学习模型的性能进行分析。通过与LSTM模型进行比较,从对故障分类的精度以及模型训练的效率,验证本文提出方法的效果。训练效率由在训练集中损失函数的迭代速度来体现,模型的泛化性由对测试集数据的分类精度来验证。
4结论
循环神经网络在处理时间序列数据时具有优势,通过循环结构可以关注到序列数据的长期依赖关系,其变体在解决梯度爆炸等问题后更是推动了该类深度学习算法在工业生产过程中的应用。本文为了提高模型的训练效率与泛化性,采用了将深度学习与注意力机制相结合的CNN-LSTM-Attention深度学习算法,在仿真数据集中表现出了高效的训练过程以及准确的测试结果,这体现出了本文算法的在处理动态高维度数据时的优势。现实生产中故障数据的数量远小于正常数据的数量,这会给模型识别故障数据带来问题,如何处理数据的不平衡性是深度学习分类模型的又一挑战方向。
参考文献
[1]刘强,秦泗钊.过程工业大数据建模研究展望[J].自动化学报,2016,42(2):3-13.
[2]文成林,吕菲亚,包哲静,等.基于数据驱动的微小故障诊断方法综述[J].自动化学报,2016,42(9):1285-1299.
[3]文成林,吕菲亚.基于深度学习的故障诊断方法综述[J].电子与信息学报,2020,42(1):234-248
[4]孟晨,杨华晖,王成,等.数据驱动的武器系统电子元部件级故障诊断研究综述[J].系统工程与电子技术,2021,43(2):574-583.
[5]CHENJ,XING,ZHUX,etal.FaultclassificationonTennesseeEastmanprocess:PCAandSVM[C].InternationalConferenceonMechatronics&Control.Jinzhou:IEEE,2015.2194-2197
作者:唐颖川1黄姣茹1钱富才1,2