时间:2020年01月18日 分类:电子论文 次数:
摘要:基于电力大数据体系信息的爆炸式增长,挖掘其深度价值,本文在结构化表达和特征提取与分析等方面提出文本分析新方法。针对电力运维领域文本特征设计基于拼音统计的中文词向量生成模型;采用卷积神经网络和条件随机场组合模型对中文词分类;通过结构化语义槽填充,以词频和词向量特征在事故多因素类内和类间进行统计分析和事件关联。模型语义理解准确率达到51.93%,中文实体词识别F1分数达到72.52,均取得了解析能力更强、精度更高的结果。最后对电力运维日志语料进行实例测试,验证了本方法的性能优势。
关键词:文本挖掘;中文词向量;命名实体识别;结构化处理;语义相似度
随着互联网信息化数据爆炸式的增长,基础性公用事业企业也将面临向管理智能化的模式升级。电网内部每天产生的大量的日志信息蕴含了巨大的潜在价值,面对庞大且冗杂的企业级文本数据资产[1-2],通过对文本特征提取、统计聚类和关联等进行信息处理,通过数据分析并高效获取相关设备网点运营状况,发现潜在的危险和隐患。在第一时间能够对异常事件做出响应,是提升运维管理水平的关键。基于结构化表达的电力运检文本分析方法作为一种新的事故预控分析模型,从特征采集、数据结构化表达、统计分析等模块,解决了领域内诸多问题。
主要包括:1)海量杂乱的非结构文本难以直接挖掘有效信息,良好的词向量[3]生成模型是对中文文本数字化应用的头部环节;2)专业领域文本年数据存在大量专业化短语,需要依靠人工筛选本体字典,良好的特征提取和分类模型是文本分析的关键;3)电力运维记录事故发生是多因素影响,同步挖掘单因素特性和多因素关联进行综合判断才能深入分析。虽然基于结构化表达的文本分析方法仍依赖人工特征和领域知识,但其技术方案是一个非常重要和关键的研究问题。
1中文文本分析
1.1词向量表达
词表示技术是对文本数据的一种表示能力,在特征工程或机器学习领域,都处于底层预备工作,它的好坏对模型的应用性能将产生很大的影响。这种数据表示方法在一定程度上能够自主无监督的从海量数据中直接挖掘到有用的语义信息。词表示的理论基础是Harris等在1954年提出的分布假说。近年来,词表示方法逐渐区别于传统的one-hot词编码方式,都是通过低维分布式词向量去捕捉文本的语义信息,同时更多关注于基于上下文信息[4-5]来学习词向量的表达和更高细粒度字符级特征表达[6-7]。
对于中文词向量表达,在形态学表达和生成表达方面分别由笔划和拼音字符构成,大部分现有研究均是由拉丁文衍生而用于中文,不能与中文输入习惯完全适应。同时随着中文文本数据源的规范化和结构化程度随着信息数据增长不断退化,错别字等问题的出现成为了亟待解决的任务。
1.2命名实体识别
中文命名实体识别[8-9]是在自然语言文本中识别出具有特定意义的实体词并加以分类,主要类别包括人名、地点、组织名、设备名等。与英文命名实体识别相比,中文存在更多的难点,如:中文句子序列间没有明显的分隔标识;中文实体词的组成更为复杂,存在着多种实体交叠包含的情况等。近年来解决中文命名实体识别的主流方法是基于机器学习和统计,如隐马尔科夫模型(HMM)[10]、支持向量机(SVM)[11]和条件随机场(CRF)[12]等,其性能表现依赖于中文特征的选择。
中文命名实体识别需要对复杂实体词进行拆解,对句子序列进行切分、识别和分类。Lamlpe等人[13]针对任务的不同阶段,提出了双向长短期记忆模型和条件随机场模型。上述方法虽然已经解决了一些应用问题,但仍然依赖大量的人工特征,没有充分利用文本深度语义信息。
此外,中文实体词的片段级复杂结构提取[14]也需深入研究。针对电力运维文本的冗杂表达和海量多类别关键词提取分析的问题,本文采用拼音字符级信息作为特征,以命名实体识别和结构化语义槽模型共同提取关键实体词,并在词频和词向量维度上进行因素统计和语义关联分析。最后通过在采集的运维数据集以及公开数据集上进行定量和应用例实验,验证方法的有效性。
2结构化文本处理方法
2.1词向量生成模型
中文文本在生成表达方面主要由拼音字符构成。针对中文语言结构在数量上包含较少的字符级信息,而细粒度更高的字符级往往在词向量表示中性能优越的特点,构造基于拼音特征统计的词向量模型。对中文词转化拼音表达,以不同长度n(n可取3、4、5...)大小的窗口在一个词语拼音表示上滑动,构成局部拼音表示组Px。
2.2中文实体关键词识别
中文实体采用组合卷积神经网络对文本提取字符级特征并进行实体词提取,条件随机场在全局范围分类。
3实验及结果分析
3.1实验数据与实验设置
测试数据采集了维基百科中文语料库和某电力公司2017年运维检修日志(取60000条)作为通用和专业领域语料。将全部语料用于中文词向量模型的训练,专业领域语料库用于实体词识别和文本分析应用例实验。语料数据采用opencc将转化为简体中文,采用JIEBA进行分词处理,pypinyin提取中文词语的拼音字符级表达。
研究发现词向量维度将对模型性能产生影响,实验中将其设置为200维。对实体词生成向量表示时,取交叠中文词平均向量作为实体词向量。若含有数字表示,将数字与文本表示向量组合构成实体词向量。
3.2评价指标及结果分析
通常词向量性能判别模型采用词间语义相似度和类比推理准确率作为标准,语义相似度反应不同词之间的主观语义理解差异,类比推理能够反映词之间的语义对应关系。引入拼音这种高细粒度字符特征的词向量模型能够有效的获取更多语义信息。此外中文拼音表达形态学上接近拉丁文字的结构,使最小语义单元的字符信息在数量上和结构上包含了更多的语义信息。
CNN-BiLSTM-CRF模型在电力运维语料上进行事故多因素片段级命名实体识别的结果。结合字典在大规模未标注数据的电力运维语料中使用py2vec和基于拼音特征的CNN-BiLSTMCRF的识别分类网络对片段级文本识别达到了72.52%的F1分数,获得了更好的效果,对于文本语义结构化重构将在人工筛选方面起到更多的作用。
3.3实证研究
以某电力公司运维日志语料为例,对文本进行预处理后以py2vec生成词向量,并采用CNNBiLSTM-CRF组合网络提取语料6类实体关键词,分别为:人名、地名、组织名、设备名、因素名和其它。根据词序距离和词性组合成中文实体词。以“故障原因”为例,通过Python词云可分析得到可视化结果。
多类实体词统计分析研究基于词频统计、聚类和多因素关联分析等3个层面,在维度上分析多类因素的单一维度内部和多维度之间的统计和语义关联特性。单因素统计特征通过因素表进行6种因素的词频统计;由于事件发生因素的关联性,多因素类间关联以差异类间词语的共现特征统计词频分布,分别筛选出统计特征前15的因素作为监测目标。
运维日志“故障设备”因素中“漏电流保护装置”和“低压开关”等频数较大,应为主要关注目标以降低事故发生概率;“故障线路-故障原因”多因素中“余家”地区的“用户设备漏电”发生频率较高,应为重点监控对象;由于时间维度事故发生存在一定的规律性和周期性,在“时间-故障原因”统计中,如统计反映主要故障原因之一“用电过负荷”验证了实际相符。
由于统计模型往往存在人工记录的重复性、不规范等因素,研究因素词向量特征能够有效的规避此类问题。同时将语义距离引入统计分析中来,能够挖掘运维语料文本中深度信息。在多类因素语义关联应用中,利用单因素图谱的关联表达方式,建立各个项目内部关系的树状图,同时在多类因素之间利用语义词向量表达构建词语串组的关联表达方式,建立了各因素的外部关系结构。
4结论
本文主要研究基于自然语言处理的电力运维文本结构化表达和分析方法。通过针对文本特性设计词向量生成方法并针对文本结构设计多类语义槽,以CNN-BiLSTM-CNN组合神经网络识别命名实体关键词。并针对所提取的多类实体词以词频和词向量特征在单一因素类和多类之间统计分布特征和语义关联特性。能够有效的解决非结构化运维文本的统计分析和语义理解问题,高效的实现运维大数据价值转化。但是对于中文长实体词的复杂组成问题仍然存在,因此通过神经网络对中文长实体词的片段拆分仍需进一步研究。
参考文献:
[1]刘义德,梁坚.智能电网大数据处理技术现状与挑战[J].科技创新与应用,2015(29):184.
[2]薛禹胜,赖业宁.大能源思维与大数据思维的融合(一)大数据与电力大数据[J].电力系统自动化,2016,40(1):1-8.
[3]唐明,朱磊,邹显春.基于Word2Vec的一种文档向量表示[J].计算机科学,2016,43(6):214-217.
电力工程师论文范文:电力建设工程施工过程风险的可拓优度评价
改革开放以来,我国的各行各业得到了蓬勃的发展,建筑行业是我国城市化建设的主要支柱,其中电力建设工程施工更是对我国的电力发展贡献了巨大的力量。由于电力建设施工过程中所涉及的人数较多,工作的内容繁杂,危险系数较大等,在施工的过程中难免会出现漏洞。但是将可拓优度评价运用与电力建设工程施工过程中,能够有效降低施工风险,较少安全事故的发生。