时间:2020年03月11日 分类:经济论文 次数:
摘要:事件抽取可以帮助人们从海量的文本中快速、准确地获取感兴趣的事件知识。然而,目前事件抽取的研究主要集中在从单一句子中抽取事件.由于事件构成的复杂性和语言表述的多样性,多数情况下多句才能完整地描述一个事件。因此,从篇章中抽取出完整的结构化事件信息,显得更有价值和意义。该文首先利用基于注意力机制的序列标注模型联合抽取句子级事件的触发词和实体,与独立进行实体抽取和事件识别相比,联合标注的方法在F值上提升了1个百分点。然后利用多层感知机判断实体在事件中扮演的角色。最后,在句子级事件抽取的基础上,利用整数线性规划的方法■进行全局推理.融合句子级事件信息,实现篇章级事件抽取.与基线模型相比.这种基于全局推理的篇章级事件抽取在F值上提升了3个百分点。
关键词:篇章级事件抽取;联合标注;全局推理
o引言
当今社会,互联网已成为大部分人日常生活中不可或缺的一部分,在为人们的生活、学习、工作带来极大方便的同时,互联网中海量的非结构化文本也给用户带来信息冗余繁多的困扰。面对日益增长的非结构化文本数据,如何帮助人们理解并快速获取文本中的知识,显得尤为重要,而信息抽取技术的提出正是为了解决这个问题。作为自然语言处理(NaturalLanguageProcessing,NLP)技术中的关键任务,信息抽取在知识获取中扮演着重要的角色。Grishman等⑴将信息抽取定义为:从自然语言文本中抽取指定类型的实体、关系、事件等事实信息,并形成结构化数据输出的文本处理技术。而面向非结构化文本的事件抽取是信息抽取领域中的关键任务和重要的研究方向(其余还有实体抽取、关系抽取等),主要应用于事件知识图谱的构建、事件信息获取和辅助其他自然语言理解任务。
事件是个复杂的概念,在不同研究领域有不同的定义。事件抽取领域最具有影响力的评测会议----自动内容抽取(AutomaticContentExtrac-non,ACE®)评测会议将事件定义为:事件是发生在某个特定时间或时间段、某个特定地域范围内,由一个或多个角色参与的一个或多个动作构成的事情或状态的改变。事件中的相关术语具体定义如下:实体(entity):用户感兴趣的语义对象.通常是一个名词(例如,“人物”);事件触发词(eventtrigger):触发事件的核心词,通常是动词或者名词(例如,“丧生”或“拍卖”);事件元素角色(eventargument):实体在事件中所扮演的角色•即事件的参与者;事件描述(eventmention):描述事件的一句话或者一个字段,通常会包含触发词和事件元素;事件类别(eventtype):事件触发词和事件角色共同决定了事件的类别。
事件触发词和实体描述进行了特殊标记,有下划线的字段代表实体及其类别(例如,“10月31号”•时间),加粗字段代表触发词及其事件类别(“丧生”,死亡)。虚线连接触发词和实体.其上面文字代表实体在该事件中所扮演的角色。在本实例中,“丧生”触发一个死亡事件,T0月31号”“桃园中正国际机场”“82人”在该事件中分别扮演时间、地点和受害者的事件角色.从而组成一个完整的事件,而实体“新加坡航空”在该事件中不扮演任何角色。由ACE中事件的定义及图1实例可得,事件的组成要素主要包括事件的发生时间及地点,事件的参与角色以及与之相关的动作或状态(触发词)。在现实世界中.每天都有各式多样的不同场景、不同类型、不同粒度的事件发生,信息描述多样化的同时也给事件抽取任务带来难度。
作为自然语言处理中具有挑战的任务,事件抽取主要研究如何从非结构化的文本信息中抽取出用户感兴趣的事件,并以结构化的形式呈现出来。目前事件抽取的研究主要集中在两个子任务上:事件识别和事件元素识别。事件识别:识别文本中的由事件触发词引导的事件实例,并根据当前触发词和上下文信息判断当前触发的预定义事件类型。事件元素识别:若某句被判定为特定事件类型的事件描述,需判断句中实体和事件触发词之间的关系,这里的关系即为实体在该事件中所扮演的角色。上述事件抽取定义主要是针对句子级别的,而现有的事件抽取框架按照文本粒度可分为句子级事件抽取和篇章级事件抽取。句子级事件抽取焦点集中于识别句子中每个词可能提及的单个事件.以及判断句子实体在该事件中扮演的角色。虽然句子级抽取考虑的事件类型足够通用(ACE2005中定义了33种事件),但对于总结文档内容来说,句子级抽取粒度太细了。现实场景中,一篇文档通常包含一个或者多个事件,这些事件对于整体的重要性各不相同.而同一事件也可能会在文档中被多次提及。
篇章级事件抽取以文本中描述的主要事件为中心,用简洁、结构化的形式呈现给用户。其在现实世界中直接面向用户也具有明显的适用性,它允许用户快速获取文档中的事件内容、地点和时间,而不需要通读全文。难点在于,篇章事件抽取需要高质量的句子级抽取结果以及相同事件不同事件描述之间事件元素的融合,考虑以下例句:例1:根据奥地利救灾组织的统计,在阿尔卑斯山登山缆车失火惨剧中有155名乘客丧生。例2:奥地利一处滑雪胜地的登山缆车11号在阿尔卑斯山隧道发生缆车失火惨剧.受害者中包括有1999年世界女子花式滑雪冠军施密特。例1和例2是描述同一灾难事件的不同句子,分布在原文档中不同的段落当中。例1中包含该灾难事件的死亡人数和事故来源,例2中包含事件发生的时间和地点。事件描述例1和例2中的结构化事件信息需要融合才能得到完整的篇章级事件信息,篇章级事件抽取依赖于句子级抽取结果和跨句子的事件元素融合。
从理论出发,为了获取篇章级事件的结构化信息,需要句子级事件抽取结果和事件共指关系判断。目前针对篇章事件抽取研究较少,还没有统一的统计学模型能从篇章中直接抽取出篇章的事件信息。相反,句子级事件抽取的研究日趋成熟,在句子级抽取结果的基础上进行全局推断提高篇章事件抽取的整体性能是本文研究的方向。本文采用管道(Pipeline)的方法将篇章级抽取问题分为3个子问题:①利用序列标注模型对句子进行实体和事件的联合标注;②采用多层感知机对事件描述中的实体进行分类,判断实体在该事件中所扮演的角色;③基于整数线性规划做全局推理,得到篇章级结构化事件信息。在整个流程图中不借助标注语料中的其他信息和外部资源。
总的来说,本文的贡献在于以下3点:(1)提出了实体和事件的联合标注模型.此模型可以更好地利用上下文中的实体和事件的相互依赖关系。(2)提出利用整数线性规划的方法进行全局推理得到篇章事件抽取结果。(3)在ACE2005中文语料上进行实验,实验结果验证了模型的有效性。
1方法
近年来,已经证明了神经网络方法在自然语言处理领域的有效性。Zeng等Chen等⑶最先将深度学习的方法应用于关系抽取和事件抽取中,并取得了很好的效果。相对于传统特征表示的方式,神经网络将词向量(Wordembedding)作为输入,避免了传统特征提取过程过分依赖词性标注、句法分析等自然语言处理工具。在本节中,我们将介绍本文篇章级事件抽取采取的方法,主要包括实体和事件联合标注、事件元素识别、全局推理。
1.1实体和事件联合标注
实体和事件是紧密关联的,两者的表示相互依赖,但现有的事件抽取通常都对实体和事件分别建模。在目前事件抽取任务中.研究者一般将事件抽取分为3步:①实体识别:利用外部工具或者单一模型抽取句中的实体;②事件识别:抽取句中的触发词并判断事件类型;③元素分类:判断实体在事件中扮演的角色。实体识别和事件识别分开处理是常用的技术手段,但会忽略实体和事件触发词之间相互依赖的关系。
例如,在例句“奥巴马离开白宫,迎接新的挑战”中,“离开”作为触发词,触发了一个离职类别的事件而不是运输类别的事件。只分析“离开”一词,会存在歧义,但在已知句中其他实体及其类别后(“白宫,组织机构”;“奥巴马,人名”),更易判断“离开”触发离职事件;相反,当已知“离开”触发离职事件,更易判断“白宫”的实体类别是组织机构而不是地理位置。如何有效利用实体和事件触发词的依存关系,是本文提岀联合标注模型的出发点。
本文采用序列标注模型从句中联合标注实体和触发词,同时判断它们的类别,并将其抽取结果作为事件元素标注的输入。为了更好地建模上下文的关联关系.我们将自注意力机制(self-attention)M加到模型中。目前有很多统计学习方法可以对中文文本中的词进行识别并分类,但利用词作为输入需要先借助外部分词工具.而序列标注方法能够很好地解决中文词间无间隔的问题。在自然语言处理中,很多基础问题都可以用序列标注模型解决,比如中文分词、词性标注以及命名实体识别等。序列标注不仅能捕获词的边界,同时也可以判断当前词的归属类别。
不同于文本分类,序列标注模型将输入的句子看作一个序列,输出是一个等长的符号序列,每个符号对应特定的含义。具体来讲,序列标注模型给句子中的每个字符打上BIO的标签,B表示字段开始(beginning),1表示字段中间(inside),0表示其他字段(outside),标签后面跟的type表示字段的分类结果,例如.B-PER表示人名的起始字符,I-Attack表示触发攻击事件词的中间字段。随着深度学习在自然语言处理中的应用日趋成熟,利用神经网络的方法表示字符特征,能更好地捕获字以及上下文的信息。
在神经网络中,目前主流的两个方法是循环神经网络(RecurrentNeuralNetworks,RNN)和卷积神经网络(ConventionalNeuralNetworks,CNN)。相比之下,RNN比CNN更适合给序列进行建模,因为RNN的隐层既有当前时刻的输入,也有前一时刻的隐层输出,这使得它能通过循环反馈连接看到前面的信息,并且还具备非线性的拟合能力,因此利用RNN对序列到序列的建模是NLP中常用的手段。而长短期记忆网络(LongShort-TermMemory,LSTM)能将过去和将来的序列考虑进来.使得上下文信息充分被利用为。在LSTM后加入条件随机场(ConditionalRandomFields,CRF)能更多地考虑整个句子的局部特征的线性加权组合,计算联合概率,优化了整个序列。同时.我们将自注意力机制加到模型中,主要目的是学习句子内部字符之间的依赖关系,捕获句子的内部结构和语义信息。
1.2事件元素识别
文档中每个句子经过上述的实体和事件联合标注后,可获得句中的实体及其实体类型和事件触发词及其事件类型。为得到句子级的事件结构化信息,需要进一步标注实体在事件中扮演的角色,即实体和触发词之间的关系(例女口,判别实体“155名乘客”在“死亡”事件类型中扮演了“受害者”的角色)。为了充分利用实体特征和句子中的事件信息,本文利用一个多层感知机实现实体的分类从而实现事件元素识别。输入特征包括触发词、触发词类别、实体、实体类别、实体和触发词之间的位置信息以及当前句子通过LSTM的向量化表示。
1.3全局推理
在文档文本中,重要的事件通常会被多次提及,即同一事件会有多个事件描述。经过上述句子级事件抽取,可获得篇章中的一系列结构化事件信息。为获得篇章级的事件信息,需要判断多个事件描述是否指代同一事件,从而得到完整的事件信息。事件描述例1和例2分别通过“丧生”和“受害”触发“死亡”事件类型,通过文本描述的相似程度可以进一步判断例1和例2指代了同一事件,从而将两者的事件元素进行融合得到篇章级的事件结构化信息。为了充分利用文本信息进行事件共指的判断,本文采用整数线性规划的方法进行全局推理,将获取更好的事件共指判断作为优化目标,将文本相似度作为优化目标的重要系数,在条件约束下,得到篇章级事件抽取的最优结果。
2模型
本节主要介绍上述方法所用的模型,包括基于自注意力机制的实体事件联合标注模型、基于感知机的事件元素识别模型和基于整数线性规划的全局推理。
3实验
3.1数据
本文利用ACE评测发布的公开语料ACE2005中的中文语料作为实验数据集。数据集中标注的实体类别包括:PER(Person,人物)、ORG(Organization,组织机构)、GPE(Geo-PoliticalEntity,政治或人文地理区域)、LOC(Location,地理位置)、FAC(Facility,含有设施的场所),VEH(Vehicle,运输工具),WEA(Weapon,武器)以及VALUE(值)和TIMEC时间)。ACE2005中预定义33个事件子类别,每个事件类别都由不同的事件角色构成。本文参照Chen和Ji等进行数据的划分时,其中569/64/64/篇文档分别被用作训练集/测试集/验证集。利用P(Precision,精确率)、R(Recall,召回率)、尺值评价句子级的实体抽取和事件识别性能。参照Reichart等⑺采用的篇章级事件抽取评价方式,对于每篇文档,将学习到的结构化事件信息和标准进行最大匹配,然后利用P、R和F,进行篇章级事件抽取性能的评测。
3.2参数
模型的一些实现细节如下:输入的embedding为100维的词向量,是通过在维基百科中文语料进行预训练得到的。LSTM隐层维度为200,batch设定为50,学习率为0.000l,droupout为0.5.最终采用Adam作为优化器。
4相关研究
当前事件抽取按照研究方法可分为两大类:基于模式匹配和基于统计模型。模式匹配的方法在特定领域能取到较好的精确度,典型的基于模式匹配的事件抽取系统有:ExDisco[l0]和FSA^。但该方法需要大量人工进行模板撰写,而且普适性差,只适用于小规模的特定领域。基于统计学习的方法,在特征选取上又可分为两类:基于传统特征选取和基于神经网络自动学习特征。传统特征提取主要通过自然语言处理工具获取各种有效的词汇、句法和语义等特征,然后利用传统分类模型(例如,最大爛模型和支持向量机模型)进行分类"“〕。随着深度学习证明了其在NLP中的有效性,Chen等⑶率先将CNN应用到事件抽取中,并利用了距离信息来建模实体和触发词的位置关系;Nguyen等〔⑸提出一种基于RNN的模型进行事件识别和角色分类的联合学习。
针对语料缺、不平衡等问题,Liu等借助外部语义资源进行事件识别;Chen等利用远程监督的方法扩充训练语料提高了事件抽取性能;Yang等〔屈借助篇章信息进行事件和实体的联合抽取,并将其分为3个子问题:学习事件内部结构、学习事件与事件关系、学习实体抽取;Uu等⑴】利用双语资源提高事件抽取的性能。这些方法在英文事件抽取数据集上取得了很好的效果。中文事件抽取方面,词级的不匹配问题严重影响了汉语信息抽取中词级模型的性能。为了解决该问题,Chen和Ji等⑷提出了基于特征的字符级BI()标注;Li等〔河定义了中文触发词的人工模板,这些方法都高度依赖于人工构建的模板和特征。从文本粒度看,目前事件抽取的相关研究主要针对句子级别的抽取.即识别句中触发词,并判断实体在事件中所扮演的角色。但现实世界的文本大多是以篇章的形式出现,用户更关心的是从篇章中获得结果化的事件知识。
最早的事件抽取系统FRUMPY]采用事件模板匹配的方法进行篇章事件抽取。Huang等采用基于模式分类的方法,将篇章抽取看成两个子问题:①角色槽填充;②句子关联模型。Yang等[旳采用基于句子抽取结果以及文本特征发现主事件描述,并利用上下文元素补齐策略得到篇章事件结构化信息的方法,在中文金融事件抽取数据集上取得不错的效果。总的来说,目前篇章事件抽取的研究主要集中在特定的领域,高度依赖人工规则,很难推广到新的领域。而句子级事件抽取方法应用于更广泛的领域,但生成的输出粒度太细,无法提供好的文档级事件信息。
5总结和展望
本文讨论了事件抽取对于知识获取的重要性,并阐述了句子级事件抽取和篇章级事件抽取的差异。相比句子级事件抽取的细粒度结果,篇章级事件抽取的结果能反映出完整的事件信息,具有更好的现实意义和实用价值。为了从文本中获取篇章级事件信息,本文采用深度学习的方法抽取句子级事件信息,其模型由两部分组成:基于序列标注的事件实体联合抽取和基于多层感知机的事件元素识别。在句子级事件抽取基础上,采取整数线性规划进行全局推断得到篇章级事件结构化信息。本文在ACE2005数据集上的实验结果证明了方法的有效性。然而,基于Pipeline的方法不可避免地会带来误差的传递。如何利用端到端的模型.从篇章文本中直接抽取出事件结构化信息,提升篇章级事件抽取整体性能,是下一步主要研究方向和内容。
相关论文范文:大数据在审计分析程序中的应用研究
摘要:21世纪是世界经济大发展的时代,是科学力量发挥巨大力量的时代,是极大改变人们思维方式和工作理念的时代,是创新引领未来和不断变革发展的新时代。随着计算机技术的普及,人们开始在日常工作中引入计算机技术,来帮助自己完成工作,这样不仅可以提高效率,还可以保证工作质量,以达到事半功倍的效果,种种迹象表明人类社会已在计算机技术的引领下进入了空前大发展时期。