学术咨询

让论文发表更省时、省事、省心

科技术语自动提取技术现状与思考

时间:2021年12月20日 分类:科学技术论文 次数:

摘要:文章简要介绍了自动术语提取任务的定义、主要方法和评价指标。针对传统的自动术语提取方法,以互信息、t值、tf-idf、C/NC-value为例介绍了单元度和术语度的概念;针对自动术语标注方法,主要介绍了基于序列标注的建模思想。从提取效果来看,现有自动术语提取技术距

  摘要:文章简要介绍了自动术语提取任务的定义、主要方法和评价指标。针对传统的自动术语提取方法,以互信息、t值、tf-idf、C/NC-value为例介绍了单元度和术语度的概念;针对自动术语标注方法,主要介绍了基于序列标注的建模思想。从提取效果来看,现有自动术语提取技术距离期望仍有差距,文章也尝试给出了一些值得探索的方向。

  关键词:自动术语提取;自动术语标注;单元度;术语度;机器学习

术语自动提取

  引言

  术语(term)是“各门学科的专门用语,在专业范围内表示单一的专门概念”[1]。术语处在专业知识体系构建的基石位置,术语的获取、整理和规范不仅对专业知识体系的构建和发展有重要作用,也会对专业领域之外的其他许多行业产生影响。传统上,术语的收集整理主要依靠领域专家进行,这种工作方式的优点是高质量,缺点也很明显,成本高,速度慢,难以适应当今科技高速发展中术语大量急速涌现的现状。

  20世纪90年代前后,伴随着语料库建设的进步,利用信息技术和自然语言处理技术进行术语快速获取———自动术语提取(automatictermextraction,ATE)的想法就应运而生并成为一个重要的研究议题[2]。术语自动提取有着不言而喻的重要意义。如 果拥有可靠的术语自动提取技术,科技术语整理、审定与专业词典编纂的工作效率和质量就会得到极大提高。

  术语作为一种特殊词汇,在语言实践中,也常有与普通语言词汇不同的处理策略和规律,可靠的术语自动提取技术也会对许多语言文字工作带来积极影响,例如,在翻译、教育等很多行业,及时、规范、全面的术语资源都是非常宝贵的资源。术语提取和识别还是专业自然语言理解的基础技术,对于自然语言处理而言,术语通常都是未登录词(outofvocabulary,OOV),术语自动提取技术的进步有助于改善自然语言处理系统未登录词的处理能力,有助于推动专业文本机器理解技术的发展。经过研究人员近三十年的努力,自动术语提取技术取得了许多进展,也出现了一些术语提取工具。

  例如,在许多机器辅助翻译平台中都有相应的自动术语管理和提取工具,譬如在著名的机器辅助翻译平台SDL-Trados中就配备了术语提取组件SDLMultiTermExtract,可用于辅助翻译工作者定位专业文档及翻译记忆库中潜在的单语或者双语术语,从而辅助翻译工作者改进术语翻译质量。不过,自动术语提取也是一个有挑战性的研究任务,总的看来,自动术语提取技术的性能还不能令人满意,还需要研究人员的持续攻关和努力。

  1自动术语提取的任务定义

  自动术语提取研究从特定专业文本中提取术语的自动技术和方法。自动术语提取系统的输入是特定领域的专业文本,任务是通过对这些文本的自动分析和处理,提取其中的术语条目并以列表的形式输出。例如,从给定计算语言学文本中,提取其中的计算语言学术语。尽管自动术语提取系统在应用时面向特定的目标领域,但现有自动提取技术基本上是通用的,并不因为所处理的领域不同采用不同的方法。为了指称的统一,在本文中,我们把自动术语提取所处理的特定领域文本统称为目标领域文本,即自动术语提取系统的输入是目标领域文本,输出是目标领域文本中所使用的目标领域术语条目。

  文献中,除了术语自动提取这个名称外,还有一些其他说法也指向术语提取或相关研究,例如,自动术语识别(automatictermrecognition或automatictermidentification)、自动术语检测(automatictermdetection)、自动术语挖掘(automatictermmining)等。许多文献不加区别地使用这些术语,含义都是从目标领域文本中提取相应的术语条目。不过,这里也想特别指出,针对目标领域文本中的术语,从语型(type)和语例(token)两个处理角度,实际上可以构思出两种既相互联系又相互区别的处理任务。在语型处理层面,旨在提取目标领域文本中的术语条目,而不关心精确标记术语条目在目标领域文本中的每个使用实例。

  与之不同,我们还可以界定一种语例层面的自动术语处理任务,即在目标领域文本中精确标记所有的术语实例。传统上所说的自动术语提取主要指语型层面的处理,我们在本文中称之为自动术语提取。为了与之区别,在本文中,我们把上述语例层面的术语处理任务统一称作自动术语标注(automatictermlabelling,ATL)任务。自动术语标注和提取可以独立研究,但也可以结合进行。

  事实上,可以将自动术语标注看作自动术语提取的前驱任务,如果可以成功识别并标记目标领域文本中的术语,那么只要将这些标记好的术语提取出来并进行去重操作就可以得到相应的术语条目列表,从而实现术语提取的目的。这里之所以对自动术语提取和自动术语标注区别对待,除了自动术语标注可以作为术语提取的实现技术之外,更为重要的是,从专业文本机器理解这个更为一般的角度出发,自动术语标注更具基础意义,在许多专业文本的机器理解任务中,更加需要语例层级的术语标注处理,因此自动术语标注技术除可以用以支持术语提取外,也是专业文本机器理解的基础技术。

  2术语的组成和统计特性

  要想利用计算机自动标注或提取目标领域文本中的术语,就需要研究和总结术语在组成和分布方面的形式特征。作为一种特殊的语言表达,术语有着与普通词语和短语不同的区别性特征。从术语的组成来看,术语通常由一个或多个单词组成。

  由一个单词组成的术语通常称作简单术语(simpleterm)或单词术语(single-wordterm),由不止一个单词组成的术语通常称作复杂术语(complexterm)或多词术语(multi-wordterm)。仅从组成单词的数量上看,术语与普通短语并没有区别。但术语与普通短语具有性质上的差异,术语是指称领域概念的,所指通常固定明确。即便是复杂术语,本质上仍是词汇层面的语言单位[3]。术语与普通短语在性质上的不同决定了术语必然具有不同于普通短语的特殊组成模式和特殊统计特性。

  (1)从语言学角度看,术语大多是名词或者名词短语,这是由术语是对概念的指称这一特点决定的。例如,根据文献[3]对四个领域术语的抽样调查,名词短语在英语术语中所占比例很高,在所调查的四个领域中比例介于92.5%和99.0%之间。

  (2)术语意义一般不是其组成单词意义的简单叠加,在使用中,变化有限。不具有一般短语所具有的(修饰词)省略、变化、替换甚至增添等灵活变化现象[3]。术语形式变化,通常会导致所指的变化,也会造成歧义,所以同一术语在使用中形式基本不发生变化。(3)术语组成模式相对有限。例如,根据文献[3]对四个领域中多词术语的调查,仅由名词、形容词和介词组成的名词短语型术语占比在99%以上,仅由名词和形容词组成的名词短语型术语占比可达97%。

  (4)在目标领域文本中,术语通常具有较高的出现频率。而且与普通短语不同,术语在领域文本和一般文本中有较大的分布差异,集中出现在所属领域的文本中,而在其他领域文本中则较少出现。

  (5)复杂术语的组成单词之间结合紧密稳定,形成领域文本中的特有固定搭配。从统计学的角度看,复杂术语各组件的共现频度通常会显著超过一般预期。

  (6)在专业文本中,术语的上下文语境也有一定封闭性,尤其是与术语共现的实词往往因领域不同而不同。术语的组成和统计特性是利用计算机识别和提取术语的主要依据,大多数术语自动提取方法是根据和利用上述术语特点而设计的。例如,利用术语的语言学特点,将目标领域文本中符合特定模式的名词短语视作潜在的术语候选,或者利用术语的统计特性设计不同的度量指标衡量单词和多词组合作为术语的可能性。

  3单元度和术语度

  从计算机的角度出发,目标领域文本中任何一个单词或者连续几个单词的组合都有成为术语的可能。在本文中,我们把目标领域文本中任意一个由n个单词组成的连续片段称作n元组(n≥1)。

  理论上,任何一个长度小于术语最大长度的n元组都有成为术语的可能,我们把这些n元组称作术语候选(termcandidate),计算机需要逐一评价这些术语候选,计算它们作为术语的可能性。衡量一个n元组是否构成术语通常被归结为计算两个指标的问题,即计算单元度和术语度[4]的问题。单元度(unithood)是针对复杂术语而言的,一个包含多个单词的n元组要成为一个术语,前提是它们需要构成一个固定搭配,组成单词间需要结合紧密并整体构成一个语言单位。

  单元度就是衡量一个多词n元组中词与词之间关联强度的指标。但组合紧密稳定的多词组合未必就是术语,术语需要具有领域性,术语度(termhood)就是用来衡量一个n元组与特定领域关联程度的度量指标。因此,对于目标领域文本中的某个n元组是否构成术语,可以分别计算该n元组的单元度和术语度分值,如果单元度和术语度得分都高的话,那么这个n元组很可能是一个术语。多年来,研究人员先后设计和使用了很多计算单元度和术语度的具体方法,这些方法形式各不相同,但原理上都是利用术语的形式和分布特点。

  3.1单元度计算

  常见的单元度计算方法包括t值、χ2值、对数似然比、点式互信息、Dice系数等多种方法。一一罗列和介绍这些方法并无必要,我们这里只介绍其中两个计算指标,分别是点式互信息和t值。选择这两个指标,主要是因为点式互信息比较常见,而t值可以作为一类方法的代表。假设-检验法采用一种类似反证法的逻辑来论证n元组组成单词之间结合是否紧密。

  首先假定原假设成立,那么基于原假设,可根据统计学知识推断该n元组在目标领域文本中应该具有的统计特性,然后与目标领域文本中观察到的真实统计特性做比对,如果推断得到的统计特性和真实统计特性有较大差异,以至于大到在假定原假设成立的前提下不大可能发生的程度,那么我们就可以有较大的信心确定作为推断基础的原假设不成立,而转向承认认为单词间结合稳定紧密的备择假设成立;反过来,如果根据原假设推断得到的统计特性和真实统计特性差异较小,在原假设成立的前提下发生的概率很大,那此时就需要承认认为单词之间结合不紧密的原假设。

  不同的假设-检验方法对数据分布和差异度量有不同的规定,但道理基本一样。在利用假设-检验方法计算单元度时,通常并不完整使用假设-检验的完整流程,而只关心统计特性的差异值,差异值越大,则认为单词间结合越紧密,t值就是一种这样的差异值。

  3.2术语度计算

  术语度计算术语候选和领域的关联程度。术语度计算的出发点依然是充分利用术语的统计特性。术语具有领域分布不平衡的特点,在计算术语度时要利用这一特点,单纯使用目标领域文本是不够的,需要引入目标领域文本之外的其他领域文本或不具备领域色彩的普通文本作为比对参照,这样的文本称作参照文本(referencetext)。

  4术语提取的一般流程

  提取术语候选的目的是从目标领域文本中选择可能是术语的单词或者多词组合,这些选择出的单词或者多词组合未必是术语,它们是否为术语需要交给后续阶段进一步评估。从这一阶段的目的和在整个提取流程中的作用来看,理想的结果应该是既不漏掉真正的术语也不应该生成太多的术语候选。生成太多的术语候选会增加第二阶段的工作负担,降低效率,但漏掉真正术语会影响术语提取任务的准确率,造成提取质量下降。

  引入语言学知识,如前文所述,多词术语绝大多数由名词、形容词按照一定的模式构成,可以利用预定义的词类模式对术语候选进行过滤筛选,如可把能与第2节中正则表达式成功匹配的n元组作为术语候选。这种策略是一种常见的将语言学知识引入术语提取过程中的做法。不过,由于模式匹配建立在词类模式的基础上,需要事先对目标领域文本进行词类标注处理,由于现有词类标注程序并不完美,存在错误标注的情况,也会对术语候选生成产生一定的影响。

  鉴于术语多为名词短语,也有研究限定只处理名词短语,规定术语候选需要是名词短语。这会对目标领域文本处理提出更高的要求,需要对目标领域文本进行句法或者名词组块分析处理。同样自动句法或组块分析的效果也会对术语候选质量产生影响。

  5自动术语标注和机器学习

  在本文第1节,我们对自动术语提取和自动术语标注两个任务进行了区分,也指出自动术语标注可作为自动术语提取的实现技术。例如,对于下面的文本片段:进行词法分析的程序或者函数叫作词法分析器自动术语标注的结果是:进行[词法分析]的[程序]或者[函数]叫作[词法分析器]自动术语标注程序需要把文本中的术语实例标记出来(方括号括起来的部分)。经过自动术语标注处理目标领域文本,其中出现的术语实例均已明确标记,提取汇集这些术语即可实现术语提取的目的。例如,根据标注结果,从上面的例子中,可以提取得到“程序”“词法分析”“词法分析器”和“函数”四个术语条目。

  6自动术语提取与标注的评价

  与其他很多研究一样,方法的好和坏、改进方向、应用意义都需要通过评价来体现和基于评价来做出判断,自动术语提取研究也不例外。与很多自然语言处理任务评价类似,在自动术语标注和提取任务中,最常用的评价指标是F值。测试术语提取系统的性能,需要引入目标领域的测试文本。对于给定目标语料测试文本,其中包含的术语条目理论上是确定的,如果由领域专家把这些术语条目提取出来,就可以作为自动方法评判的标准答案。通过比对术语提取系统返回的术语条目和标准答案,会有三种情况出现:

  (1)正确提取,也就是在标准答案中的术语被术语提取系统正确提取的情况。这里用nA代表术语自动提取系统正确提取的术语的数量。(2)漏提,也就是正确答案中有但未能被术语提取系统提取的情况。这里用nB代表被术语自动提取系统漏提的术语的数量。(3)错提,也就是不是术语但被自动术语提取系统误认作术语的情况。这里用nC代表自动提取结果中这种被错认的术语数量。

  基于上述三种不同情况和对应的统计数据,可以分别定义精确率(precision)和召回率(recall)两个评价指标。其中精确率用来评判自动提取系统提取结果的准确程度。

  7结语

  自动术语提取研究取得了不少进展,但距离人们的期望还有不小的差距。这表现在,现有术语提取结果中存在大量的噪声,人工核校剔除需要花费大量成本;术语漏提现象也普遍存在,尤其是现有术语提取技术大多基于统计技术,限于长尾效应,一些低频术语很难被识别和提取。

  如何减少噪声和漏提现象仍是术语提取研究要解决的核心问题。从方法层面而言,形成了基于术语评分统计量的提取策略和基于机器学习的术语标注策略两大类方法。基于术语评分统计量的办法无需大规模术语标注语料库,因而得到了较多的关注和研究。基于机器学习的术语标注技术由于需要大规模术语标注语料库,限于缺乏这样的标注数据,效果和潜力仍未充分体现。

  尤其值得指出的是,近年来深度学习技术在自然语言处理的许多任务中有突出表现,但在自动术语提取和标注任务上的深入探索仍不多见。在基于深度学习技术的自动术语提取和标注研究中,至少有两个方面值得进一步关注:一是许多神经网络架构已被证实在自然语言处理的许多任务中可以带来效果提升,诸如CNN、LSTM、Transformer等,这些模型可为术语提取技术带来何种影响需要实践验证,研究人员也需要在此基础上探索并提出适于自动术语提取问题的新型模型架构;二是大规模预训练语言模型发展如火如荼,BERT、GPT、XLNet、T5等众多大规模预训练语言模型在许多自然语言处理任务中的价值已得到证实,但在自动术语提取方面的价值仍有待探索和关注。

  术语提取和标注主流技术仍是数据驱动的技术,术语标注资源的建设至关重要。但术语标注语料构建耗时费力,在这种情况下,有效利用远程指导等弱指导技术和有效应对远程指导技术的噪声问题值得研究和探索。术语标注资源的建设还有利于形成统一基准评测语料,为准确有效评价不同术语提取或标注方法提供基础资源,有利于术语提取和标注技术的持续发展。随着科学技术的进步,新术语层出不穷,从术语整理和审定的角度看,新术语提取效果更具应用价值,如何在方法、评价层面考虑新术语提取能力也是有待关注的问题。

  参考文献:

  [1]语言学名词审定委员会.语言学名词[M].北京:商务印书馆,2011.

  [2]CABRCASTELLVMT,BAGOTRE,PALATRESIJV.Automatictermdetection:areviewofcurrentsystems[M]//BOURIGAULTD,JACQUEMINC,L’HOMMEM-C.RecentAdvancesinComputationalTerminology.Amsterdam:JohnBenjaminsPublishingCompany,2001:53-88.

  [3]JUSTESONJ,KATZS.TechnicalTerminology:SomeLinguisticPropertiesandanAlgorithmforIdentificationinText[J].NaturalLanguageEngineering,1995,1(1):9-27.

  [4]KYOK,BINU.Methodsofautomatictermrecognition:areview[J].Terminology,1996,3(2):1-23.

  作者:常宝宝