时间:2022年03月26日 分类:科学技术论文 次数:
摘 要:中医学历史悠久、卷帙浩繁,但论述较为分散,知识混杂多样。知识图谱具有知识语义化、数据易关联、易扩充的特征,因而逐渐成为中医药知识信息化的重要手段。为有利于更好地运用知识图谱传承发展中医药知识,文章在简述知识图谱在中医药领域的构建与应用情况的基础上,重点从本体技术和分词、实体识别、关系抽取等3种知识抽取技术等方面介绍了知识图谱构建关键技术在该领域中的研究应用概况、规律与特点。文章还从知识图谱存储关系型知识的角度出发归纳了中医药领域对该类知识的应用方向及关键技术。通过对文献的分析与总结,探讨了中医药领域知识图谱构建与应用中的问题并提出未来的发展建议。
关键词:知识图谱 中医药 本体 知识抽取 关系型知识
中国古代医籍卷帙浩繁、晦涩难懂,现代中医累积的电子数据文献的数量也日渐巨大,且都存在知识散布难寻、利用率低的问题,不利于知识传播传承、辅助 临 床 诊 疗 和 提 炼 总 结 新 知 识 。 知 识 图 谱(Knowledge Graph, KG)是一种由 Google 于 2012 年首先提出以服务其互联网搜索业务[1]的知识库,它把从现实世界中或语言描述的内容中抽象的对象和关系视为知识,并采用点和边的形式连接成为更容易理解、挖掘的网络图结构。作为一种可视性强、自带推理规则且便于机器学习与利用的知识存储和应用技术,知识图谱已被许多领域应用于具体场景中。将中医药知识转化为图谱形式存储起来,更有利于用现代化信息手段对中医药文化进行传播传承和创新发展。为更清晰地把握知识图谱及其关键技术在中医药领域研究工作的动态、进展和存在的问题,为科技部国家重点研发计划(NO.2018YFC1704401)课题《阴虚证辨证规范化及辨证新方法研究》中的辨证规范和辨证方法研究、阴虚证演变规律研究所基于的“阴虚证知识库”的构建以及古籍的深度利用提供借鉴参考,也为更多学者的相关研究提供信息情报支持,加快知识图谱技术在本领域的研究应用进程,本文对知识图谱及其关键技术在中医药领域的研究与应用情况进行了综述。
在简要介绍中医药各子领域构建和应用知识图谱的情况基础上,重点梳理和分析了本体和知识抽取(包括分词、实体识别和关系抽取)技术的基本概念及其在知识图谱构建中的关键作用,该关键技术在中医药领域的主要研究方向、研究对象、应用场景、采用的方法和工具等,以及其中的规律和特点。通过引入关系型知识的概念,归纳总结了中医药领域关系型知识的组织与存储形式和应用研究的特点、方向、目的及相关技术方法等。最后探讨了知识图谱及其关键技术在中医药领域的研究与应用中存在的问题,并提出未来研究发展方向的相关建议。
1 中医药领域的知识图谱
1.1 知识图谱概述
知识图谱是一种用实体的多关系网络图表示知识的技术。其中的网络图由“实体(Entity)”抽象成的节点和“关系(Relation)”或“属性(Property)”抽象成的边构成。其中人名、公司名称为实体,“是……的父亲(母亲)”、“工作于”表示为关系,年龄是属性(其值为数字)。知识图谱从逻辑结构上可以划分为模式层和数据层。模式层是通过对知识的提炼形成了知识图谱的概念模型和逻辑基础,中医药领域一般采用领域本体作为知识图谱的模式层。数据层是对模式层的数据填充与实例化,使用形如(实体-关系-实体)或(实体-属性-属性值)形式的三元组或图模型表示知识[2],并 采 用 关 系 型 数 据 库 或 Neo4j、JanusGraph、TigerGraph、Neptune、OrientDB等图数据库来存储这些知识。
基于其逻辑结构,知识图谱的构建方法可分为三类:自底向上、自顶向下和二者混合的方法,区别在于抽象并构建模式层和提取知识构建数据层的顺序不同。知识图谱构建与应用的关键技术包括概念模式设计、知识抽取、知识融合、知识推理与挖掘等。概念模式设计即从领域知识中抽象出概念、属性和关系的定义与分类,以作为知识图谱的知识描述框架。知识抽取可以从非结构化或半结构化的数据中提取出实体、关系、属性等知识;知识融合可统一实体名称或消除指代的歧义;知识推理与挖掘可通过挖掘隐含的知识对知识图谱进行扩展、展示或进行其他利用。
1.2 各子领域的知识图谱
目前,中医药多个子领域的学者主要基于现代文献或多种文献融合,构建相关子领域知识图谱并进行了知识图谱的应用。①中医证候领域。肖猛[3]、罗计根[4]、郭梦莹[5]、周海[6]等学者以中医证候为中心,基于中医证候本体、中文百科网站、现代中医书籍等现代文献资料中的辨证知识,构建了中医证候知识图谱,并在此基础上进行了可视化或构建了中医健康管理平台、中医智能问答模型。②中医医案领域。于彤[7]、李新龙[8]、朱丹[9]、邓宇[10]、谢先章[11]、郑子强[12]等学者从专病治疗临床数据、名老中医医案、专科电子病历、网络数据或古代医案中获取知识,构建临床医案、辨证论治、问诊或专病知识图谱,并进行了可视化、学习与推理诊疗经验或构建了问诊平台等应用。
③中医方剂领域。郭文龙[13]、赵凯[14]、尹丹[15]等学者基于经典名方或方剂数据库中的方剂知识,构建方剂知识图谱,并进行检索、可视化、图模式搜索等应用。④中药领域。仲怿等[16]和吴鸿[17]基于现代中药制药过程和古今文献中的知识,建立了中药知识图谱。⑤中医综合领域。张德政等[18]、张莹莹[2]、张雨琪等[19]融合不同数据源的知识,构建了中医核心知识图谱、中医药知识图谱、用方经验知识图谱等综合类图谱。⑥其他子领域。郝伟学[20]、于彤[21]、崔家鹏[22]、王吕颖[23]、叶斌[24]、任薇[25]、卢克治[26]、王菁薇[27]等学者基于现代或古代文献数据资料的知识,构建了中医健康、养生、脾脏象理论、中医问答、胸痹辨证论治或某类古籍的知识图谱,并进行了知识可视化、检索、推理、推荐等应用研究。
2 中医药领域知识图谱构建的关键技术
在知识图谱的概念提出前,本体、自然语言处理、数据挖掘等技术均已在多个领域被广泛研究和应用——这其中也包括中医药领域。这为知识图谱在中医药领域的引入和快速发展奠定了一定的技术基础。通过梳理文献,发现在中医药领域的知识获取与应用(包括知识图谱和其他类型知识成果或产品的构建与应用)中,对部分知识图谱关键技术如本体技术、知识抽取技术和关系型知识应用技术的研究应用相对较多。因此本章重点分析本体和知识抽取技术的研究应用情况以及其规律和特点,同时将在下一章中归纳总结中医药领域关系型知识的组织与存储形式和应用研究的特点、方向、目的等。
2.1 本体技术本体(Ontology)
可以看作是一个领域的共享概念,是表示与组织有用知识的方法。本体的组织结构包括:概念、属性和关系的定义,以及这些定义的分类。子本体通过层次结构连接成上层本体[28,29]。本体突出的是概念以及概念之间的关系,因此本体是知识图谱数据模式的一种描述[18]。本体不仅被用于中医药知识图谱的构建,也被用于中医药领域的叙词表[30]、术语体系[31]、语义网络[32]、知识库[33]、系统建模[34]、信息处理[35】等。
本体作为知识描述框架在中医药领域的研究应用文献最早可追溯到2004年[36,37]关于中医药一体化语言系统 TCMLS[38]的研究,此后研究方向包括中医药领域及子领域本体[39,40]、基于本体的知识库构建的方法[41],已有本体或子本体的完善、进化、拓展与应用[28,42-44],以及如何采用新方法实现本体构建与本体更新过程的自动化、智能化[45]。在中医药领域,本体的研究对象包括证候[40]、疾病[46]、症状[47]、方剂[48]、治则治法[49]、诊法[50]、针灸[51,52]、医家[53]、医案[47]、中药[53]等;本体的应用以规范化采集、描述和存储知识,领域知识或经 验 的 检 索 、挖 掘 、推 理 、推 荐 、问 答 、共 享 等 为主[33,37,39]。中医药本体的构建方法大多采用“七步法”“骨架法”,或它们的改进[54]、结合方法[55]。
可完全按步骤完成新本体构建,或者借鉴已有成果加以提取[56]、复用[57]或扩展[58]。构建工具以 Protégé 软件为主,并用RDF或OWL进行知识描述。中医药本体作为一种描述框架和建模方式,未来仍然是知识工程里不可缺少的组成部分。在该领域的子领域本体或与之相关的叙词表、术语体系、语义网络和知识图谱等陆续出现和完善后,复用、改进或重用现有本体以提高构建效率、降低资源浪费是一个重要趋势。而随着人工智能技术在自然语言处理、推理和检索等领域应用的逐渐成熟,本体的自动、智能构建与更新技术也是重要的研究方向(目前以人工构建为主),或与人工构建、本体复用等相结合以构建目前来说相对复杂的领域本体。
2.2 知识抽取技术知识抽取(Knowledge Extraction)是从源数据中分析、识别、筛选和提取知识的过程。根据数据源不同,可将知识抽取分为结构化知识抽取、半结构化知识抽取、非结构化知识抽取。非结构化或半结构化数据的知识抽取涉及一系列的关键技术,其中用于纯文本数据处理的技术属于文本数据挖掘技术的一种,也包含在自然语言处理的技术中,如分词、实体识别(包括术语抽取)、关系抽取等。
2.2.1 分词分词(Word Segmentation)是把语句切分为单个有意义的词,从而将连续的汉字序列重新组合成词序列的过程,也叫切词[59]。分词的正确性直接影响着后续进行的实体识别、关系抽取与知识利用的效率和准确性。对中医药领域文本进行分词的常用方法包括基于规则的方法、基于统计的方法(机器学习法)和深度学习法等。如果将语句视为不同字符串的集合,可利用基于规则的方法进行分词(如正向或逆向最大匹配法)[60-62]。
将语句视为上下文联系紧密的单字组合、相邻的字出现次数越多则构成词的概率越大时,可采用基于统计概率的语言模型进行分词[63-64]。当把分词作为一个序列标注问题,根据上下文将语句中的每个字进行分类标注时,常用到能够记录更深远上下文信息并采用非线性拟合的深度学习方法,以及与其他方法结合的方法[65]。当把句子中的一些词作为领域专用词时,也可通过实体识别的方法将这些词标记或分割出来,特别是词典中不包含的新词的识别,达到一定程度的分词效果[66-67]。分词技术在中文语言处理领域发展较为成熟,研制了多种分词软件平台或工具。
如中医 药 文 本 分 词 用 到 的 Jieba[68]、盘 古[69]、NLPIRICTCLAS[70,71]、StanfordSegmenter[72]、Rwordseg[73](基 于ICTCLAS)、THULAC[74]、Pkuseg[75]等。中医药文本分词的研究对象包括现代文献和临床数据、中医古籍以及问答系统的用户问题等[68,69,75-77],其目的包括建立医疗信息平台或知识图谱、搜索、推荐、数据挖掘与知识发现、情感分析、自动问答、文本分类等[13,62,63,68,78]。综上所述,根据分词原理不同其方法也不同,并随技术进步不断更新,但它们各有优缺点,很多成熟的分词工具都结合了多种分词方法。目前一些实体识别技术直接略过了分词阶段,如基于预训练模型的方法,其深层结构可以根据长距离的文本上下文自主学习语义特征,因此分词技术未来在某些知识图谱构建场合将可能不再被需要。
2.2.2 实体识别命名实体
(Named Entity)是具有一定意义的文本片段,如人名、地名、机构名、日期、时间等[79],简称为实体。中医药领域的实体一般包括医家信息、患者信息、疾病名、症状名、证候名、方剂名、中药名及其他中医 术 语[19,3,80]。
命 名 实 体 识 别 (Named EntityRecognition,NER)是自然语言处理、知识抽取和机器问答领域的重要任务之一,是实体关系抽取、实体消岐、知识存储等其他任务的基础,其主要的工作是确定实体的类型与边界,也常作为序列标注问题来解决[81]。由于汉语,特别是中医古籍中的词缺乏自然边界,词性也不像英语单词那样可快速识别,因此实体识别往往与自然语言处理的另一项任务分词密不可分。中医药领域实体识别方法在 2018 年前以基于规则的方法[82]、基于统计的方法为主,且大多单独使用,同时也有文献对这些方法的效果进行了对比实验[83]。2018年后深度学习法逐渐在实体识别中普及,并且各种方法被改进,或被结合、组合使用以弥补各自的不足、提高实体识别的准确性和效率,尤以BiLSTM-CRF方法使用最多[12,84]。
中医药实体识别方法紧跟计算机技术和自然语言处理技术的发展步伐,最近几年流行的更复杂、识别能力更强、使用前训练时间更少的预训 练 模 型(如 Bidirectional Encoder Representationsfrom Transformers, BERT)也已开始出现[85]。从数据来源看,中医药领域的实体识别针对古籍、现代文献资料等,尤其是古今医案、病历,这可能是因为医案、病历中用于引导识别的关键字词、特征字词相对更多,并且上下文联系比纯理论的中医文献要紧密,有利于如隐形马尔可夫模型(Hidden Markov Model, HMM)、长短期记忆网络(Long Short-Term Memory, LSTM)这类需要依靠上下文信息来抽取实体的方法发挥优势。同时,相对于理论著作,医案/病历文献资料在数量上更多,特别是现代电子病历的获取相对容易,记录较完善,用语接近现代汉语,格式更规范,整理、存储与挖掘利用的需求与价值更大[86,87]。除用于构建知识产品时获取知识,实体识别在中医药领域还用于在文本挖掘、诊疗系统、知识发现、检索系统、问答系统、诊疗系统中对人机交互内容关键信息的提取[2,25,88]。
3 中医药领域关系型知识的应用
根据知识组织与存储方式的不同,中医药领域知识可分为关系型和非关系型。Mueller[97]认为关系型知识是关系的集合,将知识定义为一组描述事物的关系(即将知识形式化为关系,这里仅指二元关系 R( x,y )或xRy),而基于关系可以进行知识发现和推理等。知识图谱是一种包含节点与边,以三元组来表示和存储知识的多关系网络图,因此中医药领域知识图谱也是关系的集合。
目前中医药领域的关系型知识主要以本体[98]、语义网络[99]或知识图谱[100]等知识库的形式组织与存储。与传统知识的应用不同,关系型知识的应用更注重“关系”在检索、挖掘、推理等应用中发挥的作用,如基于关系的检索可以得到与检索关键词相关的多层次树形结构的知识。目前中医药领域关系型知识的应用包括信息检索[13]、知识挖掘[101]、诊断推理[20]、方剂推荐[102]、智能问答[4]以及知识可视化[7],其最终目的是为了展示、分享和发现知识,以更好地传承、发展中医药知识及辅助诊疗过程。在上述应用中,采用了多种关系型知识挖掘与推理的关键技术,包括基于规则的推理[20]、垂直搜索[103]、模板问答[104]、图搜索[15]、图模式匹配[105]、相似度计算[106]、链路预测[12]、路径推理[12]、关联规则[106]与机器学习[107]、深度学习技术[23]等。同时,目前被用于中医药领域关系型知识挖掘与推理的关系不仅有中医药主要概念或实体间的领域专有关系,也有通用型关系[102]。在进行知识展示、挖掘或发现时,输入的关系覆盖类型越多,可获得的信息也就越丰富,挖掘或发现的结果也会更加准确与可靠,但同时也将不可避免地面临某些关系的数据稀疏、计算或寻找最优方案的效率降低等问题。
4 讨论
4.1 存在的问题
尽管多个子领域都已开展知识图谱的构建与应用研究,但依然存在如下问题:①缺少集中管理、高度共享的语料库。所用数据各有来源,大量数据的人工标注及训练语料准备也是各自为战,重复标注语料的工作导致了人力和资源的浪费,缺少共享的语料库。②中医药古籍文本的知识抽取的研究有待加强。由于中医药古籍文本的知识抽取存在缺乏自然分词边界、名称不统一、修饰辞众多等诸多难点,目前该领域知识抽取的数据来源大多为现代文献。面向古汉语文献知识自动抽取的相关研究也比较少[108],少量研究工作也仅基于单一古籍和单一方法(主要是条件随机场(Conditional Random Fields, CRF)),其方法的可移植性与通用性未经过验证。这使得进行中医古籍文本的知识抽取研究时,可借鉴的成功经验很少,可重复利用的资源严重匮乏。③知识产品的共享与复用需要更多尝试。
大部分中医药子领域是能共用部分或全部术语体系的,并且古籍或现代文本的语法特征和抽取方法也相近,共享知识产品可以通过直接提取、复用和融合等方式加快新产品的研究进度,也可以作为知识抽取新方法探索的训练语料,或支撑下游技术研究和应用系统研制。④技术细节处理复杂。知识图谱构建和应用过程中的多个环节,都可能用到复杂的数学、计算机、信息处理等领域技术,特别是当前人工智能高速发展的时期,性能较好的技术或方法往往也意味着细节复杂、实现难度较大,对进行相关研究而又非计算机专业的中医药领域学者是一项巨大挑战。
5 小结
当前大数据和知识爆炸时代,知识图谱已成为各领域知识工程基础建设的重要方向。中医药是中华民族传统文化的宝藏,将包括古籍文本在内的巨量中医药知识转化为适应现代知识传播、分享、处理和利用方式的图谱形式存储起来,并尽可能减少信息损失、保留知识原意,对中医药文化的传承与创新发展有着不可估量的积极作用。知识图谱在中医药领域应用前景广阔,其构建与应用方法随着认知智能各项关键技术的进步会逐渐变得更加智能化、平台化、简单化,将为中医药行业知识的深度应用做出更大贡献。
作者:曾子玲1,张华敏2,于 彤1,刘思鸿1,张 磊1,高宏杰1,陈广坤1,佟 琳