时间:2020年08月24日 分类:医学论文 次数:
摘要:目的 以温胆治法的清温倾向沿革为例,探索以法统方结合机器学习的中医治法研究方法。方法 根 据以法统方原理,将中医治法比较转化为方剂集合的比较,通过方剂药物组成变化研究治法的变化。建立并应 用随机森林模型,量化比较 2 组或多组方剂集合的相似性,即不同治法之间的相似性。结果 在《三因方》之 前,温胆治法与温法的相似性为 75%;在《三因方》之后,温胆治法与温法的相似性为 19%。结论 中医温 胆治法在《三因方》之前以温法为主,之后则倾向于清法。以法统方结合机器学习方法建立模型可用于中医治 法领域的量化研究。
关键词:方剂学;中医治法;机器学习;随机森林;温胆治法
以往中医治法研究多为回溯性研究,总结某个治 法筛选出的方剂集合内部的规律;其更多作为一个分 类工具,依附于其他研究对象如专病或特定医家的组 方用药等。不同治法之间的关系一直是中医方剂研究 的盲点。 以法统方是对治法和方剂关系的高度概括,包括 依法遣方、以法组方、以法释方和以法类方四方面[1]。
其数据挖掘领域的本质是对于治法与方剂组成关联数据集的研究。通过以法统方,在给定样本总体范围 内,可以将 2 种治法的比较问题转化为其所代表的 2 个方剂集合的比较。随机森林是机器学习中一种高级 分类技术,通过随机放回抽样,削弱数据间的相关性, 构建大量的规则树,进而通过简单投票判断类别,实 现对学习样本集合规则的较优拟合[2]。
与其他常见基 于连续数据的算法比较,随机森林有适用性广泛的特 点,尤其是对离散数据的拟合[3]。方剂集合的组成数 据为离散型,适合运用随机森林算法。 温胆是针对胆寒病机的治法,最早见于《备急千 金要方》“治大病后,虚烦不得眠,此胆寒故也,宜 服温胆汤方”[4],学术界对于温胆治法是温胆还是清胆有诸多讨论[5-8]。本研究基于以法统方理论,将治 法的比较转化为方剂集合的比较,再通过机器学习模 型对方剂集合进行量化比较,从而量化“温胆治法” 与温法、清法的相似程度,厘清温胆治法清温倾向的 沿革,更好地继承和理解历代医家的认识。
1 研究对象
针对温胆治法的温清倾向,“温胆治法”与“温 法”的比较可以转化为温胆治法的方剂集合与温法方 剂集合的比较(V 温胆/V 温法),“温胆治法”与“清法” 的比较可以转化为温胆治法的方剂集合与清法方剂 集合的比较(V 温胆/V 清法)。在给定样本总体范围内比较 2 个方剂集合的问题,可通过随机森林算法转化为 以一个方剂集合建模,另一方剂集合应用模型的形 式,量化比较 2 个方剂集合的相似性。
以“温胆治法” 方剂集合(V 温胆)与“温法”方剂集合(V 温法)比较 为例:先由 V 温法和“清法”方剂集合(V 清法)生成研 究范围内的温法辨别模型(F 温法),则 V 温胆/V 温法=F 温法(V 温胆)/F 温法(V 温法)=F 温法(V 温胆)。也就是近 似地建立一个含有几百个方剂学专家的辨别模型系 统,通过投票来量化 V 温胆与 V 温法的相似性,即“温 胆治法”与“温法”的相似性。同理,V 温胆与 V 清法的比较即 F 清法(V 温胆)。
2 方法与结果
2.1 模型建立
采用《中医方剂大辞典》(第一版)[9]的清法和温 法方剂组成数据,基于随机森林算法构建温法辨别模 型 F 温法,运用模型判别温胆治法对应方剂 是否属于温法,通过其被判别为温法的比例 F 温法(V 温胆)分析温胆治法与温法的相似性。同理可 获得温胆治法与清法的相似性。
2.2 数据录入
将《中医方剂大辞典》(第一版)共 15163 首具 有功用字段的方剂导入数据库。以“清热”等 50 个治法关键词检索获得清法方剂 2110 首,以“散寒” 等 39 个治法关键词检索获得温法方剂 968 首,两者 构成学习集;以“胆寒”“胆冷”“胆虚冷”“温胆” 为关键词检索获得温胆治法方剂 48 首,构成应用集。
2.3 数据清洗
排除清温并用的方剂 25 首、与胆有关的治法方 剂 1 首。提取方剂组成字段的中药,剔除剂量、炮制 和服法等信息,根据《中华人民共和国药典》[10]、《中 华本草》[11]、《中药大辞典》[12]、《中药学》[13]、《中 药别名速查大辞典》[14]对药名进行规范。
2.4 模型训练
从随机森林调参效率角度,将学习集中出现 30 次以上的中药(共 192 味)作为随机森林的构成参数。 袋外错误率是一种取代测试集的误差泛估计[15]。 使用 R 语言,调用 randomForest 包,通过不断人工调 整参数,以较低袋外错误、较高学习集正确率,选定 参数 try=19、nodesizes=15、ntree=1500,其他参数 使用默认值。通过 set.seed 保证随机模型的可重复性, 不断人工调整参数,以袋外错误率 0.09、学习集正确 率 0.96,选择为“温法辨别模型”。同理获得相同袋 外错误率和学习集正确率的清法辨别模型。
2.5 模型应用
使用温法辨别模型对应用集(温胆治法方剂集) 进行判断,获得温胆治法的总体温法相似性为 31%。 同理获得温胆治法的总体清法相似性为 69%。 在温法辨别模型、清法辨别模型判断应用产生的 数据结果基础上,以《中医方剂大辞典》(第一版) 为数据来源,补充方剂出处(方书)的成书年代,作为该方剂的出现时间。
在 1174 年以前,即《三因方》出现之前,新 增加的温胆治法方剂多倾向于温法,温胆治法与温法 的相似性为 75%,与清法的相似性为 25%,组方多为 含有肉桂、附子、乌头的温补之剂,可见温胆治法早 期主要为温法;在 1174 年及以后,即《三因方》出 现后,温胆治法方剂多倾向于清法,与温法的相似性 为 19%,与清法的相似性为 81%,尤其在明代方书整 理过程中,温胆的清法特性被加强,甚至将温胆默认 为清法,其源头为《千金》温胆汤[16],可见温胆治法 后期倾向于清法。
3 讨论
随机森林相对其他简单分类方法难以解释,只能 从结果进行逆向推测,且调参困难,对失衡分布学习 集效果不佳,故本研究在构建学习集时,尽量平衡数 据,采用样本加倍的方式构建清法学习集。随机森林 结果具有随机性,本研究通过 set.seed 保证可重复性。
针对不同模型结果不稳定问题,改进为建立 5 个同参 数不同随机数(不同 seed)的模型,各模型结果基本 与原模型结果分析无差异。 对于单个方剂,剂量、味数、炮制和服法都是影 响其清温倾向的重要属性。但对于方剂集合来说,其 中某个方剂的特殊剂量等信息对整体属性影响有限。
从大数据角度,个别偏差会被排除,药物组成是方剂 集合最主要的属性特点,因此,本研究虽然仅采用药 物组成建模进行研究,仍可大致反映方剂集合的整体 属性。如将药物剂量、味数、炮制和服法也纳入分析, 数据模型分析结果会更加全面和准确。 本研究建立的方法可运用于各种治法相似性研 究,以及基于治法相似性的古方、古法的传承脉络探 索研究。经过一定变化,可以运用于中医疾病的异名 准确性研究(如消渴各种异名的相对准确性),以及 现代病名与古代病名的对应关系研究(如骨质疏松症 对应的古代病名)。本方法变换后可应用于基于对应 方剂的各种中医基本概念量化比较,如以五脏方剂集 构成学习集,三焦方剂集构成应用集,可以从方剂组 成角度量化判断三焦与各脏的相关性。
医学论文投稿刊物:《内蒙古中医药》已经有24年的办刊历史,由内蒙古自治区卫生厅主管,内蒙古自治区中医药学会、内蒙古自治区中蒙医研究所主办的综合性中医药学术期刊。
综上所述,本研究以探索温胆治法的清温倾向历 史沿革为例,结合以法统方和机器学习,将方剂集合 量化比较问题转换为随机森林的建模和应用,进而反 映与方剂集合关联的中医治法之间的量化关系,提供 了一种新的中医治法量化研究方法。本方法尚不十分 成熟,对于将中医各种治法转化为方剂集合、方剂集 合变换为随机森林模型的过程中,如何更好地进行数 据信息的取舍,最终结果的参数评估,以及本方法在 不同研究范围内的有效性,还需要通过大量实践进一 步积累经验。
参考文献:
[1] 邓中甲.方剂学[M].北京:中国中医药出版社,2003:11.
[2] BREIMAN L. Random forests[J]. Machine Learning,2001,45(1): 5-32.
[3] 洪燕珠,周昌乐,张志枫,等.基于随机森林法的慢性疲劳证候要素特 征症状的选择[J].中医杂志,2010,51(7):634-638.
[4] 孙思邈.备急千金要方[M].北京:中医古籍出版社,1997:371.
[5] 侯志明,王艳荣.胆寒症浅析[J].内蒙古中医药,2008,27(3):21-22
作者:杨巍,文小平,郭晶磊