学术咨询

让论文发表更省时、省事、省心

基于机器学习的地层序列模拟

时间:2020年03月20日 分类:电子论文 次数:

地层结构及其分布的模拟是地质信息化研究与工程规划设计建造的迫切需求。现有的研究方法主要以钻孔数据为基础,选择插值方法进行二维剖面绘制和三维地层建模。插值方法是决定模拟结果准确程度的重要因素,但插值方法的选取受主观因素影响,缺乏科学合理性,

  地层结构及其分布的模拟是地质信息化研究与工程规划设计建造的迫切需求。现有的研究方法主要以钻孔数据为基础,选择插值方法进行二维剖面绘制和三维地层建模。插值方法是决定模拟结果准确程度的重要因素,但插值方法的选取受主观因素影响,缺乏科学合理性,难以推广应用。针对这一问题,本文提出一种基于钻孔数据进行机器学习的地层序列模拟方法,即将钻孔地层数据处理为地层类型序列与地层层厚序列,利用循环神经网络与序列-序列架构建立地层序列模拟模型。通过将模拟结果与实际钻孔数据对比分析,发现地层序列模型可以较准确地模拟地表到基岩面之间的地层类型与厚度范围。研究可为地层模拟提供新方法。

  关键词地层序列模拟;机器学习;循环神经网络;序列-序列学习

机器学习

  人工智能方向论文范文:机器学习在社会调查职业编码中的应用

  内容摘要:问卷调查一般通过开放文本题采集职业信息。这种题型虽能提供丰富信息,但数据管理复杂,需要将原始数据进行编码。传统的人工编码法耗时耗力。本文首次尝试将机器学习中两个常见分类器“朴素贝叶斯”和“支持向量机”运用在中文职业文本编码上。结果显示,它们在职业大类编码上的表现令人满意,但在职业细类上性能不足,而且在不同职业类别间性能差异很大,其中“农林牧渔水利业生产人员”和“不便分类的其他人员”的分类效果较好。

  0引言

  地层结构是漫长的地质作用的结果,在时空分布上表现为不均匀、不规则性等,但在宏观上具有统计上的规律性。弄清地层结构及其规律是地质信息化的基础,同时不良地层的分布也是工程建设的重点关注对象。如何利用有限的钻孔资料进行地层结构及分布规律的研究,是地质学与工程地质领域中的重要课题。地层结构与分布规律的研究,钻孔数据是基础,它可以提供准确的地层结构信息,但是成本高,耗时长,同时具有离散性。如何有效利用有限的钻孔数据进行地层分布规律的研究成为了人们普遍关注和探索的问题。选择不同的插值方法连接钻孔数据,绘制二维地质剖面或建立三维地质模型是模拟特定区域的地层情况的主要方法。其中,三维地质建模在地层构建上有多种选择,主要分为面模型与体模型。面模型有以数字高程表征地形空间特征的DEM模型(Songetal.,2018)和以不规则的三角网格表示地层分界面的TIN模型(Watsonetal.,2015)。

  体模型通过体元进行三维地层实体的构造,以三棱柱模型(Zhangetal.,2015)和四面体模型为主,还有周翠英等(2006)提出的块体理论。无论二维剖面图或三维地质模型,钻孔连接的插值方法有多种选择,如线性插值、多项式插值、反距离插值与克里金插值等,模拟效果存在差异。模型建模与插值方法的选取受主观因素影响,具有局限性的同时缺乏科学合理性,因而无法推广应用。如何规避主观因素,利用智能的方法对地层分布进行模拟是地质信息化研究与工程设计建设中值得探索的问题。

  机器学习近年来发展迅速,与传统的统计学观念相比,虽然两者的目的都是挖掘数据中潜在的信息,但统计学手段在探索数据规律的过程中会基于经验引入假设与建立模型,其结果具有较高的可解释性(Breiman,2001)。机器学习手段则不对数据作假设,而是检验输出与数据标签的接近程度,通过BP(BackPropagation,误差反向传导)算法不断调整参数以获得更高的准确率。当前,机器学习被广泛应用于不同研究领域当中,在图像识别、语言翻译、无人驾驶等方面取得了优秀的表现。

  在地质学与工程领域,RodriguezGalianoetal.(2015)在矿产勘查中应用决策树原理;段友祥等(2016)和Wangetal.(2017)分别利用卷积神经网络和极限学习机(ELM)与主成分析(PCA)进行了储层厚度的预测;季斌(2017)对比了多种机器学习算法进行了矿产预测;黄宏伟等(2017)基于深度学习进行了隧道渗漏水图像识别;Bhattacharyaetal.(2006)和Yangetal.(2015)进行了土壤分类的研究;张涛(2016)利用多层感知器与BP神经网络研究了化学元素与岩浆岩、沉积岩岩性及沉积岩矿物的关系;陈冠宇等(2016)、沙爱民等(2018)和程国建等(2016)分别利用卷积神经网络判断不良地质体、地表病害与岩石种类。

  另外,Zhangetal.(2011)基于高斯过程预测岩溶塌陷;Korupetal.(2014)和阙金声等(2016)进行了山体滑坡的相关研究。然而,目前国内外基于钻孔数据的地层分布机器学习研究正处于起步阶段,国内外相关研究少有报道。针对上述问题,本文提出一种基于循环神经网络原理的地层序列机器学习模拟方法,它将钻孔数据处理为地层序列数据,建立地层类型序列与地层层厚序列模型,实现基于输入钻孔坐标,能够较为准确地判断相应位置的地层信息。该方法不依赖于数据假设与专家经验等主观因素,通过与实际钻孔数据对比表明,上述模型具有较好的可行性,可应用于地质信息化研究与工程规划、设计建造等方面。

  1地层序列模拟的机器学习理论基础

  1.1循环神经网络

  地质体一般呈层状分布,具有先后关系,在空间上构成地层序列(宋仁波等,2017)。循环神经网络(RecurrentNeuralNetworks,RNN)是用于处理序列问题的神经网络。展示了RNN的结构,在“输入层-隐藏层-输出层”前馈神经网络的基础上,其隐藏层具有循环链接,每一时刻的输出与该时刻之前的历史输入相关联。

  1.2地层序列导师驱动学习

  RNN在每一时刻接收一个地层输入并给出输出。由于RNN具有“记忆性”,若当前时刻的输入存在误差,随着RNN不断的学习,误差将会不断累积。导师驱动(TeacherForcing)是一种任意时刻都采用正确序列作为输入的监督学习方法,如同导师指导学生进行学习,故称作导师驱动。然而频繁的外界干预会影响模型对于未知数据的泛化能力,在模型训练的过程中需要注意不同比例的导师驱动学习对模型的影响(Goodfellowetal.,2016)。

  2基于循环神经网络的地层数据重构

  数据是研究的基础。在进行学习前,需根据数据特点、问题特征以及数据体量等因素将原始数据重构为计算机程序可表示的,方便读取利用的形式,因此进行归一化处理、地层序列填充与地层编码等。

  2.1数据归一化

  在钻孔数据中,坐标与地层层厚之间数量级相差较大。为了保证收敛,数据需进行归一化处理,将取值范围压缩为0~1(王蕊颖等,2013;解明礼等,2016;黄震等,2017)。

  2.2地层序列填充

  利用RNN进行地层序列学习时,批量训练要求所有地层序列长度相同,同时其输出结果也是等长的,而地层层数具有多种可能。为此,引入终止标记(EndofSequence,EOS)作为虚拟地层,将地层序列填充为等长,同时作为地层序列结束的标记。在每一次训练中,RNN输出等长的地层序列,当终止标记出现时,采样过程停止,取终止标记出现前的所有序列作为预测地层序列。终止标记被当作地层的一种参与学习。此外,RNN在初始时刻没有来自上一时刻的地层信息,因此还需为地层序列添加起始标记(StartofSequence,SOS),作为RNN预测开始的信号。

  2.3地层编码

  地层类别是离散的分类值,难以直接用程序表示。独热(OneHot)编码任意时候只有一位被激活。将每一种地层用唯一的数字标记(刘兴周,2010;温继伟等,2013),并利用独热编码表示。

  3基于循环神经网络的地层序列模拟

  3.1地层类型序列模型的建立

  RNN在初始时刻没有来自上一时刻的隐藏层状态。坐标信息是一个地层序列中所有地层的共同属性。在每一次训练前,利用坐标信息对RNN进行初始状态s0的赋值,以此使坐标指导地层序列模拟。

  3.2地层层厚序列模型的建立

  地层层厚序列模型需要以地层类型为基础,连接坐标、地层类型与地层层厚等信息。因此,采取seq2iseq(sequencetosequence,序列-序列)架构,利用两个串联的RNN分别作为编码器与解码器建立地层层厚模型(Sutskeveretal.,2014;Choetal.,2014)。编码器负责处理地层类型信息,以其最后时刻的隐藏层状态作为解码器的初始状态,进而预测每一个地层类型对应的层厚区间。

  3.3地层序列模型

  地层层厚序列模型在训练的过程中采用真实地层数据作为样本,而在实际应用场景中,地层数据是未知的。将地层类型序列模型与地层厚度序列模型相连接,以地层类型序列模型的模拟结果作为地层厚度序列模型的编码器输入,从而完整预测地层序列。

  4应用实例

  4.1应用区域及其数据简介

  本文利用python语言,在Pytorch深度学习框架下进行地层序列模型的开发与验证。研究区域位于江苏省某市,面积约为3882平方千米。研究区域内的土体主要为砂土类、黏性土类以及粉土类,局部地层具有淤泥、淤泥质土。本文共涉及钻孔数据1386个,全部终止于基岩面顶部。钻孔共涉及13种地层。随机选取150个钻孔作为测试数据,其余用于训练。

  4.2地层模拟实验

  对地层类型模型与地层层厚模型进行500个回合的训练,并在每次训练结束后利用测试钻孔数据检验模型的性能。随着学习次数增多,模型的预测能力不断增强,同时进步的速度逐渐减小。最终,地层类型准确率为65.56%,平均预测序列相似度为76.14%,地层层厚准确率为66.58%,基本满足地层序列的模拟需求。

  5结论

  (1)根据机器学习理论,提出一种基于循环神经网络的地层序列模拟方法,利用钻孔数据中地层序列信息进行学习并给出了钻孔数据的重构方案。经训练,该模型的地层类型相似度可以达到79.41%,地层层厚度预测准确率可以达到71.43%,能较为准确地模拟地层情况。与传统方法相比,机器学习手段对地层序列的模拟不需要依赖数据假设与专家经验等主观因素,方法上具有通用性,可为地层结构与分布研究提供新的思路与方法。

  (2)通过进行不同比例的导师驱动学习,发现其有助于提升模型的预测能力,但不呈正相关。训练过程中过多地采用导师驱动学习会影响模型的预测表现。

  参考文献

  BhattacharyaB,SolomatineDP.2006.

  Machinelearninginsoilclassification[J].NeuralNetworks,19(2):186-195.

  BreimanL.2001.Statisticalmodeling:Thetwocultures[J].StatisticalScience,16(3):199-215.

  ChenG,AnK,LiX.2016.Identificationandclassificationofadversegeologicalbodybasedonconvolutionneuralnetworks[J].GeologicalScienceandTechnologyInformation,35(1):205-211.

  ChengGJ,GuoWH,FanPZ.2017.Studyonrockimageclassificationbasedonconvolutionneuralnetwork[J].JournalofXianShiyouUniversity(NaturalScienceEdition),32(4):116-122.