时间:2020年03月07日 分类:科学技术论文 次数:
摘要:基于矿物加工研究的历史数据,运用数据挖掘技术的分类与关联规则功能的典型算法,女叮48算法和Apriori算法,从MYSQL数据库中调用与某一主题相关的矿物数据,经预处理后进行挖掘处理,得到潜在的、对人们有用的信息与知识。以判断铜硫硫化矿中硫元素是否回收为例,简单介绍了如何将传统矿物加工工艺与现在信息化技术相结合。研究结果可为将来深入研究奠定基础。
关键词:传统矿物加工工艺;数据挖掘技术;MYSQL数据库;硫元素;规则知识
矿物论文投稿刊物:《矿物学报》是我国最有影响的矿物学专业核心期刊,季刊,国内外公开发行。推动国内外矿物学工作者之间学术思想和科研成果交流,促进我国矿物学事业的发展。
随着信息化技术的飞速发展,如何将传统的选矿技术研究与现代信息化技术相结合已成为当今的一个研究热点。传统选矿方法开发周期长,若遇到相同或不同矿石,试验过程中均需要做大量的重复性工作,导致了大量人力、物力和财力的浪费,并且试验人员的宝贵经验难以得到传承,造成这些问题的主要原因之一就是大量历史选矿试验数据、工艺矿物学数据等没有得到有效利用。为此,孙传尧院士等E提出了“基因矿物加工工程”的概念并将其付诸实施,为矿物加工的发展指引出了一个新的研究方向。本文主要对“基因矿物加工工程”中的智能决策作研究,以近十几年来铜硫硫化矿选矿报告数据为基础,利用数据挖掘技术从海量的、不完整的、含噪声的数据中,挖掘出人们事先不知道的但潜在有用的信息和知识。
1数据挖掘概述数据挖掘是从大量的、不完整的、含噪声的数据中发现隐含的、人们事先不知道的、但又潜在有用的知识的过程⑵。其主要特点是能够从海量数据中抽取出辅助决策的关键性知识。由于数据库中存在大量的数据,因此,能够充分利用这些数据并能发现有价值的信息非常重要,而数据挖掘技术正是为解决这个问题而出现的⑶。
2数据挖掘的基本过程及算法介绍
2.1数据挖掘的基本过程
数据挖掘的对象不是原始数据,是经过一定选择、预处理和转换之后的数据⑷。
2.1.1确定数据对象用于数据挖掘的数据主要来自北京矿冶科技集团有限公司矿物所提供的铜硫硫化矿选矿研究报告中的历史数据。
2.1.2矿物数据准备根据主题,把相关数据存储到MYSQL数据库中,相关主题主要有是否脱泥、是否预浮、铜硫元素是否回收、矿石类型、精矿类型、磨浮段数、铜快浮、铜硫混浮、铜硫优先等,这里主要以硫元素是否回收为主题。
2.1.3数据挖掘进行数据挖掘时,不同的挖掘算法对预处理后数据类型有不同的要求,在进行数据挖掘之前,常需对数据进行转换处理,以满足不同算法的要求。
2.1.4结果分析
挖掘产生的规则知识,并不完全符合我们的要求,需要我们对其进行分析讨论后,从中选择出对我们有用的规则知识。
2.2算法介绍
数据挖掘的主要功能有分类回归、聚类、关联规则和主成分分析等,每种功能都有几种乃至数十种算法,这里主要介绍此次利用的两种典型算法,J48算法和Apriori算法。
2.2.1J48算法&旳在WEKA平台中把C4.5算法的实现命名为J48算法,以下均称为J48算法。J48算法是由RossQuinlan发的用于产生决策树的算法,该算法是对ID3算法的一个扩展。决策树算法是一种比较有代表性的有监督学习算法,有监督学习就是提供一组训练样本,每个样本都有一个类别和一组属性,类别属性值是预先知道的,通过归纳得到一个分类模型,利用这个规则模型能够对测试样本进行分类。决策树J48算法是近几年最为流行的一种算法,在数据挖掘的分类问题中已得到广泛应用。
3数据挖掘处理
为了将传统的矿物加工技术与现代信息化技术相结合,利用近几年新兴的数据挖掘技术从铜硫硫化矿研究报告的历史数据中挖掘出隐含的、潜在的对我们有用的信息与知识。研究主要围绕着硫元素是否回收的问题,简单地介绍如何利用分类算法J48和关联规则Apriori算法从铜硫硫化矿研究报告历史数据中挖掘出有用规则知识的过程。此次数据挖掘共收集了18份研究报告的20组数据进行试验。影响硫元素是否回收的主要因素有硫的化学含量、含硫矿物的矿物含量和硫矿物V0.01mm的含量。
3.1硫元素回收之Apriori算法
Apriori算法要求的数据类型均为标称型,并且数据中存在空缺值,因此在数据挖掘之前对其进行预处理操作,去除数据中含有空缺值的记录并对其进行离散化处理。利用上述预处理后的数据对其数值型数据进行分箱操作,即离散化处理。选用Associate功能中的Apriori算法,保持默认的参数不变,对预处理后的数据进行挖掘处理,并不是所有规则都符合我们的要求,需要我们从中选择出对我们有用的规则知识。以第九条规则为基础,简单的介绍下此类规则的意义。式中==>符号两侧的数据分别称为前件和后件,前件的数字6代表着前件在以上16条记录中出现了6次,后件的数字6代表着在满足前件的记录中,也有6条记录符合此条规则,所以它的置信度conf=l,即在满足前件的条件下,一定能得到后件的结果。
4结论
1)J48算法数据拟合度高,Apriori算法主要挖掘数据之间的关联关系,需要我们从大量的规则中寻找对我们有用的知识。2)主题相关数据的质量直接影响着数据挖掘产生结果的好坏,数据预处理在其中扮演着不可替代的重要作用。3)从对铜硫硫化矿选矿硫元素是否回收这一主题进行数据挖掘的结果来看,能够将数据挖掘技术应用于传统的矿物加工领域,通过二者的结合,挖掘出对我们有价值的规则知识来辅助我们进行决策。4)研究结果可为将来进一步研究奠定基础。