时间:2022年04月01日 分类:经济论文 次数:
摘 要:[研究目的] 对近几年多源多维数据融合相关文献进行梳理和分析,为我国数据融合领域后续的理论与实践研究提供参考。 [研究方法] 在对多源多维数据融合概念进行界定的基础上,借助 VOSviewer 软件,从理论、方法与应用三个层面进行文献回顾,重点阐述了数据融合在图情领域的应用情况,最后总结研究不足和展望发展方向。[研究结论] 当前多源多维数据融合研究存在如下不足:理论体系缺乏系统性、融合技术解决问题片面化、忽视“软数据冶融合研究等,未来可以从这些方面加以突破。
关键词:多源数据;多维数据;数据融合;神经网络;深度学习
大数据时代,信息爆炸式增长,数据的来源也越来越广泛,总的来说,可以把数据来源归纳为两大类,一类是“以物为中心冶 的各种传统传感器获取的“硬数据冶,另一类是“以人为中心冶产生的“软数据冶,如社交网络数据、web 数据、多媒体数据等。
此外,数据除来源广外,还具有多维性特征,多维主要体现在数据属性的多样性上,即对同一对象从不同视角提取的数据,如内容主题维度、类型维度、结构维度、时间维度、空间维度等。面对海量、复杂的数据,一方面难以充分挖掘出有价值的信息,另一方面单来源单维度数据难以满足辅助科学决策的需要,多源多维数据融合发展的需求越来越迫切。
与此同时,物联网、云计算、人工智能等新兴技术的发展,不仅提高了数据获取与数据分析处理的能力、促进了数据融合的发展,也增加了数据融合的研究热度。 因此,本文对多源多维数据融合的研究现状进行梳理与分析,以期为数据融合领域后续的理论与实践研究提供参考。
1 概念界定
一般来说,数据融合和信息融合通常被视为相同的概念,只是在某些情况下,数据融合用来表示处理直接从传感器获得的原始数据,信息融合则用来定义处理在原始数据基础上形成的信息[1]。 在研究文献中,与数据融合相关的术语通常还包括传感器融合、多传感器融合、知识融合、数据聚合、数据集成、数据组合等。
本文在处理过程中,将数据融合和信息融合视为了相同的概念。 数据融合这一概念最早是在 20 世纪70 年代美国军事领域内提出的,之后被广泛应用于工业、农业、交通、医疗等领域。 不同领域对数据融合的理解和运用不同,因此数据融合至今依然没有统一的定义。 目前,被普遍采纳的定义是由美国三军组织实验室理事联合会(JDL)提出的,他们认为数据融合是一种对多源数据进行检测、相关、组合和估计的多层次、多方面处理过程[2]。
Hall D L 等认为数据融合是将多种来源的数据结合起来,利用计算机进行数据处理,得到单个或单类信息源无法获得的有价值的综合信息[3]。 结合前人观点,笔者认为,多源多维数据融合是根据数据融合的目的和所处层次,选择恰当的数据融合结构和算法,通过对描述对象不同来源不同维度的数据进行抽取、清洗、分选等预处理,提取出数据特征并进行关联组合,从而得到更加准确完整信息的过程。
2 数据来源依据
论题解读,笔者以中国知网数据库为数据统计源,以“数据融合冶“信息融合冶 “多源数据冶 “多维数据冶“多源信息冶“多维信息冶为检索词,进行“篇名冶检索,限定期刊来源为北大核心、CSSCI 以及 CSCD,检索时间为 2021 年 6 月 10 日,检索结果为 5511 篇相关文献。 笔者对其年发文量进行统计,得到年发文量曲线图(注:2021 年数据不完整,截至检索日期共计 162 篇)。
1992 年以前,我国并不十分重视数据融合的研究;1992 年至 1998年,数据融合相关文献开始出现且年发文量逐渐增加,表明数据融合在我国开始受到关注,相关研究开始起步;1999 年至 2009 年,年发文量快速增长,并且在2009 年达到阶段性峰值,表明数据融合相关研究进入高速发展阶段;2009 年至今,数据融合相关文献年发文量有所回落,但总体呈平稳上升趋势,并且年发文量数值较高,表明国内学者对数据融合研究一直保持着较高的关注度,数据融合相关研究进入平稳发展阶段。
为了解国内多源多维数据融合的最新研究进展,笔者对近五年的期刊文献进行了分析,把检索时间限定为 2016 年 1 月 1 日至 2021 年 6 月 10 日,共得到1611 篇文献,对检索结果进行预处理(去重及去除不相关等)后得到紧密相关的文献 1 565 篇。 本次研究运用了文献计量学方法,借助可视化应用软件 VOS鄄viewer,对研究样本进行分析。
3 多源多维数据融合相关研究
多源数据和多维数据都是数据融合的处理对象,根据不同的分类标准可以把数据划分为多源数据和多维数据,多源数据是按照数据的来源进行划分,多维数据的划分标准是数据的属性,多来源也可以看作是多维度的一种维度,从这个意义上说,多维数据的含义高于多源数据。
一般来说,多源数据和多维数据之间没有绝对的关系,单来源的数据按照不同的性质可以划分出多个维度,同一性质的数据按照不同的来源也可以划分为多个来源,且各种来源的数据大多涉及多维度处理问题,所以在处理数据时,对数据是多源还是多维的判断通常不是绝对的。
同时分析整理文献发现,大多数多源多维数据融合研究主要针对多来源数据进行分析,集中于理论研究、方法研究以及应用研究,且不少文献把多源数据融合简称为数据融合,所以笔者主要从数据融合的理论、方法与应用三个层面展开分析。
3. 1 数据融合理论研究
大数据时代,大规模的多源多维数据关联交叉,融合处理难度大,不少学者提出数据融合面临着诸多困境。 整体来看,融合过程在融合方式变革、融合规模控制与数据存储维护方面,融合结果在用户隐私保护与实际应用对接方面,融合技术在跨领域、跨学科、跨语言以及跨媒体融合方面存在着挑战与问题[4]。
从具体领域来看,图书馆大数据融合面临着多源异构数据关联难度大、实时大数据和历史大数据融合复杂性大、对传感器系统功能性需求大、大数据安全与开放的矛盾大等挑战;高等教育发展也存在大数据融合利用效率低、利用力度不足、浪费严重、数据化水平低等困境。 部分学者针对各领域不同的发展目的提出了数据融合的途径,同时还有学者进一步对数据融合的体系建设提出了构想,如张文萍等探讨了包括数据描述模型、数据服务模型、数据管理计划等的科学数据融合体系架构[5];翟运开等从层次维、时间维和种类维三个角度构建了包括精准医疗多源异构数据融合标准体系框架[6]。
总体来说,近几年数据融合理论相关文献数量不多,研究主要集中在面临问题、融合途径以及体系建设等方面。 关于数据融合困境的研究比较片面和泛化,未来还需根据发展需求与实际情况不断剖析数据融合面临的问题与挑战;对于数据融合途径的研究比较薄弱,无论是从整体视角还是具体应用领域来看都有很大的研究空间;许多领域对数据融合体系建设的重视度不够,且没有形成广义的数据融合体系。 总之,多源多维数据融合理论不够完善,还需在理论层面进一步展开探讨,构建完整的系统理论体系。
3. 2 数据融合方法研究
受外界环境或传感器性能等的影响,各系统获得的数据存在冗余或不准确的问题,数据融合方法通过对不同形式的数据进行处理,可有效获得准确信息。 为更直观全面地反映数据融合方法的发展现状,笔者抽取与数据融合方法研究相关的文献,运用可视化应用软件 VOSviewer 构建关键词可视化图谱。 运用较多的方法是神经网络( BP 神经网络、卷积神经网络、深度学习)、D-S 证据理论、卡尔曼(Kalman)滤波、支持向量机(SVM)、遗传算法、信息熵、自适应加权、层次分析法、小波变换、粒子群算法、聚类、蚁群算法等。
(1)BP 神经网络。 BP 神经网络即反向传播神经网络,属于浅层神经网络的一种,通常由一个输入层、一个隐藏层和一个输出层组成,多层的网络体系结构使得信息的输出更加准确。 如有学者设计了一款危化品仓库巡逻机器人,在对收集的泄露危化品浓度、仓库内环境温度和湿度数据进行拉依达去噪、归一化后利用 BP 神经网络进行融合输出,大幅度提高了机器人报警的准确性和可靠性[8]。 由于外界环境的复杂性以及 BP 神经网络自身的缺陷,越来越多的学者借助优化算法,如改进蚁群算法、改进粒子群算法、启发萤火虫算法、改进烟花算法等设计 BP 神经网络数据融合算法,优化了 BP 神经网络的拓扑结构、权值和阈值,有效地减少了冗余数据传输,提高了融合的精度和收敛速度,改善了数据融合算法的性能。
(2)深度学习。 深度学习由浅层神经网络发展而来,是深度神经网络的统称,卷积神经网络、循环神经网络是深度学习中重要的算法结构。 不同于浅层神经网络,深度神经网络拥有多个隐藏层,且较低层的隐藏层输出可以作为较高层隐藏层的输入[9]。 深度学习具有更强的特征表示能力,不少学者将其运用到了数据融合算法中。 如马永军等提出了以卷积神经网络模型为核心的无线传感器网络数据融合算法,有效地提高了数据采集精度[10];张辉等提出了一种基于深度神经决策森林(DNDF)的数据融合方法,有效提取了多维数据的关键特征,解决了体域网中多传感器数据采集过程中数据冗余大、特征信息模糊的问题[11]。 总的来说,与传统数据融合算法相比,深度学习可以有效地改善高噪声、多维度、大规模、结构复杂数据的融合效果。
3. 3 数据融合应用研究分析
文献发现,数据融合应用研究是当前的重点与热点,笔者通过整理数据融合应用相关研究,运用 VOSviewer 软件构建了关键词知识图谱,数据融合应用范围十分广泛,主要用于故障诊断、遥感、目标跟踪、导航、目标检测、交通工程、目标识别、智慧城市、状态评估、图像处理、机器人、产地鉴别、定位、三维建模等。 总的来说,针对传统物理传感器的数据融合应用研究偏多,“以人为中心冶 的数据融合应用研究较为缺乏。 不同领域的数据融合应用不近相同、各有侧重,笔者对数据融合在图情领域的具体应用进行了分析。
4 总结与讨论
通过文献梳理可知,目前我国多源多维数据融合已经具有一定的研究规模,研究内容包括理论、方法与应用三个方面。 就理论研究来说,部分学者对数据融合的问题、思路与体系等给出了自己的见解;就方法研究来说,不同专业的学者对各自领域的数据融合方法进行了优化与完善;就应用研究来说,各领域根据具体问题通过建设平台、设计系统和构建模型等方式对数据融合技术有了不同程度的运用。 其中,图情领域对数据融合方法的使用更多体现在智慧服务发展、用户行为分析、信息资源建设、科学前沿识别、突发事件响应、科学评价优化等方面。当前研究依然存在以下几点不足:淤理论基础研究相对薄弱,对相关概念缺少统一的定义与认识,缺乏系统的理论基础,没有形成完整的理论体系。
于数据融合技术的发展面临着数据异构、数据不确定、数据异常和虚假、数据关联等多个方面的问题,但是大多数技术研究只是集中在解决这些问题中的部分,缺少对解决所有问题数据融合算法的整体研究。 盂应用研究主要集中在“以物为中心冶的数据融合上,缺少对“以人为中心冶的数据融合的研究,即对物理传感器等设备获得的“硬数据冶的融合研究较多,对来自社会网络、数据库等信息系统的“软数据冶或“软硬数据冶融合的研究相对较少。
同时,数据融合方法在图情领域的应用研究还处于起步阶段,发展不成熟,未来还有很大的研究空间。针对上述不足,未来研究可以考虑从以下几个方面取得进展:淤发展和完善数据融合的基础理论研究,既要有针对特定应用领域数据融合的特征、准则和方案等的理论架构,也要注重发展数据融合作为独立学科广义的融合模型与算法等系统理论体系。
于技术发展上注重改进和完善现有数据融合算法,发展多种数据融合方法结合的综合数据融合算法,增强异构数据融合算法的鲁棒性和准确度,提高数据融合的性能。盂人可以提供物理传感器无法获得的有价值的信源,要加强对“以人为中心冶的“软数据冶或“软硬数据冶融合的应用研究,进一步扩展数据融合技术在图情领域的应用。 榆构建数据融合评估方法,对数据融合系统进行多维度分析与评价。
参 考 文 献:
[1] Liu P, Chen L. A multi-source data aggregation and multidi鄄mensional analysis model for big data[C] / / ITM Web of Con鄄ferences. EDP Sciences, 2017: 05009.
[2] Steinberg A N, Bowman C L, White F E. Revisions to the JDLdata fusion model[J]. Proceedings of the Society of Photo-opti鄄cal Instrumentation Engineers, 1999, 3719:430-441.
[3] Hall D L, Llinas J. An introduction to multisensor data fusion[J]. Proceedings of the IEEE, 1997, 85(1):6-23.
[4] 孟小峰,杜治娟. 大数据融合研究:问题与挑战[ J]. 计算机研究与发展,2016,53(2):231-246.
[5] 张文萍,宋秀芬,魏银珍,等. 基于 FAIR 标准的科学数据融合体系研究[J]. 中国图书馆学报,2020,46(6):41-54.
[6] 翟运开,路 薇,张瑞霞,等. 多维集成视角下精准医疗数据融合标准体系构建[J]. 中国卫生资源,2020,23(1):23-27.
[7] Mcculloch W S, Pitts W. A logical calculus of the ideas imma鄄nent in nervous activity[ J]. Bulletin of Mathematical Biophys鄄ics, 1990, 52(1-2):99-115.
[8] 黄衍标,罗广岳,何铭金. BP 神经网络在巡逻机器人多传感器数据融合中的应用[ J]. 传感技术学报,2016,29 (12):1936 -1940.
作者:于佳会 刘佳静 郑建明