APP下载

多源多维数据融合研究态势:理论、方法与应用*

2022-05-12于佳会刘佳静郑建明

情报杂志 2022年5期
关键词:卡尔曼滤波神经网络算法

于佳会 刘佳静 郑建明

(南京大学信息管理学院 南京 210023)

大数据时代,信息爆炸式增长,数据的来源也越来越广泛,总的来说,可以把数据来源归纳为两大类,一类是“以物为中心”的各种传统传感器获取的“硬数据”,另一类是“以人为中心”产生的“软数据”,如社交网络数据、web数据、多媒体数据等。此外,数据除来源广外,还具有多维性特征,多维主要体现在数据属性的多样性上,即对同一对象从不同视角提取的数据,如内容主题维度、类型维度、结构维度、时间维度、空间维度等。

面对海量、复杂的数据,一方面难以充分挖掘出有价值的信息,另一方面单来源单维度数据难以满足辅助科学决策的需要,多源多维数据融合发展的需求越来越迫切。与此同时,物联网、云计算、人工智能等新兴技术的发展,不仅提高了数据获取与数据分析处理的能力、促进了数据融合的发展,也增加了数据融合的研究热度。因此,本文对多源多维数据融合的研究现状进行梳理与分析,以期为数据融合领域后续的理论与实践研究提供参考。

1 概念界定

一般来说,数据融合和信息融合通常被视为相同的概念,只是在某些情况下,数据融合用来表示处理直接从传感器获得的原始数据,信息融合则用来定义处理在原始数据基础上形成的信息[1]。在研究文献中,与数据融合相关的术语通常还包括传感器融合、多传感器融合、知识融合、数据聚合、数据集成、数据组合等。本文在处理过程中,将数据融合和信息融合视为了相同的概念。数据融合这一概念最早是在20世纪70年代美国军事领域内提出的,之后被广泛应用于工业、农业、交通、医疗等领域。不同领域对数据融合的理解和运用不同,因此数据融合至今依然没有统一的定义。目前,被普遍采纳的定义是由美国三军组织实验室理事联合会(JDL)提出的,他们认为数据融合是一种对多源数据进行检测、相关、组合和估计的多层次、多方面处理过程[2]。Hall等认为数据融合是将多种来源的数据结合起来,利用计算机进行数据处理,得到单个或单类信息源无法获得的有价值的综合信息[3]。结合前人观点,笔者认为,多源多维数据融合是根据数据融合的目的和所处层次,选择恰当的数据融合结构和算法,通过对描述对象不同来源不同维度的数据进行抽取、清洗、分选等预处理,提取出数据特征并进行关联组合,从而得到更加准确完整信息的过程。数据融合的具体流程如图1所示。

图1 多源多维数据融合流程

2 数据来源

依据论题解读,笔者以中国知网数据库为数据统计源,以“数据融合”“信息融合”“多源数据”“多维数据”“多源信息”“多维信息”为检索词,进行“篇名”检索,限定期刊来源为北大核心、CSSCI以及CSCD,检索时间为2021年6月10日,检索结果为5 511篇相关文献。笔者对其年发文量进行统计,得到年发文量曲线图,如图2所示(注:2021年数据不完整,截至检索日期共计162篇)。通过图2可以看出,1992年以前,我国并不十分重视数据融合的研究;1992-1998年,数据融合相关文献开始出现且年发文量逐渐增加,表明数据融合在我国开始受到关注,相关研究开始起步;1999-2009年,年发文量快速增长,并且在2009年达到阶段性峰值,表明数据融合相关研究进入高速发展阶段;2009年至今,数据融合相关文献年发文量有所回落,但总体呈平稳上升趋势,并且年发文量数值较高,表明国内学者对数据融合研究一直保持着较高的关注度,数据融合相关研究进入平稳发展阶段。

图2 我国数据融合相关论文年发文量曲线

为了解国内多源多维数据融合的最新研究进展,笔者对近5年的期刊文献进行了分析,把检索时间限定为2016年1月1日至2021年6月10日,共得到1 611篇文献,对检索结果进行预处理(去重及去除不相关等)后得到紧密相关的文献1 565篇。本次研究运用了文献计量学方法,借助可视化应用软件VOSviewer,对研究样本进行分析。

3 多源多维数据融合相关研究

多源数据和多维数据都是数据融合的处理对象,根据不同的分类标准可以把数据划分为多源数据和多维数据,多源数据是按照数据的来源进行划分,多维数据的划分标准是数据的属性,多来源也可以看作是多维度的一种维度,从这个意义上说,多维数据的含义高于多源数据。一般来说,多源数据和多维数据之间没有绝对的关系,单来源的数据按照不同的性质可以划分出多个维度,同一性质的数据按照不同的来源也可以划分为多个来源,且各种来源的数据大多涉及多维度处理问题,所以在处理数据时,对数据是多源还是多维的判断通常不是绝对的。同时分析整理文献发现,大多数多源多维数据融合研究主要针对多来源数据进行分析,集中于理论研究、方法研究以及应用研究,且不少文献把多源数据融合简称为数据融合,所以笔者主要从数据融合的理论、方法与应用三个层面展开分析。

3.1数据融合理论研究大数据时代,大规模的多源多维数据关联交叉,融合处理难度大,不少学者提出数据融合面临着诸多困境。整体来看,融合过程在融合方式变革、融合规模控制与数据存储维护方面,融合结果在用户隐私保护与实际应用对接方面,融合技术在跨领域、跨学科、跨语言以及跨媒体融合方面存在着挑战与问题[4]。从具体领域来看,图书馆大数据融合面临着多源异构数据关联难度大、实时大数据和历史大数据融合复杂性大、对传感器系统功能性需求大、大数据安全与开放的矛盾大等挑战;高等教育发展也存在大数据融合利用效率低、利用力度不足、浪费严重、数据化水平低等困境。部分学者针对各领域不同的发展目的提出了数据融合的途径,同时还有学者进一步对数据融合的体系建设提出了构想,如张文萍等探讨了包括数据描述模型、数据服务模型、数据管理计划等科学数据融合体系架构[5];翟运开等从层次维、时间维和种类维三个角度构建了包括精准医疗多源异构数据融合标准体系框架[6]。

总体来说,近几年数据融合理论相关文献数量不多,研究主要集中在面临问题、融合途径以及体系建设等方面。关于数据融合困境的研究比较片面和泛化,未来还需根据发展需求与实际情况不断剖析数据融合面临的问题与挑战;对于数据融合途径的研究比较薄弱,无论是从整体视角还是具体应用领域来看都有很大的研究空间;许多领域对数据融合体系建设的重视度不够,且没有形成广义的数据融合体系。总之,多源多维数据融合理论不够完善,还需在理论层面进一步展开探讨,构建完整的系统理论体系。

3.2数据融合方法研究受外界环境或传感器性能等的影响,各系统获得的数据存在冗余或不准确的问题,数据融合方法通过对不同形式的数据进行处理,可有效获得准确信息。为更直观全面地反映数据融合方法的发展现状,笔者抽取与数据融合方法研究相关的文献,运用可视化应用软件VOSviewer构建关键词可视化图谱(图3)。分析图3可知,运用较多的方法是神经网络(BP神经网络、卷积神经网络、深度学习)、D-S证据理论、卡尔曼(Kalman)滤波、支持向量机(SVM)、遗传算法、信息熵、自适应加权、层次分析法、小波变换、粒子群算法、聚类、蚁群算法等。

3.2.1 基于神经网络的数据融合 心理学家Mcculloch和数学家Pitts于1943年提出神经网络概念和M-P模型,自此拉开神经网络研究的序幕[7]。神经网络是模仿人脑进行信息处理的算法,具有强大的自学习、自适应、非线性匹配和信息处理能力,并且随着算法的改进,在浅层神经网络的基础上,深度神经网络被提出并不断发展。

图3 数据融合方法相关文献的关键词知识图谱

a.BP神经网络。BP神经网络即反向传播神经网络,属于浅层神经网络的一种,通常由一个输入层、一个隐藏层和一个输出层组成,多层的网络体系结构使得信息的输出更加准确。如有学者设计了一款危化品仓库巡逻机器人,在对收集的泄露危化品浓度、仓库内环境温度和湿度数据进行拉依达去噪、归一化后利用BP神经网络进行融合输出,大幅度提高了机器人报警的准确性和可靠性[8]。由于外界环境的复杂性以及BP神经网络自身的缺陷,越来越多的学者借助优化算法,如改进蚁群算法、改进粒子群算法、启发萤火虫算法、改进烟花算法等设计BP神经网络数据融合算法,优化了BP神经网络的拓扑结构、权值和阈值,有效地减少了冗余数据传输,提高了融合的精度和收敛速度,改善了数据融合算法的性能。

b.深度学习。深度学习由浅层神经网络发展而来,是深度神经网络的统称,卷积神经网络、循环神经网络是深度学习中重要的算法结构。不同于浅层神经网络,深度神经网络拥有多个隐藏层,且较低层的隐藏层输出可以作为较高层隐藏层的输入[9]。深度学习具有更强的特征表示能力,不少学者将其运用到了数据融合算法中。如马永军等提出了以卷积神经网络模型为核心的无线传感器网络数据融合算法,有效地提高了数据采集精度[10];张辉等提出了一种基于深度神经决策森林(DNDF)的数据融合方法,有效提取了多维数据的关键特征,解决了体域网中多传感器数据采集过程中数据冗余大、特征信息模糊的问题[11]。总的来说,与传统数据融合算法相比,深度学习可以有效地改善高噪声、多维度、大规模、结构复杂数据的融合效果。

3.2.2 基于统计推理的数据融合

a.D-S证据理论。D-S证据理论于1967年被Dempster提出[12],后又经Shafer完善推广[13],是一种不确定性推理的方法,能够高效的处理复杂和不确定信息,在数据融合领域发挥着重要的作用。有学者从维修性数据源中挖掘样本量和分布特征等信息构建证据,采用D-S理论合成证据作为权重,建立了维修性多源数据融合模型[14];还有学者针对海量数据节点产生和传输中的不确定性,提出在物联网节点加权的基础上用D-S证据理论对数据进行融合[15]。D-S证据理论可以很好地表达和处理不确定信息,然而在挖掘多源数据特征合成证据构建数据融合模型时,需要特别注意冲突数据的融合问题,注重考虑合成规则的适用性、运算量的适中性以及融合结果的正确性等。

b.支持向量机理论。支持向量机是Vapnik于20世纪90年代提出的一种算法[16],以统计学习理论为基础,从线性可分的情况下寻找最优分类面发展而来,主要用来进行分类和回归分析,在数据融合中有着一定的运用。如蔡世清等以支持向量机为学习机来预测多传感器信任度,使得提出的多传感器数据融合算法具有更高的预测精度和收敛速度[17];郑毅等提出基于多任务支持向量机的多源健康数据融合方法,有效地融合了具有不同数据源个数的多源数据,且该方法具有较好的分类性能与结构稀疏性[18]。总之,支持向量机分类和回归分析的精确度较高,提高了数据融合算法的性能。

3.2.3 基于估计理论的数据融合 估计理论方法可以分为线性估计技术与非线性估计技术,为复杂的数据融合过程提供了强大的方法支撑。其中,线性估计技术包括卡尔曼滤波、小波变换、最小二乘等,经典的非线性估计技术有扩展卡尔曼滤波(EKF)和无迹卡尔曼滤波(UKF)等。

a.线性估计技术。卡尔曼滤波方法是Kalman在1960 年提出的[19],是一种对信息系统当前的状态进行最优估计的算法,一些学者用其帮助解决数据融合系统中信息误差的估计问题。如段杰等利用卡尔曼滤波算法对农业大棚环境参数进行数据级的融合处理,去除了数据采集中噪声的影响,使得测量的结果更加稳定、融合精度更高[20];杨丹等采用卡尔曼滤波算法,设计了融合陀螺仪、加速度计和磁强计多种传感器信息的机器人姿态测量系统,实现了对机器人实时姿态的精确测量[21]。卡尔曼滤波算法具有较强的容错能力,但也存在着系统参数数量影响计算效率、不能处理非线性问题、对状态空间模型的精准度依赖较高的不足,要想进一步提高融合精度,需不断优化和改进卡尔曼滤波算法。

b.非线性估计技术。卡尔曼滤波算法无法对非线性系统的状态进行估计,为解决这一问题,有学者提出了扩展卡尔曼滤波算法[22],该算法一经提出便得到了广泛应用。如为获取准确、可靠的航向和姿态信息实现非线性系统的自主导航,卢艳军等采用扩展卡尔曼滤波算法进行姿态角和航偏角估计[23]。然而,对非线性强度高的系统状态估计时,扩展卡尔曼滤波算法存在较大的误差,于是精度更高、收敛性更好的无迹卡尔曼滤波算法被提出,并被一些学者应用于数据融合中,如孟阳等设计了基于无迹卡尔曼滤波的多传感器最优数据融合方法,用于处理非线性特征明显的组合导航系统的数据融合问题[24]。总的来说,扩展卡尔曼滤波和无迹卡尔曼滤波是适用于非线性系统状态估计的近似估计方法,近年来在数据融合领域得到了学者的大量关注与研究。

3.2.4 基于综合方法的数据融合 为了提高数据融合方法的性能,增强其适用性,数据融合方法呈现出不断改进且朝着综合方向发展的特点,具体表现为将几种常见的融合方法结合起来。如为提高数据融合结果的速度和精确度,有学者将长短时记忆网络、BP神经网络和模糊推理与卡尔曼滤波相结合[25];或将粗糙集理论与支持向量机相结合[26]。此外,为提高数据融合可信度,还有学者将卡尔曼滤波原理和基于多层感知机的神经网络预测法应用到误差协方差估计中[27]。可见,各种数据融合方法取长补短,发挥各自的特点与优势,得到了优于单一方法的融合结果。

3.3数据融合应用研究分析文献发现,数据融合应用研究是当前的重点与热点,笔者通过整理数据融合应用相关研究,运用VOSviewer软件构建了关键词知识图谱(见图4)。根据图4可知,数据融合应用范围十分广泛,主要用于故障诊断、遥感、目标跟踪、导航、目标检测、交通工程、目标识别、智慧城市、状态评估、图像处理、机器人、产地鉴别、定位、三维建模等。总的来说,针对传统物理传感器的数据融合应用研究偏多,“以人为中心”的数据融合应用研究较为缺乏。不同领域的数据融合应用不近相同、各有侧重,笔者对数据融合在图情领域的具体应用进行了分析。

3.3.1 驱动智慧服务深入发展 大数据时代,智慧服务的发展离不开多来源多维度数据的支撑,数据融合技术为分析处理这些数据提供了有效途径,受到了不少专家学者的关注,如蒲泓宇等通过对政务多源信息筛选整合,构建了政务协同网络,助力政务服务智慧化发展[28]。还有学者构建了产业竞争情报多源数据融合框架,推动了竞争情报智慧检索、个性化推荐、专项定制以及智慧预测四种产业竞争情报智慧服务方式的发展[29]。智慧化发展是当今时代发展的趋势,多源多维数据融合在智慧服务方面的应用依然有很大的潜力,未来可以从各领域智慧服务的具体问题切入,不断增强数据融合应用的广度与深度。

图4 数据融合应用研究关键词知识图谱

3.3.2 促进用户行为综合分析 数据融合在用户行为方面的应用主要是通过构建用户行为特征提取模型,预测用户潜在需求,为用户提供个性化、精准化服务。如孟凡会等利用深度学习算法将多源用户痛点信息进行融合,建立了用户痛点信息核心词库和指标词库,以达到预测用户需求发展动向的目的[30];张继东等在移动社交网络用户行为感知中加入了多源融合数据,使得对用户行为习惯的分析更加准确[31]。融合多源多维数据可以提高用户行为感知的精准性,但是用户类型不应该局限于移动社交网络人员。

3.3.3 助力信息资源创新建设 大数据时代各个机构或者系统中存在着许多丰富且高质量的数据,如何对这些多来源多维度数据进行挖掘与使用成为资源建设的重点与难点,基于此,不少学者关注到了数据融合方法。如有学者通过判定和总结公共文化服务机构年报文档的格式、文本结构和特定数据项的上下文特征,对各类年报数据建立了模板进行匹配并抽取[32];还有学者在人物专题数据库的建设与实现过程中注重数据关联,融入了多源数据和自建数据,推动了数据库建设由数字化向数据化方向发展[33]。总的来说,数据融合方法拥有着强大的数据分析与治理能力,为文化等信息资源的建设开辟了良好的路径。

3.3.4 推动科学前沿精准识别 及时探测、识别科学研究主题的最新前沿有利于科研管理者进行科学决策,但目前相关研究主要是依据期刊论文展开分析,单一的数据分析结果不能全面科学的反映研究领域的整体状况。因此,有学者结合传统LDA算法和Word2vec词聚类算法的优点,提出了LDA2vec模型,注重多源文本,将论文与专利结合起来进行主题热点分析[34];还有学者在专利、论文信息的基础上,又融入舆情信息,借助情感分析法、熵值法、CRITIC法、LDA模型法综合识别新兴技术主题[35]。此外,张维冲等还增加了图书、基金项目、行业报告、政策等多种数据源,分析多源数据的时序性、主题内容和主题关联,以区块链技术为例进行发展趋势识别[36]。从现有研究来看,运用数据融合技术从多源文本中识别科学前沿,结果更加高速、全面和准确。

3.3.5 提高突发事件响应效率 为提高突发事件快速响应效率,降低突发事件导致的损失,不少学者运用数据融合方法从不同角度对突发事件进行了研究。如朱鹏等从信息瀑布溯源角度出发,设计了基于时间序列与信息融合的信息瀑布溯源模型,探究突发事件信息瀑布发生发展的演进过程[37];徐绪堪等对大量异构复杂的突发事件多源数据构建信任函数,量化多源数据的可信度和关联度,帮助获取明晰和精准的突发事件决策需求[38]。总之,突发事件多源数据具有动态性、异构性以及不确定性等特点,借助数据融合方法可以更好地抓取和分析数据,探究多源数据的可信度,为突发事件信息瀑布源头寻找以及科学决策等提供有价值的信息。

3.3.6 助推科学评价全面优化 随着大数据、人工智能等新技术的发展,科学评价越来越朝着全面化、智能化方向发展,数据融合技术也不断地被应用到多源、多维综合指标的建设过程中。如宋新平等综合财务数据和消费者评论数据,建立了基于财务特征和综合特征的竞争对手评价模型,用于解决传统企业竞争对手评价研究中数据源单一和评价指标片面的问题[39]。单一的数据源已经不能准确反映作者影响力、企业竞争对手等的全貌,也不利于评价指标的合理建立。科学评价越来越需要多来源的综合信息,基于数据融合方法建立评价模型具有现实意义与应用价值。

4 总结与讨论

通过文献梳理可知,目前我国多源多维数据融合已经具有一定的研究规模,研究内容包括理论、方法与应用三个方面。就理论研究来说,部分学者对数据融合的问题、思路与体系等给出了自己的见解;就方法研究来说,不同专业的学者对各自领域的数据融合方法进行了优化与完善;就应用研究来说,各领域根据具体问题通过建设平台、设计系统和构建模型等方式对数据融合技术有了不同程度的运用。其中,图情领域对数据融合方法的使用更多体现在智慧服务发展、用户行为分析、信息资源建设、科学前沿识别、突发事件响应、科学评价优化等方面。

当前研究依然存在以下几点不足:a.理论基础研究相对薄弱,对相关概念缺少统一的定义与认识,缺乏系统的理论基础,没有形成完整的理论体系。b.数据融合技术的发展面临着数据异构、数据不确定、数据异常和虚假、数据关联等多个方面的问题,但是大多数技术研究只是集中在解决这些问题中的部分,缺少对解决所有问题数据融合算法的整体研究。c.应用研究主要集中在“以物为中心”的数据融合上,缺少对“以人为中心”的数据融合的研究,即对物理传感器等设备获得的“硬数据”的融合研究较多,对来自社会网络、数据库等信息系统的“软数据”或“软硬数据”融合的研究相对较少。同时,数据融合方法在图情领域的应用研究还处于起步阶段,发展不成熟,未来还有很大的研究空间。

针对上述不足,未来研究可以考虑从以下几个方面取得进展:a.发展和完善数据融合的基础理论研究,既要有针对特定应用领域数据融合的特征、准则和方案等的理论架构,也要注重发展数据融合作为独立学科广义的融合模型与算法等系统理论体系。b.技术发展上注重改进和完善现有数据融合算法,发展多种数据融合方法结合的综合数据融合算法,增强异构数据融合算法的鲁棒性和准确度,提高数据融合的性能。c.人可以提供物理传感器无法获得的有价值的信源,要加强对“以人为中心”的“软数据”或“软硬数据”融合的应用研究,进一步扩展数据融合技术在图情领域的应用。d.构建数据融合评估方法,对数据融合系统进行多维度分析与评价。

猜你喜欢

卡尔曼滤波神经网络算法
基于深度强化学习与扩展卡尔曼滤波相结合的交通信号灯配时方法
基于递归模糊神经网络的风电平滑控制策略
哪种算法简便
脉冲星方位误差估计的两步卡尔曼滤波算法
神经网络抑制无线通信干扰探究
Travellng thg World Full—time for Rree
基于神经网络的中小学生情感分析
卡尔曼滤波在信号跟踪系统伺服控制中的应用设计
进位加法的两种算法
根据问题 确定算法