面向交通与物流领域数据挖掘技术研究现状及应用综述
2022-03-21李婷婷
李婷婷
(新疆农业大学交通与物流工程学院 乌鲁木齐 830052)
1 研究背景
数据挖掘是随着编程技术的快速发展应运而生的综合性技术,人类进入信息化时代后,数据信息随着网络技术的发展和数据库系统的广泛应用,容量逐渐增大,形成信息爆炸趋势,大数据时代的到来也增加了数据处理过程所耗费的人力劳动和时间成本[1]。数据挖掘这一概念源自20世纪80年代,早期的相关研究多以基于数据库理论的知识发现(Knowledge Discovery in Database,KDD)为目标,之后数据挖掘技术在1995年于加拿大举办的“第一届知识发现和数据挖掘国际会议”中走进人们的视野[2]。数据挖掘技术所具备的从海量数据中提取相互关联及有效数据的能力,使其成为大数据时代进行数据筛选、分析和预测的核心力量。例如在社会商业活动中,频繁使用条形码和二维码技术造成了数据处理复杂化的局面,这使得商家不得不依靠数据挖掘技术对杂乱无章的数据进行处理,并有针对性地清洗数据、分析关联度,找出顾客倾向性的购物行为[3]。
在交通领域,初期的交通运输系统随着科技的发展,逐渐结合了数据通信、信息、控制和电子传感等技术,基于计算机运算系统构建了具备高效、实时、准确管理交通设施能力的智能交通系统(Intelligent Transportation System,ITS),引起了各国交通学者的重视[4]。ITS系统以交通信息采集、分析处理、转换、公布和利用为主,给交通管理控制提供多种多样的服务,其运行基础为交通信息的采集,除传统的人工调查方式外,ITS系统包含了基于道路交通检测设备的数据自动采集技术,主要包括感应线圈、超声波检测、微波检测、视频检测等检测设备,用于采集、使用交通流速度、密度、流量及道路占有率等指标。在ITS发展的时代背景下,数据挖掘技术所具备的从数据库海量数据中挖掘出数据关联、规律和模式的能力使其成为了交通领域研究者处理、分析和预测数据的核心武器[5]。
2 数据挖掘概述
数据挖掘(Data Mining)是依靠计算机技术,在海量储存数据中自动根据自身的需求,有针对性地找到有价值数据的过程。数据挖掘技术在国外已被广泛应用在医疗保险、电信、金融、体育、政府管理体系和商业等领域,而国内虽然关注到数据挖掘的起步时间较短,但是发展速度较快。相较于传统的数据分析方法,数据挖掘技术以全新的视角结合了机器学习、数理统计学、信息检索、模式识别、人工智能和数据可视化等领域,并且发挥各领域的优势从数据库中挖掘出相互关联的隐含有效信息,并且运用到各个领域[6]。数据挖掘关注度指数如图1所示,学科应用分析如图2所示。
图1 数据挖掘关注度指数分析
图2 数据挖掘学科应用分布
2.1 数据挖掘主要方法
面对海量数据时,数据挖掘过程首先要确定研究对象,明确目标可以确定相应的数据处理模型和方法。第二阶段是根据分析模型所需的参数指标对数据库的数据集进行选择,并对选取的数据进行预处理(主要针对数据质量),在此基础上根据研究需要基于选取的数据挖掘算法对分析模型进行建立、评估和分析,最后根据数据分析结果,对研究对象进行改进优化[7]。现阶段数据挖掘技术所涉及的方法主要包括人工神经网络算法、聚类分析和决策树分析法等。
2.1.1 人工神经网络算法
神经网络算法是基于仿生动物行为特征,对数据进行分布式处理的算法,其优点在于对噪声数据有着较高的承受力、较好的鲁棒性及较低的错误率,但是在运算结构上有着网络训练所需时间长、结果分析较复杂等缺点。同时人工神经网络算法有良好的并行性,且随着多种规则提取算法和网络剪枝法对其网络训练过程的优化和改善,人工神经网络在数据挖掘算法中的使用率逐步提高[8]。
其基本特征主要包括非线性、非凸性、非局限性和非常定性[9]。非线性特征表示神经网络对数据的储存量大及容错性好;非凸性表示在指定条件下,状态函数可以决定整个系统的发展方向;非局限性是指整体系统的演化行为是由数据样本中的所有单元决定,该特征仿生了人类大脑的联想能力,从而提高了算法对关联数据的分析能力;非常定性是指神经网络的学习能力,可以根据数据挖掘过程中信息种类的不同调整、更正方法,有较高的适应能力[10]。
2.1.2 聚类分析法
聚类分析法是对数据按照分析目的、数据类型和应用需求进行分组的数据挖掘算法,其可以在大、小数据集中针对不同的数据类型生成不同形状的簇,可处理高纬度的数据且对数据的解释能力较强。
K-means是聚类分析中较为经典的算法,指在N个样本的数据集中生成K个簇,在模型开始分析之前首先给定一个初始分组模式,在此基础上以反复迭代的方法改变分组,使分组方案不断优化,使用这种方法的除K-means算法外还有CLARANS算法和K-MEDOIDS算法[11]。从层次划分角度来看,聚类分析可分为分裂和凝聚两种,并且在分裂和合并时要检验大量数据记录和簇,因此伸缩性较差,比较常见的方法有CURE、BIRCH和Chameleon[12]。另外,聚类分析还可基于密度进行,与其他方法最本质的区别在于其不以距离作为相似度指标,能够在一定程度上解决基于距离的聚类算法仅能发现类球状结果的问题。
2.1.3 决策树分析法
决策树由路径、分支、决策支点和叶子组成,可直观表达对象值、属性间的映射关系。由顶部逐步向下的每一个支点都有一个具体的问题,整体决策树分析过程是对每一个支点的问题进行不同的决策,以达到不同的下分支节点,最终根据分析得出结论并做出决策[13]。决策树分析法可列举出所需的所有信息状态和期望值,挖掘过程中对目标信息在不同时间、不同层级和不同过程的作用描述比较直观,且结果描述中的阶段明显,层次较为清晰,便于数据分类,但是适用范围大小的限制及使用者的主观因素也可影响其分析结果[14]。
C4.5算法[15]是基于机器学习自动分类的决策树学习算法,也是数据挖掘技术中的重要算法之一。其原理在于结合了树状分类规则和信息熵理论,构建数据样本类型及样本属性间的映射关系[16],此外C4.5可处理数据属性值缺失的情况,现阶段已在决策树剪枝方面有了更加成熟的策略。
2.1.4 关联规则算法
关联分析是通过对相互关联事件的识别,进而预测发生该事件时另一件事件发生的概率,具体地体现出隐藏在数据库中数据项之间的相互关系或关联关系。
①关联规则基于处理变量类别,分为数值型和种类型。数值型关联规则可以结合多层关联规则和多维关联,针对结构中数值型字段进行运算;种类型关联规则多用于处理离散型、种类型的值。
②关联规则基于数据抽象层次,分为单层关联和多层关联。多层关联规则相较于单层关联规则是进行了结合实际数据的多层次考虑,使数据分析结果更加精准和具有参考价值。
③关联规则基于数据维数,分为单维关联和多维关联。单维的关联规则仅涉及到数据库中的一个维度,多维关联规则是对数据库中的数据进行多维度计算处理。
2.1.5 特征挖掘算法
特征挖掘算法是从数据库中的数据组中提取特定的数据特征式,特征是可以反映数据集的总体特征。选择较好的特征代表选择了灵活性高、计算迭代简单的模型和结果。数据的特征选择和特征工程相辅相成,有效的特征工程可代表一定的特征数据。
2.1.6 变化和偏差分析算法
偏差是一大类别的潜在有趣知识,如分类法中的非正常实例、模式类型的例外以及观察结果对理想期望的偏差等,目的是寻找参照量与观察结果之间的有效差别,偏差分析是对数据现状进行探测、历史记录或者标准计算之间的显著性偏离和变化。
偏差分析基本参数:项目计划中工作量的费用预算(BCWS),计算公式:BCWS=预算定额×计划工作量,该指标主要是用来反映计划应当完成的工作量进度。已完成工作的实际费用(ACWP)。ACWP是指项目实施过程中某阶段实际完成的工作量所消耗的费用,该指标主要是反映项目在执行过程中的实际消耗指标。
2.1.7 Web页面挖掘算法
Internet的快速发展以及Web的普及,使得Web上具有无比丰富的信息量,将数据挖掘与Web进行有效结合,形成Web挖掘。Web挖掘是从大量的Web文档和活动中随机地选取用户感兴趣的隐藏信息和潜在有用模式,Web在广告、新闻、教育、金融管理、科技政策、电子商务、政府等众多信息及超链接信息中发挥作用。Web挖掘可划分为三大类:Web内容挖掘,Web结构挖掘,Web使用记录挖掘。Web是一个成长变化速度极快,且没有固定的标准和结构的异构系统,所以为反馈真实情况,解决信息及时更新等问题,创建一个智慧化、多层化的数据库显得尤为重要,可以预期数据挖掘将因为Web的多维度分析从而成为Internet信息服务中最重要的部分。
2.2 数据挖掘的发展趋势
在数据化时代中,人们对数据的利用需求越来越大,数据挖掘技术已成为国内外的研究热点,但不同研究领域对数据挖掘运用的需求不同。例如航天航空领域,一个同步卫星平均每一小时会传输50千兆字节的遥感图像数据到地球,针对如此大规模数据,研究者开发了第一个数据挖掘系统SKICAT,这是天文学领域基于人工智能技术开发的成功应用之一[17];社会经济领域,国际上有众多基于数据挖掘技术开发的以股市分析为目的的软件,还有数据挖掘技术运用到甄别诈骗领域的实例,如FAIS、FALCON等系统可以总结转账行为和诈骗之间的联系,通过数据分析取得诈骗行为特征,并在出现诈骗行为时系统自动向决策者拉响警报[18]。综上所述,数据挖掘在各个研究领域的发展方向各有不同,数据挖掘技术的算法所使用的逻辑方法不尽相同,综合以上因素,数据挖掘的发展趋势,有以下四个方面:
(1)编程语言标准化。各个领域针对数据挖掘有不同的需求,通过语言的标准化可以促进其使用的广泛性。
(2)加强对数据库中的隐私保护。数据挖掘带来的弊端在于挖掘过程中对用户的敏感信息数据保密程度不足,如何在使用数据库中的数据时有效保护用户隐私已成为重要课题[19]。
(3)与其他先进系统集成化。数据挖掘的过程不仅仅是算法的应用,将数据挖掘和其他先进系统有机集成可以增强数据挖掘技术的优势。
(4)数据挖掘技术网络化。结合现阶段网络云技术,并基于多领域理论对目标进行多角度挖掘分析。
3 数据挖掘技术在交通领域的运用
3.1 交通控制领域
数据挖掘技术是在智能交通系统背景下,对交通控制管理起到重要作用的关键性数据分析技术。通过对数据挖掘算法的选择建立模型,可以对交通状态进行识别、交通流数据进行预处理、交通流量进行预测、实时交通流量查询和交通流空间进行聚类[20]。覃明贵[21]在此基础上运用人工神经网络算法对交通流量进行预测,通过构建交通流的模式库对之前普遍运用的交通流聚类分析法进行了优化,最后以数据挖掘技术为基础,设计实践了智能交通综合控制系统。张小利等[22]针对道路交通数据特点,结合概化数据预处理的方法,使用了基于决策树模型的关联规则方法进行交通数据挖掘,认为其得出的管理模式可向管理者提供决策支持,并以实际案例证明了智能交通系统中运用数据挖掘技术的可行性。
数据挖掘技术逐步运用到交通控制领域后,交通领域的研究者纷纷致力于根据不同需求选择和改进算法,这使得数据挖掘技术在交通控制领域开始了深层次的研究并运用。谢亚芬[23]在对智能交通系统的研究中引入了地理信息系统(GIS),对应用于交通控制领域的数据挖掘技术进行了探索,在VC++基础上实现了FP-growth,运用到实际中后得到了可行的规则,给交通决策部门提供了理论支持。夏英等[24]对智能交通系统中的时空关联规则算法进行了研究,针对交通数据的时空特征进行挖掘分析,得出的结论包含时空变化趋势、时空管理规则和时空分布等规则。虽然数据挖掘技术已在交通控制领域研究并实践,但是目前并未成为主流方法,交通控制领域的研究较看重实时性,数据集中需要有时间序列,所以未来发展中数据挖掘技术应当结合交通控制领域的特性,优化并提出新的算法应对时代的变化。
3.2 道路养护工程领域
在道路养护方面随着信息技术的发展也得到了不断优化和升级,从数据挖掘的角度看待道路养护,是指在公路养护管理过程中,结合运筹学的分析方法和现代化管理理论,在IT技术上实现道路养护管理信息平台。最初于20世纪70年代由美国和加拿大开始对道路养护管理进行研究,经过10余年的发展上述国家逐步建立起了公路养护管理系统,现阶段的公路养护系统已完成了理论至实际应用的转变[25]。
20世纪90年代,美国的亚利桑那州在之前基础上进一步细分了网级道路养护系统,设计了PAYER城市道路管理系统,使城市公路管理水平得到了提升[26]。随着数据挖掘技术被研究者引入道路养护领域,世界各国已针对道路养护工程构建了完善的体系和丰富的研究方法[27]。国内是以20世纪80年代为起点开展对道路养护的研究,同济大学通过与国外联合建立研究组,参考PAYER系统建立了关于沥青公路性能的评价指标体系、评价方法和标准,在此基础上构建了相关道路养护管理模型及方法。最初的道路养护管理系统主要分析公路的基本数据,之后优化的系统是一种道路养护架构系统,结合了实际数据和实际养护工作,基于道路动态数据对道路养护资源调配进行优化[28],现阶段是智能化的道路养护系统,可以对网状道路养护决策进行可视化分析,可以通过数据挖掘技术对决策进行合理性分析及优化[29]。
3.3 物流工程领域
现阶段物流行业在发展壮大的过程中,物流相关企业所掌握的业务信息和客户数据呈持续增长趋势,数据中除有效信息外存在大量的冗杂信息。对数据进行挖掘分析,对物流企业有着重要意义,使用数据挖掘技术可以对海量数据中的有效信息进行筛选并进行关联度分析,根据分析结果有针对性地调整企业策略,对物流结构进行优化[30]。
我国将数据挖掘技术运用在物流行业中始于20世纪90年代,研究重点随着计算机技术的发展由理论逐渐转向实际应用,当前的物流工程领域中数据挖掘技术主要运用于配送路线优化、物流中心选址、市场需求预测、商品仓储、顾客趋向分析等方面。在物流决策方面,已有学者将数据挖掘技术运用于解决物流决策问题,徐鑫涛[31]等提出了运用数据挖掘技术解决物流工程中仓储决策等问题,针对库存策略、仓储合理化和客户分析等方面进行了研究。新型的物流决策系统引入了人工神经网络算法,通过对商品销售的每个环节进行大量数据信息采集,并利用人工神经网络算法进行分析,最终得出最优经营策略[32]。在物流工程中的需求预测方面,初始阶段有学者采用运输过程中的货运量来代替需求量,也有学者从价值角度出发,使用物流流程中的服务价值构成总体价值量,来衡量物流需求[33]。现阶段有学者针对海边港口物流数据分散的特点,设计了包括决策分析平台、信息共享平台和数据采集系统的物流数据挖掘和辅助决策系统[34]。
基于上述分析,物流工程领域还包括客户关系的管理方面,主要包含客户忠诚度、满意度、价值、流失原因等分析,使用决策树方法可以对客户进行分类分析,通过之前客户的数据分析找出关联规律,并用贝叶斯、SVM、遗传算法和人工神经网络可对客户流失情况进行预测分析[35]。
3.4 交通出行服务
在现代化交通的背景下,人类出行可选择的交通方式显著增多,出行者的行为分析和建模是当前交通出行服务领域的研究热点之一。当前研究普遍使用人工仿真的方法构建出行者移动模型[36],但是在人工仿真过程中,出行距离、起讫点、出行时间等指标均按照概率密度设定,因此仿真过程中缺少实际干扰因素,不能最大程度反映真实情况[37]。Wu等[38]结合了出行者间的人际关系和交互性,提出了两种社会流动模型,模型中的出行者移动过程受多种因素影响。
因为仿真技术与实际出行行为存在差异,有更多学者将研究重点转向了数据挖掘技术。数据挖掘可通过对出行者出行轨迹的分析,得出出行意图、生活模式和出行经验等关键信息,并基于此对出行者的交通出行进行预测。Liao等[39]通过采集出行者所在位置及移动速度数据信息,预测出行者使用的交通方式,并推测其所在的交通环境。Li等[40]以社会动态关系为基础,提出马尔可夫混合位置预测法,提高了对出行者位置预测的精准度,通过对不同时段人们社交关系变化的统计,总结出不同人的个体变化相似性。
4 结论
本文首先介绍了数据挖掘技术的研究背景以及数据挖掘技术在智能交通系统中的应用情况,在此基础上分别介绍了人工神经网络、聚类分析、决策树分析、关联规则、特征挖掘、变化和偏差分析、Web页面挖掘等主要算法,阐明了上述方法的特性、优点及现有研究中对数据挖掘算法的运用,并通过梳理相关文献对数据挖掘技术发展趋势进行了简要分析。并以数据挖掘技术在交通领域的运用为主线,分别介绍了交通控制领域、道路养护工程领域、物流工程领域和交通出行服务中对数据挖掘技术的应用情况。
在对数据挖掘进行分析研究过程中,发现数据挖掘技术存在以下几个问题:
(1)数据挖掘的首要问题是如何选择合适的变量进行分析以及对数据库的数量和维数的选择。
(2)数据库中的存放数据可能存在噪声、不完全或异常情况的数据对象,导致分析过程混乱或数据与模型过分适应,从而影响模式的精确性。
(3)保持数据挖掘系统的可伸缩性和有效性是当前的关键问题。
(4)为挖掘特定模式的数据,构造特定数据挖掘系统;针对不同模型的数据,则应当制定不同模式的挖掘系统。
(5)从不同数据语言的非结构化、半结构化和结构化的数据源中发现知识,是数据挖掘领域未来值得思考的问题。
在交通领域中运用到数据挖掘技术,可以在数据分析的基础上对不同交通方式之间的关联程度进行分析,除了本文中提到的人工网络等算法,还可以将遗传算法、蚁群算法和模拟退火算法等数据挖掘方法引入交通领域,为交通管理者提供最佳的决策建议,从而提高整个交通运输系统的综合服务质量。智能交通数据挖掘是当前的研究热点,主要难点是:由于交通流的数据特殊性,现有的数据挖掘模型算法只能运用于小规模交通流数据;针对实际问题,缺乏特殊领域设计算法,无法实现挖掘结果的实际应用需求,针对这些问题需要进一步深入研究。