数据挖掘技术在公路汽运中的应用
2015-08-02李莉
李 莉
(内蒙古乌兰察布市运输管理处)
1 前 言
公路汽运是一个国家的基础性和服务性产业。在2013年6月20日,我国交通运输部总规划师戴东昌在新闻发布会上表示,我国公路交通承担78.2%的货运量和93.5%的客运量。与改革开放初期相比,我国汽车客运量和货运量都增长了百倍之多,但我国公路汽运依然存在着基础设施差、路网密度低、运输车辆不合理以及各地区发展不均衡等问题。
通过应用数据挖掘技术,我们通过分析可以为管理者们提供一个科学的管理方法,这对公路汽运是相当重要的,这就可以在同等条件下把公路汽运的安全性、快速性等提高一个水平。
2 数据挖掘技术的介绍
数据挖掘技术指的是从统计过的大量相关数据中搜索出隐藏的有用信息,它通常和计算机技术、统计学、在线分析处理技术、情报检索以及专家系统相结合来实现目标。
整个工作可分为三个阶段:1.数据准备;2.数据挖掘;3.结果表达和解释(下图1 为数据挖掘结构图)。
图1 典型的数据挖掘系统结构图
目前我们赋予数据挖掘的任务包括:关联分析、聚类分析、分类分析、特异群组分析和演变分析等。这项技术已经被广泛应用于商务管理、生产控制、市场分析以及科学探索等领域。下面的这个例子为我们生动的诠释了数据挖掘技术的独到之处。
在美国一家沃尔玛连锁超市中,货架员将尿布和啤酒摆在一起出售,虽然让人不可思议,但结果却是尿布和啤酒销量都增加了。究其原因,主要是数据处理技术的功劳。原来,沃尔玛拥有庞大的数据仓库系统,为了能够准确了解顾客的购买习惯,沃尔玛对每个顾客的购物篮进行了分析,结果发现跟尿布一起购买最多的商品竟然是啤酒。分析师最终找到了出现这种奇怪现象的原因:原来美国的很多年轻父亲下班后经常要去超市给自己的孩子买尿布,顺带着把喜欢的啤酒也买了。超市将尿布和啤酒摆在距离不远的货架后,成功将那些对啤酒需求欲望不是太高的顾客俘获。
从上述事例中我们可以看出数据挖掘系统可将人们不会想到的事情联系到一起,所取得的效果也是出乎意料的。
3 数据挖掘技术在公路汽运中的应用
此前的数据挖掘技术已经在交通管理中得到了广泛的应用,并且挖掘出了很多因素潜在的关联性和规则性。公路汽运作为交通中的主要组成,相应的数据挖掘技术建立也会较为简单,而且很多数据还可以和交通管理实现数据共享。此项技术必将能够带动我国公路汽运的安全性、合理性更进一步的发展。
3.1 公路汽运线路方案中数据挖掘技术的应用
公路汽运线路优化可充分利用现有的时间、财务和资源,以最佳的运输方式、运输线路、最低的运输成本、最高的质量和最快的速度来完成最终的运输目的。目前,我国公路汽运中存在很多不合理之处。
(1)对流运输:指同类或相互代替的货物相向运输,它是最为突出和普遍的一种不合理的运输形式。其实质是出现了额外的车辆行走里程,增加了不必要的运费。
(2)迂回运输:由于路径选择不当导致没走最短的路径。
(3)重复运输:将可以直线运输的货物经不必要的中转,这种现象浪费装卸劳力,增加作业负担,而且增加了运送时间和出入手续,这些都增加了运输成本。这种不合理的运输形式在当前快递中最为常见。
(4)回程为空车:运输目的达到后回程时空车行驶。这种也会浪费很多运力。
下面我们说一下公路汽运线路方案中数据挖掘技术应用的大致流程。
①相关数据的采集。
首先,要进行数据的采集工作,主要包括:汽车运输的成本、耗时、耗油量、行程量、货运量(客运量)、行车环境、货物种类等。在采集数据时应符合几个原则:a 直观性。即所有的参数应易于理解,记录时也按照一定顺序进行;b 便利性。数据的采集工作应该在动员人数、设备最少的条件下进行,最好是在常规交通数据采集下就可完成的;c 经济性。数据的采集量是很大的,其费用开销也不能过大;d 可靠性。数据采集时应避免在特殊天气或背景下进行,保证数据的普遍性、可靠性。
②数据的挖掘和分析。
通过应用数据挖掘技术,我们可以挖掘出汽车运输的成本、耗时、耗油量等因素之间的关系,绘制出它们的拟合曲线,找出各个量之间的关系。
③结果的表达
通过进行数据挖掘,可以更加全面直观的了解各个因素之间的相互影响关系,为决策者提供有效的技术支持,这样就可以有效减少公路汽运中线路安排不合理现象的存在。
3.2 数据挖掘技术在公路汽运安全性上的应用
交通安全始终是人们和各级政府时刻关注的话题,根据权威部门统计:多年以来我国每年的交通事故死亡人数均超过10 万人,造成的财产损失超过400 亿,高居世界第一。安全性也事关公路汽运产业的兴亡,而通过使用数据挖掘技术,决策者调整相关政策,可以使公路汽运安全性有所提高。
(1)数据采集。
影响公路汽运安全的因素包括很多,其中各个因素中又包含很多小的因素,例如:人为因素(人为因素又包括年龄、性别、学历等)、车辆因素(包括车龄、车型、电气设备情况等)和环境因素(包括道路等级、天气影响、地形地貌等)等等。在数据采集时应注意分类清楚,便于以后的处理。
(2)数据挖掘。
在对公路汽运安全性因素上进行数据挖掘时,我们采用的是关联法则中的经典算法—Aprior 算法,其核心思想是基于两阶段频繁集思想的递推算法。Aprior 算法将发现关联规则分两步进行:①通过迭代,检索出数据库中的所有频繁项集(不包括用户为选择的范围);②利用检索出的频繁项集构造出用户最小信任度的规则。其步骤可简化为:创建数据库→频繁项集表→交通事故关联规则→关联规则结果。
(3)结果的表达。
通过数据挖掘,我们可以找出影响公路汽运安全性的最大因素,以及这些因素之间的关联,其结果很可能是意想不到的,例如:我们的主观意念都是觉得驾龄越少,其事故率越高,然而交通管理部门对事故数据库经过进行数据挖掘,发现驾龄在6 ~10年的老司机才是名副其实的“马路杀手”。所以,得到分析结果后相关领导应及时采取改进措施。
3.3 数据挖掘技术在公路汽运站点布局规划中的应用
汽运站点的合理与否将会大大影响客运量情况,更加人性化的站点布局也会使“提倡绿色出行,发展公共交通”的政策实施起来更加容易。在平时我们布局公路汽运站点时,一般是等距离平分这段线路,这就存在很多不合理的地方,例如:在居民较为稠密的地方没站点,还得步行一段距离,这必然导致很多人选择其他的交通方式;而有的站点周围根本没有对汽车需求很强烈的群体。这样公路汽运的作用就会大打折扣,所以对此问题应用数据挖掘技术较为紧迫。
对公路汽运的站点布置应该由乘客的实际需求度决定。我们可以对乘客(包括身份、年龄、性别等)、周边居民区和公共场所(学校、医院等)等相关数据进行采集,建立数据库。然后建立相关算法,对数据库进行数据挖掘。
目前,我国各大城市对公交站点、汽车站的位置进行了适当调整,很多城市实现了交通工具之间的“无缝对接”以及“百米距离内换乘”。只有站点布局更为合理了,才可以使得公路汽运在国家提倡“节能减排”的时候大显身手。
4 结束语
随着我国经济的不断发展和人们生活品质的不断提高,公路汽运必将会越来越贴近我们的日常生活。八零后、九零后的网购习惯、旅游爱好等无一不是和公路汽运密切相关的,而随着更多的年轻人消费能力的提升,公路汽运的发展前景也会越来越广阔。数据挖掘技术能够帮助公路汽运公司的领导者做出更为明智、正确的决策,完全可以作为一种保障企业科学管理的有效手段。我们应积极接受这门先进的管理方法,还要相应的引进这方面的人才,为公路汽运事业的顺利发展保驾护航。
[1]张小利,陈莉.数据挖掘在智能交通系统中的应用(自然科学版)[J].西北大学学报,2005,(11):26-28.
[2]黄解军,潘和平,万幼川.数据挖掘技术的应用研究[J].计算机工程与应用,2003,(2):45-48.
[3]邹力鹃,王丽珍.空间数据挖掘发展研究[J].计算机工程与应用,2003,(11):186-188.
[4]黄晓霞,萧蕴诗.数据挖掘集成技术研究[J].计算机应用研究,2003,(4):37-39.