数据挖掘技术在公路交通管理系统中的应用研究
2010-12-08秦佳
秦 佳
数据挖掘技术在公路交通管理系统中的应用研究
秦 佳
介绍了用于预测决策的回归分析方法,进行预测决策数据挖掘模型设计,并用公路交通管理系统中违章数据进行验证,得出较优的用于公路交通管理预测决策的数据挖掘模型。
数据挖掘;预测决策;回归分析
数据挖掘作为数据仓库技术的重要应用,利用一系列方法,从海量数据中提取隐含在其中的有用信息和知识,并对数据进行深层分析、挖掘,为企业提供综合性分析决策信息。实现数据共享,统一分析平台的数据环境,为高质量的决策提供坚实的数据基础。
公路交通管理系统是在原闯红灯抓拍系统的基础上,对抓拍的图片进行后台管理的系统,扩展了对于监测不按导向车道行驶、停车压线、超速等各种违法行为的综合管理。利用数据挖掘技术,对交通违规车辆数据进行分析和处理,初步实现交通违规车辆管理的分析和管理预测功能。
利用回归分析的方法,进行数据挖掘,建立包括时间变量在内的线性回归模型。预测时,输入任意的时间和自变量,利用回归模型对目标进行预测。
1 模型的影响因素
影响交通管理的因素很多,主要体现在闯红灯、酒后驾车、无证驾驶、超载、上下班高峰时间、主要地段车流量、路况、天气等方面。为了优化模型,便于数据的处理,使之更加贴近实际情况。
采用多元线性回归的方法建立公路交通管理预测模型,利用四元线性回归方程,分析影响因素与公路交通管理预测之间的线性关系,从而简化分析过程,提高系统预测和决策能力。现将闯红灯(rtrl_id)、酒后驾车(drunk driving_id)、上下班高峰时间(time_id)、天气(climate_id)这四个影响因素作为自变量,利用回归输出的连续变量,用于公路交通管理的预测。
2 模型的数据处理
为了保证数据的一致性、有效性和层次性,要有统一数据的来源,为数据挖掘做准备。采用某市交通综合信息数据仓库,作为公路交通管理预测模型的数据来源。利用OLAP技术,将不同的多个点的 POS 系统数据及不同类型的数据,从数据库系统中抽取、转换并加载到数据仓库。在建立好的数据仓库中,将系统网络中记录着来自不同地段的交通基本数据(交通的基本信息和车辆的违章细节)集中在一起,作为源数据,其数据类型可为Access、Oracle、SQL Server 及文本文件等。
针对不同的预测影响因子,对数据进行最细粒度的汇总和加工,形成面向多个层面的新的、详细的数据和层汇总数据,在保证系统运行稳定的前提下,使得预测的主题完善、丰富。而在数据仓库中,存储的是以季度或月为粒度的当前基本数据和历史基本数据,就要对其按日为粒度作为预测数据的基础,再用于数据挖掘。
数据预处理的方法:在事实表中的rtrl_id、drunk driving_id、time_id、climate_id,利用 SQL Server 2000 中建立的 DTS 包,将时间维表与之相关联,进行转换处理,提取出所需的时间单位用于预测模型的计算。
3 模型的建立及检验
3.1多元线性回归模型。
设研究对象受多个因素x1,x2,x3…,xm(自变量)影响,各影响因素与预测目标y(因变量)的关系是线性的,则其多元回归线性模型为:
yi=β0+β1xi1+β2βi2+…+βmxim+εi(i=1,2,…,n)
(1)
式中:
yi,xim——预测目标和影响因素的第i组观测值;
εi——第i组观测值对yi的随机误差;
β0,β1,…,βm——m+1个待估计的回归参数。
在多元线性回归模型中,做如下假设:①y与xj(j=1,2,…,m)之间满足线性关系;②xj是确定性变量,且在两个自变量或多个自变量之间存在线性关系;③随机误差ε服从正态分布,且ε~N(0,σ2)。
其矩阵形式为:
Y=XB+ε
(2)
式中:
(3)
3.2模型检验。
为了判断多元线性回归模型所反映的各变量之间的关系形式是否符合客观实际,引入的因素是否有效,在将模型用于实际预测前,需对模型进行检验。常用的检验方法有R检验、F检验和t检验。
1)R检验:R称为复相关系数或全相关系数,R的计算公式为:
(4)
R说明x1~xm这一组影响因素与y的相关程度。利用R进行判别时,根据回归模型的自由度n-m和给定的显著性水平α,从相关系数临界值表中查出临界值Rα(n-m),若R≥Rα(n-m),表明模型的自变量和因变量间线性相关关系显著,检验通过,模型可用于预测;若R 2)检验:用来检验整个回归系数是否有意义,F的计算公式是: (5) 式中:m——影响因素的个数; n——统计资料的个数。 F服从第一自由度为m-1,第二自由度为n-m的F分布,给定显著水平α,查F分布表得Fα(m-1,n-m),如果F>Fα(m-1,n-m),则认为这一组回归系数有意义,可以利用所建立的多元线性回归预测模型进行预测;否则认为这一组回归系数无意义,所建立的多元回归模型不成立。 3)t检验:R检验和F检验都是将所有的自变量作为一个整体,来检验它们与因变量y的相关程度以及回归效果,而t检验则是用来对每个回归系数是否有意义进行的检验。 (6) Cjj—矩阵(X' X)-1主对角线上的第j个元素。 若|tj|>tα/2(n-m),说明xj对y有显著影响,可用于预测,反之,说明xj对y无显著影响,应删除该影响因素,调整回归模型。 为了验证四元线性回归公路交通管理预测模型的可行性,选取某市2008—2009年两年的数据,按月汇总后的公路管理信息。将2008年数据用于建模,2009年数据作为模拟数据,分6组用于评估预测的正确率。利用Matlab7.0编程分析实现公路管理预测模型的数据挖掘,分别用 R 检验、F 检验和 t 检验法进行模型评估,结果表明模型合格。并采用平均绝对百分比误差 MAPE 来评估预测的精确性,预测结果见表1。 (7) 式中:yi——第i期实际值; fi——第i期预测值。 表1 预测结果 一个评价预测精度的参考标准认为,平均绝对百分比误差在 20%~50%之间的为可行预测,高于50%的为良好预测。通过对线性回归预测模型的验证,总的平均百分比误差为42.86%,说明此模型用来进行公路交通管理预测是可行的。但还存在以下不足: (1)回归分析方法只是用静止的观点描述各变量之间的因果关系,而没有考虑现实交通活动的动态发展。 (2)交通的需求往往是由许多因素综合决定的,但不可能对所有因素进行建模,而只能考虑其中的一部分,这就已经存在着误差。 [1]徐国祥. 统计预测与决策[M]. 上海财经大学出版社,2001. [2]包翠莲,开小明. MATLAB 语言在多元线性回归中的应用[J]. 安徽教育学院学报,2005, (3):23. [3]李海宏. 基于企业数据仓库系统的数据挖掘工具的实现[D]. 四川大学,2003. [4]王艳辉,王卓,贾利民等. 铁路客运量数据挖掘预测方法及应用研究[J]. 铁道学报,2004, (5):26 . OnApplicationofDataMiningTechnologyinHighwayTrafficManagementSystem Qin Jia The paper introduced the regression analysis method used in the expectation and decision-making. The model the data being used in decision-making is designed. The testing and checking of the rules and regulations has been made and the data mining model applied to the highway traffic management system has been found out . data mining;forecast and decision;regression analysis ClassNo.:TP311.131DocumentMark:A 孔祥春 郑英玲) 秦佳,硕士,讲师,鸡西大学电气与信息工程系,黑龙江·鸡西。邮政编码:158100 1672-6758(2010)06-0040-2 TP311.131 A4 模型的评估与分析