基于车联网的虚假数据检测模型
2013-09-08罗崇伟张立臣
罗崇伟,张立臣
(广东工业大学 计算机学院,广东 广州510006)
0 引 言
汽车工业、终端产品、无线网络的发展最终将会使原本分散的车辆联系到一起,形成一个有组织的相互协作的统一体。而网络通信相关技术、无线传感器网络[1]、GPS(global positioning system)、识别技术等物联网先进技术为车联网提供了强足动力,GPS定位在车辆中得到了越来越多的应用,车载图像获取工具及图像处理技术使得我们能够获取更多的信息,甚至短距离雷达[2],远红外线检测设备[3]也被用作车载设备获取数据的来源。在低带宽环境下我们可以获取车辆的速度、位置、车内空气状况等关键信息,在高带宽环境下可以多维度的获取图像信息实时的传回控制中心,利用这些信息控制中心可以得知车辆有无超速、酒驾等行为,并将这些信息广播给周边车辆,因此有效的利用这些信息并在危险路段增加交互设备,存储并设置速度警戒值、在车辆即将进入该路段的某个范围之内提示限速具体值等信息将促进车联网的发展,但是确保信息的安全可靠并检测出虚假信息成为车联网安全的基础。
在构成信息系统的终端、网络、服务器方面,网络的安全更加容易受到威胁,也是整个车联网系统中至关重要的一环。而在车联网中有很多的应用都是速度、位置相关的,同时由于车联网的特殊性:基础节点数量众多,车辆的高速行驶、道路特点甚至人为的信息干扰等使得数据存在着丢包、修改、伪造、替换数据包的风险[4],如向网络中发送大量伪造的交通拥堵的数据包、肇事车辆伪造事故数据等等,这些篡改或伪造数据将给交通数据安全带来严重危害,如果网络中的位置信息无法得到保护,会使得基于位置基础上的服务无法提供准确指引,无法为司机提供正常的速度指引值、无法为车辆控制中心提供正常决策,将严重影响道路安全。目前在市场上已经存在一些车联网相关产品对车辆提供导航、定位等功能服务,但是现有车联网存在着数据流来源较单一,信息量较少、数据处理较复杂、精确度及效率不高、通信代价高昂、数据未得到有效利用等缺点。由于现有这些检测设备的精度不高或者仅仅停留在对控制中心对单个车辆提供服务,车辆与车辆之间并无信息的交互,因此无法满足现有车联网的要求。而由于车联网本身以及周边环境的特殊性,车辆周边的其它车辆、存储有关键信息的能与车辆及控制中心进行通信的道路基础设施将是某些情况下信息获取的一个重要来源,考虑到对车联网节点的可信任度、节点之间的可靠性、数据传送的实时性方面的要求,我们有必要对这些周边车辆提供的信息进行验证、过滤。国内外学者们对这方面进行了大量研究,文献 [5]提出了利用车载雷达信息去验证收到的其它车辆的GPS信息。文献 [6-8]提出利用传统互联网络中的加密解密算法、数字签名技术对这些信息进行处理,但是因为加密与解密以及车联网本身的复杂度在时间上达不到实时系统的要求。以及曾有文献提出了基于信号强度的信息检测方法,基本思想是通过节点间无线信号的强度来检测信息的可靠性,如果接收到的信息与通过计算得出的位置信息不符则丢弃这些数据,然而攻击者同样可以利用该方法来达到目的。为了构造安全可靠的车联网络,在欧美各国的几大汽车厂商发起了一些项目并取得了一定成果,其中最主要的就是解决车与车之间的安全的进行信息传递,并为之建立一个工业标准[9]。
因此本文是在现有通信技术的基础上,利用本车、临近车辆、对面车道车辆的GPS信息、车载红外线检测到的信息,或者在车辆较少、路段较偏僻的特殊区域通过增加能与控制中心以及车辆进行通信的道路基础设施 (这些设施中存储有由控制中心设置的关键信息参考值,当该设施检测到有车辆经过时会广播关键信息)。我们从这些不同来源信息的相关性方面以及对所接收到的广播数据包在控制中心的历史记录等方面考虑,从而提出了基于车联网的虚假数据检测模型,该模型可以将真伪信息进行归类、验证,过滤掉虚假与伪造信息,保证了数据的安全。
1 系统建模与道路模型
1.1 系统建模
我们假设本文中所要求的车辆都搭载了GPS,前向与后向红外线雷达 (我们假定前向雷达的扫描半径为200米),红外线信号接收设备 (用来检测车辆两边的其它车辆,消除盲点),无线信号收发器 (用于短距离接收临近车辆位置信息,我们假设攻击者能将修改后的数据发送到该设备)。一个数据处理中心 (提供对数据的处理)。系统中各设备都有一定的信息处理功能,车辆与车辆之间能相互传递信息。这些设备在现实中已有应用,在本文中我们假定大部分 (大约85%[10])车辆信息是可信的。我们为车载设备收到的信息分配最高的优先级,我们请求反向车道中车辆的广播信息为第二优先级,我们用同向车道中临近车辆的信息为第三优先级。
车联网络特点:车载设备随车高速移动,导致网络拓扑呈高速动态变化;车辆状态可预测可探测,因为车辆受道路以及前方车辆的约束,其速度、位置和移动方向都是可探测和收集的;数据的分享及分发,车载节点对收集到的信息进行数据融合和数据分发。基于上述特点该系统采用端到端的公路智能交通系统的无线物联网总体架构以及技术框架[11],该构架具有开放、组网灵活、动态性强,可伸缩等特点,建立了支撑车辆运行环境的信息感知、采集、信息融合发布的一体化系统平台,在系统中,每台车辆既是系统服务的对象又是信息的采集者。
1.2 道路建模
分析和研究道路上机动车辆在个别或成列等行动中的规律,探讨车流流量、流速和密度之间的关系,以求减少交通时间的延误、事故的发生和提高道路交通设施使用效率是道路建模的目的所在。城市道路交通系统是一个同时具备连续和离散动态并包含大量随机不确定性因素的动态系统,具有并发、动态、同步等特征,在当前交通形势日益复杂的情况下,这种特性将更加明显,对道路进行建模是深入了解交通、控制交通的关键。目前在城市道路交通网络建模方面具有3个基本模态:静态网络模态、随机网络模态和无标度网络模态,这3种模态分别定义了各系统行为的演进规律,在实际的道路交通系统中将受到3种模态的共同作用,经过对这几种不同模态方法特征的比较,为实现道路的信息探测我们将利用这3种模态提供的建模与分析工具与描述工具,应用交通流中的这些指标,将本文中的道路划分为网格[12,13]。设网络中的城市道路位于M*N的范围内,每隔距离S进行网格划分,道路为双向车道。
2 数据采集与数据验证
2.1 数据验证的原理
以往对数据验证的方法采用加密解密、测试信号强度等方法,但是这些方法的时间开销较大,精确度并不高。而余弦相似度聚类不但体现了向量内部元素的变化状况,而且体现了向量之间的相似关系。同时余弦相似度聚类方法在不同领域中都有着广泛的应用,如论文相似度检测、文档聚类、食品成分检测都取得了很好的效果,因此我们针对此问题提出的基于对象的特征向量来精确地表征一个车辆属性,利用余弦相似度公式得到较为准确的相似度,然后根据不同信息来源的可信度为不同信息来源分配权重,计算出这些属性值,并通过与阀值进行对比分离出虚假信息。
基于模式识别的原理,我们利用余弦相似度来计算两个向量之间的相似度,两个向量夹角的余弦值记为两个向量之间的相似度。例如如果两个向量之间的夹角为5°,那得到的余弦值为0.996,因此我们可以认为这两个向量是基本相同的。公式如下
2.2 数据采集
我们将数据分类,将GPS数据、雷达数据、红外数据记为A类数据 (参照数据),将无线信号接收器接收的被观察车辆位置信息做为B类数据 (待检测数据),当我们本车的A类数据由于各种原因无法使用时,我们发送请求给对面车道过来的车辆来获得所需的数据。如果无法请求对面车道中的数据将广播给临近车道中的多个车辆来获取信息,最后当存在有道路基础设施能提供信息时我们将它也作为信息获取的重要来源。如果所有的这些请求都无法获得所观察车辆的信息,因此可认定该信息为虚假信息。
因此我们有4种可以利用的信息,分别为本车的A、B类数据,请求的对面车道的A、B类数据,我们将优先使用如上所述的优先级最高的数据。
2.3 数据处理
通过我们的观察车辆,我们可以获得多组A类数据。利用上述所提的模型我们可以把A类速度信息表示为
式中:vr——通过雷达等设备检测到被观察车辆的速度,vl——本车的速度,vre——车载设备计算的相对速度,我们定义接近本车的方向为正,远离我们为负方向。类似的我们能得到如下位置公式
式中:xr与yr——车载设备收集到的被观察车辆其x与y的坐标,xl与yl——本车的x与y坐标,xre与yre——相对于xy轴的值。
我们能得到两种类型的B类数据,通过请求对面车道中车辆得到的信息,我们将其速度信息记为vt,位置信息记为 (xt与yt),另一种类型的数据为通过向邻近车辆发送广播得到的数据,速度信息记为vn,位置信息记为 (xn与yn)每个车载设备能确保A类数据的安全,对于接收到的B类信息如果与A类信息基本符合我们就认为这些信息是可信的,如果不符就抛弃这些数据。类似于贪婪算法,如果我们保证了局部数据的安全,因此也就能保证全部数据的安全。
我们把x与y坐标代入式 (1)得到
另一个解决方案是代入我们的三维向量:(v,x,y)
在式 (5)中,速度会影响相似度,但是找出式 (4)与式 (5)哪个精度更高是我们下一阶段需要做的工作。
如上所述,我们可以利用四种类型的数据,因为这四种数据的来源不同,因此数据肯定会存在有差别,如图1所示,Ca,Cb,Cc与实际位置相近,Cd则相距较远。因此我们不能直接使用它们,我们将给他们分配一个权重wi,如果雷达可用,我们将给它分配高的权重,因为雷达所收集到的信息比相邻车辆广播的信息可靠,当雷达不可用时我们给对面车道获取的数据分配较高的权重,然后适当提高相邻车辆广播信息的权重。
因此我们可以得到
其中Sim(A,B)r为车载雷达检测数据计算的相似度,wr为雷达的权重,Sim (A,B)t为对面车道数据计算的相似度,wt为对应的权重,Sim (A,B)n为相邻车辆广播数据计算的相似度,wn为权重。其中1>wr>wt>wn>0。
图1 经不同信息来源计算的车辆位置
图1中黑色车辆A,B,C,D表示实际车辆某一时刻所在的位置,白色车辆Ca,Cb,Cc,Cd表示计算所得车辆位置,其中为Ca是通过车载雷达测得的位置,Cb是通过请求对面车道的车载雷达获取的位置信息,Cc是相邻车辆广播的位置信息,Cd是相邻车辆广播的需要过滤掉的位置信息 (Cd车辆与其它测得的位置出入较大)
因此一旦我们计算出了阀值,我们就能够通过式 (9)区别那些为真实信息,同时过滤掉虚假信息
一旦我们验证了这些数据,我们能够通过如下所示公式计算平均值
既然我们已经有了上述的四种数据,因此我们可以利用如下技巧来验证接收到的信息:我们首先利用该模型找出它们之间的相似度,如果满足式 (9)。然后我们利用[4]中图4所示发现该值是否在一个合理的范围之内。当且仅当GPS检测信息的容忍范围与雷达检测的信息容忍范围存在有交集的情况下我们认为该广播值是可以信赖的。
3 实验结果以及分析
在试验中,我们选择了一个3公里长的双向4车道的场景模拟了该系统,其中实验参数见表1。
表1 参数表
在实验中我们循环利用这些车辆资源,车辆在跑完3公里后然后又从对面车道过去,这样循环往复,每辆车上都安装了本文所要求的设备,并加入该检测系统。
试验中我们想要知道使用了该模型以后的准确率,每个车辆探测其相邻车辆的位置信息,并将位置信息与时间进行存储,然后将数据传送给数据中心计算精度计算。正如我们所预期的使用该系统模型提高了系统的精确度。
我们为了调查检测时间与车辆多少的关系,我们在整个过程中插入了16个修改过的信息包,并测试10次,计算得到平均时间,如图2所示。
图2 未用与使用该系统的时间差别
通过对数据进行分析,我们得出随着车辆的增加,对检测出所需要的时间也随之减少。如图3所示为对于检测出其中16个攻击者所需要的时间随着车辆多少的关系。
4 结束语
图3 检测出16个攻击者所需要的时间
基于余弦相似度检测模型利用物联网先进识别技术、无线传感器网络以及其它车载设备,利用GPS数据、对面车道数据以及邻近车辆信息等多方面信息进行信息补充、信息验证,避免了单一数据来源的低可靠性并最终通过实验得出了该模型的精确度以及检测时间。该模型适合于安装有这些设备的车辆与道路交通中,并且通过该系统收集的数据能为危险路段或者车流量少的地方行驶的车辆提供速度、位置等参数指引。
在本文中还有待研究的问题:在计算余弦相似值的时候,二维向量与三维向量对该相似值的影响,速度如何影响该值。如何确定相似度的阀值,如何很好的利用历史数据来增强系统的可靠性。
:
[1]JIN Chun,XU Honggang,WEI Xing.Preliminary implementation of road-car network based on IEEE 802.11P/1609 [J].Application Research of Cmputers,2011,28 (11):4219-4223(in Chinese). [金纯,徐洪刚,魏星.基于IEEE 802.11P/1609标准的路车互联网的初步实现 [J].计算机应用研究,2011,28 (11):4219-4223.]
[2]GMT Abdalla,SM Senouci.Current trends in vehicular Ad-Hoc networks [C]//IEEE Global Information Infrastructure Symposium.Morocco,2007.
[3]Honda Kazuhiro.Far infrared vehicle detector [J].Kysan Circular,2007,58 (1):6-11.
[4]Yan G,Olariu S,Weigle M C.Providing location security in vehicular ad-hoc networks [J].Special Issue on On-the-Road Communications,2009,16 (6):48-55.
[5]YAN G,Choudhary G,Weigle M C,et al.Providing VANET security through active position detection [C]//Montreal,Canada:The ACM International Workshop on Vehicular Ad Hoc Networks,2007.
[6]Park J S,Lee U,Oh S Y,et al.Emergency related video streaming in VANET using network coding [C]//Los Angeles,CA:The ACM Workshop on Vehicular Ad Hoc Networks,2006.
[7]Raya M,Papadimitratos P,Hubaux J P.Securing vehicular communications [J].IEEE Wireless Communications Magazine,2006,13 (5):8-15.
[8]Armknecht F,Festag A,Westhoff D,et al.Crosslayer privacy enhancement and non-repudiation in vehicular communication [C]//the Workshop on Mobile Ad-Hoc Networks Germany,2007.
[9]Fussler H,Schnaufer S,Transier M,et al.Vehicular Ad-Hoc networks:From vision to reality and back[C]//Obergurgl,Austria:IEEE Wireless on Demand Network Systems and Serviecs,2007.
[10]Raya M,Papadimitratos P,Aad I,et al.Eviction of misbehaving and faulty nodes in vehicular networks [J].IEEE Journal on Selected Areas in Communications,2007,25 (8),1557-1568.
[11]LIANG Yanju,LI Qing,CHEN Dapeng,et al.Wide-view image system based on Internat of cars [J].Application Research of Cmputers,2012,29 (6):2145-2148 (in Chinese).[梁艳菊,李庆,陈大鹏,余天柱.一种基于车联网架构的宽视野图像信息系统 [J].计算机应用研究,2012,29 (6):2145-2148.]
[12]DING Zhiming,HAN Jingyu,LI Man.Network-constrained moving objects database based traffic flow statistical analysis model[J].Journal of Computer Research and Development,2008,45 (4):646-655 (in Chinese).[丁治明,韩京宇,李曼.基于网络受限移动对象数据库的交通流统计分析模型[J].计算机研究与发展,2008,45 (4):646-655.]
[13]LIU Tang,PENG Jian,YANG Jin.Intelligent transportation flow detection technology based on internet of things [J].Computer Science,2011,38 (9):67-71 (in Chinese). [刘唐,彭舰,杨进.基于物联网的智能交通流探测技术研究[J].计算机科学,2011,38 (9):67-71.]