APP下载

大数据实时传输架构研究

2019-05-17孙知信

计算机技术与发展 2019年5期
关键词:传输数据传感数据包

孟 超,金 龙,孙知信

(1.南京邮电大学 现代邮政学院,江苏 南京 210023;2.圆通速递 物流大数据互通共享国家工程实验室,上海 201705)

1 概 述

大数据是指数据规模非常庞大,在获取、存储、管理、分析方面超出了传统数据库软件工具能力范围的数据集合。大数据和物联网密不可分,物联网中大量的感知节点采集数据,形成了传感网大数据[1]。传感网自身的特点包括:感知节点制造成本低,体积小,所携带的电池容量非常有限,并且很难从环境中获得补充。因此,当电量耗尽后,传感器节点失效。而传感器网规模非常庞大,网络中感知节点采集数据的总和非常大。尤其是在具有周期数据采集传输功能的无线传感器网中,所有无线节点在相对很短的一段时间内将所有数据上传至监控服务器,此时数据量呈现爆炸式的增长,形成了传感网大数据流[2-3]。

大量数据传输对于存储能力和带宽有限的传感器网络,是一个很大的挑战,这必然要求优化数据传输架构和数据传输的能力,否则无法满足对感知数据的完整性、准确性、安全性和及时性的要求。近年来,学术界致力于设计高效的无线传感网络优化模型,确保各个传感器大数据收发过程和节点能量的有效利用,提高传感网的可靠性[4-6]。文献[7]提出了CodeDrip数据传输协议模型,该模型提高了网络的可靠性和数据传输的速度,但是由于可扩展性差的特点,不适用于节点数目庞大的无线传感网络。

在无线传感网中数据包的延迟,数据包接受率的低下,是没有现实意义的,较低的数据包接受率是不符合实际需求的,尤其是当采样节点在移动过程中,数据采集可靠的数据传输率,才能保证网络运行稳定。所以需要可靠的优化模型,确保传感网数据收发的合理性和数据传输的质量[8]。

在文献[9-10]中,作者提出采用队列理论建立优化数学模型,解决在传感网中传感器节点移动定位和节点数据收发公平性的问题。该模型保证了数据包的接受率,但是却降低了网络可靠性[11-13]。已有的研究在传感网大数据技术中取得了一定成效,但是也存在很多不足,首先物联网的自组织网络部署和采样大数据信息传输技术不够完善,尤其是当采样节点移动,需要不断采集实时定位信息时,数据包接受率难以保证;其次,由于传感网大数据的传输会给网络带来很大的负担,需要有可靠的传输模型。目前针对这类问题的解决方案还没有。

针对以上问题,文中设计了传感网大数据采集和传输的仿真架构。该架构采用物联网感知节点实时的采集定位和其他状态数据,感知节点安装于移动车辆内部,安装在车辆顶部的协调器收集数据,实时上报服务器保存数据,实现对移动车辆感知节点的实时定位和监控。由于传输数据量巨大,网络带宽有限,提出了一个大数据实时传输的理论模型,首先通过一个简单的数据传输确定链路的相关性系数模型,在此基础上通过理论推导得出大数据传输的相关性系数模型,以减少数据传输的规模,降低数据平均传输次数,避免网络拥堵,同时降低能量消耗。

2 系统设计

传感网大数据仿真传输系统由传感器监测网络、数据传输网络、监控中心(远程监控终端)等构成。基站负责数据的远程传输,也可以为监控终端和汇聚节点提供通信。监控终端负责数据的进一步分析,对移动小车定位位置等信息进行监控和追踪。详细的系统结构和数据通信方式如图1所示。

传感器监测网络构成了监控系统的核心,感知器主要负责对移动节点定位和小车状态信息数据进行采集。采集后的数据传输到车辆内部的汇聚,通过基站设备,传输网络上报给监控中心,实时保存数据和监测数据,小车内部由一个汇聚节点和多个感知采样节点组成。

图1 大数据传输系统示意

GPS节点位于运营车厢顶部,硬件结构由本地存储模块、处理器模块、能量供应模块、GPRS模块等构成,定期测量当前位置信息,向传感网络提供定位数据。

数据传输网络采用基于中国移动3 G网络模式为TD-SCDMA的3 G分组交换数据网,有很好的信号覆盖,在绝大部分地区只要开机就能自动连接TD-SCDMA网络,并与数据中心建立通信链路,该网络能提供150 k~200 k之间的数据传输速度。因此,采用TD-SCDMA方式可以保证监测数据传输的可靠性、实时性。

监控中心即远程监控终端,由监控相关人员、大容量的数据存储设备、电脑以及其他移动终端组成,中心负责小车在移动过程中所有GPS定位数据和车辆状态数据的存储以及对大数据进行精确的分析。

3 传感器大数据传输模型设计

由于在小车移动过程中,感知节点采集的数据量庞大,大量的数据需要通过网络传输到服务器端实现保存和监控,而网络的带宽十分有限。大数据的实时传输容易造成网络拥堵。针对这些问题,提出传感网大数据传输节点相关性模型,通过模型描述两个采样节点传输链路的相关性程度,相关性程度高的节点,随机选择其中一个节点发送数据,相互独立的节点,则同时发送数据。这样减少了数据传输的规模,并且对系统的架构没有任何影响,实现起来难度较小,可行性较高。

首先介绍一种简单的数据传输模型,在此基础上提出一种多次数据传输的大数据传输模型。

3.1 简单数据传输模型

文中采用统计学常用的相关性系数ρ表示两个链路的相关性。定义一个三元组r,x和y,其中r表示传输数据的接受方,在移动小车中,表示sink节点汇聚节点,x和y分别表示两个感知节点发送数据给sink节点,如图2所示。由于采样数据传输是随机的,所以x和y可以视为两个随机变量。假设当数据可以成功接受时,随机变量值为1,否则为0。因此x和y服从0-1分布:x~B(1,Px),y~B(1,Py)。其中,Px和Py分别是数据包接收概率,也即链路x→r和y→r数据传输成功的概率。

x和y的相关性系数ρ定义为:

(1)

图2 节点传输架构

由于x~B(1,Px),y~B(1,Py),则:

(2)

E(xy)表示节点x和y同时成功传输数据包的概率,也即E(xy)=P(x=1,y=1)。文中用E(xy)=Px,y(1,1)表示。其中Px,y(1,1)表示节点x和y同时成功发送数据的概率,即两条链路同时成功接受数据的概率。因此:

(3)

式3表示简单数据一次传输过程中两条链路之间的相关性系数ρx,y,而采样得到的大数据实时传输需要感知节点多次传输数据到汇聚节点(sink)。

3.2 大数据传输模型

对于感知节点采样获取的大数据,需要感知节点多次传输数据,对于两条链路其传输n次,分别对应随机机变量x1,x2,…,xn和y1,y2,…,yn,其中xi表示第i时刻感知节点x的数据包传输,成功为1,失败为0,yi表示第i时刻感知节点y的数据包传输,成功为1,失败为0。文中假设每次传输都是严格意义上的时间同步。

则其相关性系数为:

(4)

由于时间严格的同步,所以文中考虑xi和yj,当i=j时,存在相关性。当i≠j时,由于不在同一时刻传输数据,所以相关性系数为0,也即不存在相关性,相互独立。

所以:

ρx,y=ρxi,yj(i=j)

(5)

由于

(6)

当i≠j时,xi和yj相互独立,则ρxi,yj,i≠j=0。

于是:

(7)

(8)

(9)

将式5~9代入式4,再使用协方差公式可得到:

由于E(xy)=Px,y(1,1),利用式2、式3和式5可以得到:

(10)

式10表明链路间多次传输的相关性系数等于某一次传输的相关性系数,一次传输的相关性系数可以用式3求出。式3中的数据包接受率在图2的架构下可以通过节点x和y传输数据包,在节点r处通过实验测得成功接受的数据包和丢失的数据包,进而得到两个节点传输数据的成功率[14]。

将由实验测得数据包的接受率代入式3,可以求得一次数据传输的相关性,式10可以得到在严格同步意义下n次传输的相关性。

在大数据采集与传输中,n次同步的传输更加具有实际的现实意义,多次实时采集数据和传输数据到汇聚节点,实现了对小车的实时监控。多次的链路传输相关性系数,可以由一次的数据链路传输相关性系数来表示,大大简化了计算量,减少了系统的运算负荷。

当相关性系数ρX,Y=0,表明两个链路大数据传输时,链路相互独立,彼此不受影响,所以此时两条链路都要传输数据到汇聚节点。当ρX,Y<0时,表明此时两条链路负相关,此时传输其中一个链路的数据,另一条链路通过相关性算法[15]求出。当ρX,Y>0时,表明此时两条链路正相关,此时传输其中一条链路数据即可。通过这种方案,大大减少了大数据传输规模,减少了大数据的平均传输次数,保证了系统的稳定性,避免了网络大数据传输的拥堵。

4 实验评估

为了验证文中提出的大数据传输模型的可靠性,对系统架构进行测试评估。实验环境如图1所示,在小车中装置实验感知节点,以模拟车载移动数据采集场景。

评估的主要目的:大数据传输节点系统是否存在数据传输的相关性;感知节点采样数据后,对一次同步的数据传输和多次的数据传输,相关性系数如何变化;采用该方案前后大数据平均传输次数如何变化。

实验环境:使用802.15.4传感网,802.15.4低速率物理层和媒体接入控制协议,适用于低速率内部近距离的无线传感网络,采样节点采用TinyOS操作系统,实验节点固定在感知区域,小车顶部安装了一个汇聚节点,用于收集感知节点传输的数据,包括定位和车辆其他数据。

4.1 数据传输相关性的验证

所有的感知节点采样数据后,直接将数据发送给汇聚节点。任意选择两个节点,得到两个节点相关性的传输情况,传输架构如图2所示。

图3是两个链路相关性的情况,其中图a和图b是两个节点正相关,图a表示两个链路具有相同的数据包接受率,图b是两个数据包接受率不同,其中S表示成功接受,F表示丢失数据包。图c和图d是两个链路负相关的情况,图c表示两个链路具有相同的数据包接受率,图d表示两个数据包接受率不同。可以看出,数据链路的传输具有很强的相关性。

图3 两个节点相关性的情况

4.2 简单一次数据传输和大数据多次传输的相关性系数变化

将一次数据传输所获得的两个链路相关性系数和两个链路n次传输数据得到的相关性系数进行对比,两个链路分为相互独立、正相关和负相关三种情况。

在完全同步的情况下,一次数据传输的相关性系数ρx,y可由式3直接求得,假设各条数据链路的数据包接受率已知,n=10次数据传输相关性系数可以由式11求得。

(11)

通过实验观察ρX,Y和ρx,y是否接近相等和两者的变化情况。当满足|ρX,Y|≤0.1和|ρx,y|≤0.1,则认为两个链路相互独立。

图4是两条链路相互独立的情况。

图4 两个链路相互独立相关性系数的比较

由图可以看出,一次数据相关性系数和n次的传输相关性系数并不是完全相等,存在误差,绝对误差不超过0.01。实验中产生误差的原因是由于多次传输持续时间较长,每次采样具有一定的采样时间间隔,外界环境的变化对于链路相关性系数产生了影响;另外,式10是在严格数据传输同步的基础上得出的结论,而实际中多次的传输很难保证严格的同步,尤其是在小车这样一个移动网络的环境中。链路正相关和和负相关的情况类似,一次传输和n次传输其相关性系数分别在1和-1之间来回波动。

尽管简单一次数据传输和大数据多次传输之间有误差,但是从图中可以看出误差较小,在实际应用中,简单数据传输相关性系数ρx,y可较好地逼近大数据传输的相关性系数ρX,Y。

4.3 平均传输次数的比较

图5显示了两个链路正相关和不相关时平均传输次数的变化情况。

图5 两条链路正相关和不相关情况

由图可以看出,随着数据包接受率的提高,平均传输次数不断减少。数据包接受率的提高,意味着更多的数据传输成功,自然平均传输次数不断减少。

在大数据相关性传输情况下,平均传输次数明显少于不相关的情况。这是由于无相关性传输情况下,平均传输次数是两条链路传输次数的和,而在相关性传输情况下,由于相关性的存在,可以去掉其中一条链路的数据传输,所以导致平均传输次数大幅降低。图6显示了不同的链路和不同的数据传输条件下,链路负相关和不相关两种情况下的平均传输次数的变化。

图6 两条链路负相关和不相关情况下

5 结束语

针对传感网大数据传输的问题,构建了一个大数据定位监控和数据传输的仿真架构,以实现对小车的实时定位和监控。另外针对该架构实时采集数据传输数据过程中的问题,提出了相关性的数据传输模型,并通过理论证明了一次数据传输的相关性系数和多次同步的数据传输相关性系数是一致的,而多次的数据传输才具有现实的意义。理论证明的结果说明可以用一次数据传输的两个链路的相关性系数代替多次传输的相关性系数,通过链路的相关性系数可以删减掉冗余的数据传输,对于独立的节点不存在相关性,则同时传输,存在相关性的节点,选择其中一个节点传输数据。该架构极大地减少了传感网的数据传输规模,减少了大数据的平均传输次数。传输次数的降低,意味着能量消耗的降低,在电池供电的无线传感网中具有较高的现实意义。实验结果表明,利用相关性可以有效减少数据传输规模,保证了系统稳定性。

猜你喜欢

传输数据传感数据包
《传感技术学报》期刊征订
新型无酶便携式传感平台 两秒内测出果蔬农药残留
二维隐蔽时间信道构建的研究*
基于SSL VPN实现安全共享疾控单位之间的数据
基于深度强化学习的物联网传输数据实时调度方法
基于物联网的电力通信系统传输数据感知分配研究
民用飞机飞行模拟机数据包试飞任务优化结合方法研究
苹果专利可采用光纤输出灯光并传输数据将光纤隐藏于车辆部件内
IPv6与ZigBee无线传感网互联网关的研究
C#串口高效可靠的接收方案设计