传感器网络中两种数据处理技术的分析比较
2014-07-28程文静臧丽萍
程文静 臧丽萍
摘要:当今无线传感器网络被应用到许多领域。在这些网络的运行过程中中会产生大量的数据,因此如何有效地管理数据以提高网络性能就成了关键问题。一种方法是使用集中存储的数据仓库方法,每一个传感器节点把它的采样数据发送至数据仓库,再进行处理;另一种方法使用了网内聚合技术,数据处理过程被移至网内。该文用一个应用实例比较了两种方法的效率,并指出了网内聚合方法的优点。
关键词:无线传感器网络;数据处理;数据仓库;网内聚合
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2014)16-3737-02
当今传感器网络被越来越多的应用到了环境监测及目标追踪等领域。它们通常由大量低能量,低能耗,计算存储能力及带宽受限的传感器节点组成,这些限制使得传统的数据库管理技术无法直接应用于传感器网络[1]。因此设计出高效率低耗能的数据管理技术成为传感器网络应用中的关键问题。在设计传感网络数据库时需要考虑以下问题:如何存储数据,如何建立查询,如何设置网络通信。从网络结构而言,主要有两种方法:集中式的数据仓库方法和分布式的网内聚合方法。在第一种方法中,所有的传感器把它们的数据通过多跳技术传送至根节点(数据仓库),数据的存储和查询都在根节点进行;在第二种方法中,数据被分布的存储在网内,并作出一定的压缩处理。当查询命令涉及到本地存储数据时,节点才发送数据。这样就降低了网内的通信成本。接下来通过一个具体的应用实例对这两种方法的效率作出比较。
1 应用实例
1.1 应用场景
本实验以如下场景为例,对传感器网络查询处理中的集中式和分布式体系结构[2]的工作效率进行比较。假设在一栋建筑里使用监控设备来监测并调整整栋大楼内的温度,以此来使得各个房间的温度平衡且让人感到最舒适。建筑有若干层,以其中一层为例。如图1所示,该楼有十五个房间,包括右边一个大会议室和中间的大厅。每个房间有五个温度传感器节点,分别设置在房间的四个角落和中心。因此,整层中部署的传感器总数为70个,它们之间以多跳网络的树结构连接在一起。
在每个房间中,四个角落的节点发送数据至房间中央的节点。每一个中央节点将接收到的数据和自己的数据一起发送到到它的父节点,以此类推,直至最终数据到达服务器。在图1中,彩色线条表示了树中层次之间的连接。服务器被视为根节点,树结构共分为五层,自上而下分别由黑色,绿色,蓝色,黄色和红色线条表示。当然,节点之间的连接也可采用其他结构,但结构上的微小变化并不影响对两种查询处理方法比较的一般结果。
1.2 集中式数据处理方法
在这种方法中,数据仓库在服务器端更新,因此所有的传感器将以恒定的速率产生并传送数据样本。采样率不需要设置很高,因为在建筑物内部的温度变化并不频繁。假设数据仓库每60秒更新一次。接下来计算在每个时间间隔内通过网络传送的数据包数量。在第5级,有16个角落节点,它们分布在右边的四个房间,同各自的父节点的连接用红色线条表示。每个节点到服务器有5跳的距离。因此,由5级节点发送到达服务器的数据包总数为80。4级节点共有36个,它们与各自父节点的连接用黄色线条表示,与服务器的距离为4跳,传输过程中共产生144个数据包。以此类推,所有节点发送到数据仓库的数据包总数可以用下面的式子计算:
16×5+36×4+18×3+4×2+1=287
值得注意的是,在此场景中,只应用了一种类型的传感器。而在现实中,传感器节点通常配备一两以上类型的传感器。比如,在一栋大楼中,通常还需要设置光和声音的传感器来辅助监控设备控制房间里的灯被打开或者关闭,或识别某个房间是否有人。如果这些不同类型的传感器采用不同的采样和传输频率,那么在每个周期内(如1分钟)传送的数据包总数可能是上述结果两至三倍。显然,这导致了严重的资源浪费,因为监控器只需要获取超出正常范围的测试结果,如某个超过了用户自定义阈值的温度值或者某个非常微弱的光强度信号。因此,所有其他的传感器数据就是冗余的,没必要对它们进行精确传输。
1.3 分布式网内聚合方法
网内聚合方法可以显着降低无线传感器网络的通信成本。在此使用Cougar系统[2]中的网内聚合方法及查询语法来讨论本例。文献[2]中具体介绍了查询语言。以下列举了三个查询语句。
查询1:SELECT AVG (temp) FROM sensors GROUP BY room EVERY 60s
查询2:SELECT temp FROM sensors WHERE temp< c1 OR temp> c2 EVERY 60s
查询3:SELECT AVG (temp) FROM sensor GROUP BY room HAVING AVG (temp)>T1 OR AVG (temp) 第一条语句执行了操作“每60秒钟获取一次每个房间的平均温度”。在每个房间中,每个角落节点发送数据包到中心节点。共有15个房间,因此一共生成60个数据包。下一步,中心节点计算四个子节点和本身节点数据的平均值,并产生一个结果数据包继续向上传输。在接下来的路径中,每个节点只向上一层转发数据包,这个过程与前面讨论的中央式处理方法一致。在第四层有4个节点,第三层有8个节点,第二层有2个节点,第一层有1个节点。因此,整个查询过程中产生的数据包总数通过下面的式子进行计算: 60+4×4+8×3+2×2+1=105 第二个查询加入了界值要求。只有当温度值小于c1或大于c2才返回查询结果数据包。在其他情况下,采样的数据将被忽略。这样的操作既满足了用户需求,即根据温度界限值调整中央空调,同时也减少了不必要的数据传输。由于在不同的情况下,很难准确地预测超出阈值数据的出现频率,因此假定每二十个采样数据中有一个超出阈值。在这种情况下,传输的数据包的平均数目减少到大约14(287 / 20)个。
第三个查询是第一个查询的扩展,在其中加入了条件限制。它执行了操作“每60秒钟返回一次平均温度大于T1或者小于T2的房间的平均温度”。在此同样也很难预测丢弃的数据包百分比,因此进行一个近似计算。在每个房间里至少有一个传感器将通过中心传感器来计算平均温度,每一个中心传感器将传递一个包含的结果的数据包至服务器。因此,一个角落节点传输数据的概率是5%,而一个中心节点传输数据的概率为25%。数据包总数计算如下:
60×5%+5×5%×(4×4+8×3+2×2+1)≈14
2 结论
通过比较这两种方法的计算结果,可以发现在两种情况下数据传输量相差巨大。在第一个查询中,通过计算房间温度的平均值部分减少了63%的数据包数量。如果通过加入一系列条件把查询进一步扩展,如上述的第二和第三个查询,95%的数据采样可以被忽略,只有一小部分的数据包需要传输。这两个查询没有太大差别,只是在计算方式上有所不同。由此可以明显看出,如果使用适当的网内聚合方法执行查询,通信的成本会显着降低。由于节点本地计算消耗的能量要远远低于通信耗能,因此网内数据聚合技术在无线传感器网络中具有明显的优势[4]。目前的研究主要集中在分布式体系结构,因为它更灵活,消耗的资源比集中式少得多。然而,虽然集中式方法有许多缺点,它仍然是适用于具有某些特点的无线传感器网络的,比如规模相对较小,采样频率非常低但查询操作比较频繁的网络。在这种网络中,分布式处理方式反而会产生较高的通信成本,因为频繁的查询命令传播和数据收集会比直接把数据传送到数据仓库进行离线查询与分析产生更多的通信数据。此外,数据仓库的方法非常适合于回答预定义查询的历史数据。总体而言,网内聚合技术是无线传感器网络中最重要的优化技术,是节约能源的一种有效方法。
参考文献:
[1] 李建中,高宏.无线传感器网络的研究进展[J].计算机研究与发展,2008(45):1-15.
[2] Yao Y,Gehrke J.The Cougar approach to in-network query processing in sensor networks[J].SIGMOD Record 31(3), 2002(9):15-31.
[3] UCB.The Berkeley Wireless Research Center(BWRC).http://bwrc.eecs.berkeley.edu/,[ 2010-09-05].
[4] Akyildiz I F, Su W, Sankarasubramaniam Y.A survey on sensor networks[J].IEEE Communications Magazine ,2002(8):102-114.
[5] CSIRO.Fleck Platform Project.http://www.sensornets.csiro.au/fleck/html/, [2010-04-07].
[6] Sensor data handling, databases and query processing. http://74.125.155.132/scholar?q=cache:fzNnx84HnYwJ:scholar.google.com/&hl=de&as_sdt=2000, [2010-11-18].endprint
第三个查询是第一个查询的扩展,在其中加入了条件限制。它执行了操作“每60秒钟返回一次平均温度大于T1或者小于T2的房间的平均温度”。在此同样也很难预测丢弃的数据包百分比,因此进行一个近似计算。在每个房间里至少有一个传感器将通过中心传感器来计算平均温度,每一个中心传感器将传递一个包含的结果的数据包至服务器。因此,一个角落节点传输数据的概率是5%,而一个中心节点传输数据的概率为25%。数据包总数计算如下:
60×5%+5×5%×(4×4+8×3+2×2+1)≈14
2 结论
通过比较这两种方法的计算结果,可以发现在两种情况下数据传输量相差巨大。在第一个查询中,通过计算房间温度的平均值部分减少了63%的数据包数量。如果通过加入一系列条件把查询进一步扩展,如上述的第二和第三个查询,95%的数据采样可以被忽略,只有一小部分的数据包需要传输。这两个查询没有太大差别,只是在计算方式上有所不同。由此可以明显看出,如果使用适当的网内聚合方法执行查询,通信的成本会显着降低。由于节点本地计算消耗的能量要远远低于通信耗能,因此网内数据聚合技术在无线传感器网络中具有明显的优势[4]。目前的研究主要集中在分布式体系结构,因为它更灵活,消耗的资源比集中式少得多。然而,虽然集中式方法有许多缺点,它仍然是适用于具有某些特点的无线传感器网络的,比如规模相对较小,采样频率非常低但查询操作比较频繁的网络。在这种网络中,分布式处理方式反而会产生较高的通信成本,因为频繁的查询命令传播和数据收集会比直接把数据传送到数据仓库进行离线查询与分析产生更多的通信数据。此外,数据仓库的方法非常适合于回答预定义查询的历史数据。总体而言,网内聚合技术是无线传感器网络中最重要的优化技术,是节约能源的一种有效方法。
参考文献:
[1] 李建中,高宏.无线传感器网络的研究进展[J].计算机研究与发展,2008(45):1-15.
[2] Yao Y,Gehrke J.The Cougar approach to in-network query processing in sensor networks[J].SIGMOD Record 31(3), 2002(9):15-31.
[3] UCB.The Berkeley Wireless Research Center(BWRC).http://bwrc.eecs.berkeley.edu/,[ 2010-09-05].
[4] Akyildiz I F, Su W, Sankarasubramaniam Y.A survey on sensor networks[J].IEEE Communications Magazine ,2002(8):102-114.
[5] CSIRO.Fleck Platform Project.http://www.sensornets.csiro.au/fleck/html/, [2010-04-07].
[6] Sensor data handling, databases and query processing. http://74.125.155.132/scholar?q=cache:fzNnx84HnYwJ:scholar.google.com/&hl=de&as_sdt=2000, [2010-11-18].endprint
第三个查询是第一个查询的扩展,在其中加入了条件限制。它执行了操作“每60秒钟返回一次平均温度大于T1或者小于T2的房间的平均温度”。在此同样也很难预测丢弃的数据包百分比,因此进行一个近似计算。在每个房间里至少有一个传感器将通过中心传感器来计算平均温度,每一个中心传感器将传递一个包含的结果的数据包至服务器。因此,一个角落节点传输数据的概率是5%,而一个中心节点传输数据的概率为25%。数据包总数计算如下:
60×5%+5×5%×(4×4+8×3+2×2+1)≈14
2 结论
通过比较这两种方法的计算结果,可以发现在两种情况下数据传输量相差巨大。在第一个查询中,通过计算房间温度的平均值部分减少了63%的数据包数量。如果通过加入一系列条件把查询进一步扩展,如上述的第二和第三个查询,95%的数据采样可以被忽略,只有一小部分的数据包需要传输。这两个查询没有太大差别,只是在计算方式上有所不同。由此可以明显看出,如果使用适当的网内聚合方法执行查询,通信的成本会显着降低。由于节点本地计算消耗的能量要远远低于通信耗能,因此网内数据聚合技术在无线传感器网络中具有明显的优势[4]。目前的研究主要集中在分布式体系结构,因为它更灵活,消耗的资源比集中式少得多。然而,虽然集中式方法有许多缺点,它仍然是适用于具有某些特点的无线传感器网络的,比如规模相对较小,采样频率非常低但查询操作比较频繁的网络。在这种网络中,分布式处理方式反而会产生较高的通信成本,因为频繁的查询命令传播和数据收集会比直接把数据传送到数据仓库进行离线查询与分析产生更多的通信数据。此外,数据仓库的方法非常适合于回答预定义查询的历史数据。总体而言,网内聚合技术是无线传感器网络中最重要的优化技术,是节约能源的一种有效方法。
参考文献:
[1] 李建中,高宏.无线传感器网络的研究进展[J].计算机研究与发展,2008(45):1-15.
[2] Yao Y,Gehrke J.The Cougar approach to in-network query processing in sensor networks[J].SIGMOD Record 31(3), 2002(9):15-31.
[3] UCB.The Berkeley Wireless Research Center(BWRC).http://bwrc.eecs.berkeley.edu/,[ 2010-09-05].
[4] Akyildiz I F, Su W, Sankarasubramaniam Y.A survey on sensor networks[J].IEEE Communications Magazine ,2002(8):102-114.
[5] CSIRO.Fleck Platform Project.http://www.sensornets.csiro.au/fleck/html/, [2010-04-07].
[6] Sensor data handling, databases and query processing. http://74.125.155.132/scholar?q=cache:fzNnx84HnYwJ:scholar.google.com/&hl=de&as_sdt=2000, [2010-11-18].endprint