基于采集系统大数据的云服务研究
2019-09-10柴文慧
柴文慧
(山西管理职业学院,山西临汾041051)
随着物联网技术的快速发展,人们对于信息的智能化和精细化发展进程要求越来越高。对于不同领域产生的海量数据进行实时的采集、传输、处理、发布等操作,能够促进该领域的高效发展,如物流行业、农业等。网络信息的大容量存储管理以及区域化的分布,给处理大数据的过程增加了较大难度。本文采用Hadoop分布式计算框架和MapReduce编程模型对采集到的海量数据进行存储、检索、管理,以此对采集系统的数据云服务进行研究。
1 系统开发平台以及关键技术
1.1 大数据特点
大数据是指无法使用常规的软件或工具来进行处理分析的数据集合,其必须通过新的工具来优化海量数据的处理、多样化的信息资产配置等。通常产生的大数据拥有容量大、数据多样化、数据复杂等多种特点,因此大数据在采集、传输、处理、发布过程中会给管理人员在进行决策过程中造成较大的困难:(1)随着计算机网络技术的发展,各个行业产生的数据量越来越大,且部署的传感器节点也日益增多,例如物流行业的物流信息传感器、摄像头、红外线传感器灯光等。(2)数据格式类型多样化,有文本、图像、视频、表格、音频等复杂的数据形式。(3)单一数据成本较低,因此能够以较低的成本获得大数据。(4)处理速度快,大数据必须通过分布式存储计算来加快数据处理的速度[1-3]。
1.2 基于云服务的大数据技术
大数据通常应用数据挖掘算法来实现有价值信息的搜索,Hadoop是大数据的主要技术,通过MapReduce编程模型来实现并行节点的信息处理。通过HDFS分布式文件系统来实现数据的分布存储,提高信息的存储和查找效率。HBase数据库是一个轻量级别的关系数据库,能够有效地提高数据查找和引用的效率。本文将构建一个存储海量数据的Hadoop系统大数据云服务器,以此来实现数据在任一地点登陆都能进行数据的发布或分析[4-5]。
2 基于采集系统大数据的云服务架构
基于采集系统的大数据云服务架构如图1所示。应用Oracle数据库存储一些基础数据,使用Hadoop集群来存储和管理采集各类传感器传输过来的数据,完全发挥其高容错性、可扩展性、高可靠性等优势。
图1 基于采集系统大数据的云服务架构
2.1 基于采集系统的大数据总体架构
采集系统应用铺设各类传感器来实现数据的采集,本文以常用的无线低功率通信技术“ZigBee”来实现数据的实时采集和传输,如图2所示。
图2 采集系统的总体架构图
2.2 无线传感器网络传输
在监测点部署传感器进行实时的检测数据,通过自组织的方式构建无线网络,并将采集到的数据经过多级的无线路由传递到汇聚节点,然后通过无线/有线方式接入到网络,传输到控制中心,并将实时采集到的数据存储在云端。通过智能手机可进行查询,并可上传文件,这些数据都是未来进行数据发布和预测的基础[6]。
2.3 Hadoop架构
Hadoop是一个开源的分布式框架,将分布在不同地点的各个监测节点数据采集起来进行计算和存储的框架(图3)。其中,MapReduce是分布式计算框架,HDFS以及HBase数据库是基于同一集群节点进行数据计算的。
图3 Hadoop框架图
搭建PC端服务器集群环境,包括主节点、计算节点,在全部节点部署Hadoop环境集群,将其中两台主机定义为主节点,其中一台为出现故障时的备用主节点,其余的几台主机作为子节点。根据不同情况添加新主机进入集群,使其具备高可扩展性。本文部署的Hadoop生态集群如图4所示[7]。
图4 Hadoop生态群集部署图
2.4 数据层设计
传感器采集到的数据是多样化、多来源、异构型的,因此链接到HBase数据库的方法也是不一样的。为了在检索过程中实现持久化存储,本文应用实时读写的分布式数据库系统HBase,为了更好地管理云端数据,将HBase和MySQL数据两者相结合,在异构数据采集后,海量数据和大量的非结构化数据保存在分布式数据库中,其它实时性要求较高的数据存放在MySQL数据库中,使用Sqoop等工具有规律性地将MySQL关系数据库中实时数据信息传递到HDFS和HBase中,以此来实现数据的快速输入。
HBase是Hadoop中面向列的分布式数据库,因此可根据需求设计数据表的存储方式,有效地将分布在各个传感器上的信息进行存储。通常进行数据采集时,采用的是HBase中的Java API来完成数据的采集入库。
在处理图像、视频信息等非表结构的数据类型时,HBase中的图片存储技术具有较好的图片检索功能,解决了图片流量大、传输较为缓慢的问题。Hadoop提供一个API接口,将采集到的视频流文件传输到HDFS文件中进行存储,而HBase数据库的存储结构为HDFS,因此两者之间可以实现无缝对接[8]。
3 基于采集系统大数据的云服务应用
3.1 农业采集系统功能模块
本文基于采集系统的大数据进行云服务平台构建,并将该成果应用于农业生产中。所设计的农业管理模块通常包括以下几个功能:登录模块、用户管理模块、传感器管理模块、文件管理模块、集群管理模块。
(1)登录模块:用户登录系统时,系统首先对用户进行验证,如果是新用户则需通过身份验证,注册成功后才可进入系统,正常使用系统的其它功能。
(2)用户管理模块:进行添加、修改、删除用户等操作,可显示用户列表。
(3)传感器管理模块:该模块主要对传感器传输过来的数据进行管理,保存由不同传感器传输来的数据,并对数据进行添加、删除、修改、报警、查询。
(4)文件管理模块:将数据上传到控制中心,控制中心下载和删除HDFS、HBase、MySQL数据库存储的数据,从而实现对异构农业资源实现分布式管理和服务。
(5)集群管理模块:对得到的数据进行统一处理,基于云服务将所得的智能决策方案提供给用户。
3.2 大数据功能的实现和测试
系统查询模块功能实现过程为:判断查询值,实现差异化查询,链接HBase中的API接口。表的查询方法主要为Scan方法,设定查询条件后返回相关的结果记录,然后通过gerScanner函数将结果集返回到Result函数中进行数据分析和处理,采用Servlet方法获取下一轮的数据,并将获取的数据显示在JSP页面。
将在数据库中监测到的数据导入至HBase中,每次插入的数据量范围为10万条数据,每条数据大小为几百kB到2 MB,通过测试后可知每次的时间都较为稳定,如图5所示[9]。
图5 数据导入消耗时间示意图
4 结语
针对本文关注的采集系统性能,集群系统具有较好的安全性能,且能够达到较好的数据处理时间。本文将所得到的云服务系统运用在农业生产中,通过已有的大数据云计算来实现对数据的采集、存储、挖掘等,获得了较好的实际应用效果。但本文研究在数据类型、界面设计等方面还需进一步加强,这也是在以后的工作中需要完善的地方。