面向移动网络的海量信息压缩管理算法设计与实现
2017-10-16郑丽娟
郑丽娟
一、前言
在目前大数据以及移动互联网高速发展的新形势下,通过移动互联网下的海量数据通信与管理,可以充分的配置资源,降低成本,充分利用当前数据库以及分布式技术的优势,实现多方合理资源共享以及降低成本,提高政府公共工作效率与利润。海量数据是互联网入口的核心切入点,由于当前分布式存储以及大数据是主要发展趋势与热点领域之一,对于海量数据的存储和管理,通过移动网络传输时,如何进行一定的压缩是当前的主要技术瓶颈。本文即针对此需求,结合空间数据传输的特点,设计与研究面向移动网络的海量空间数据压缩管理算法。
二、空间数据格式基础
1、空间数据的概念。本文研究的移动网络条件下的主要数据来源不同于其他的一般信息系统,由于智慧城市的管理需要,需要提供城市的基本的道路数据、建筑数据,这些统称为空间数据,其科学概念是这么定义的,即地球上每一种物体都有其明确的空间属性,包括它的坐标、空间三维尺寸、空间拓扑属性等。2、GML语言与定位。本文研究中采用的空间数据是研究城市的基础地理数据,其数据格式是空间语言GML,是一种XML格式的扩展,其具有标签化管理、坐标清晰的特点,是一种本质上对空间对象进行描述的,由开放地理信息协会制定标准的语言。该语言中立于各厂商,是一种开放的标准,对空间数据有规范的编码,另外可以快速在互联网上进行共享,继承了XML的优势,对于网络化传输有先天的优势,利于数据管理与网络实时传输。
三、压缩算法设计与实现
1、基于语义同构的压缩模型设计。在这个算法模型中,输入端是现场采集或者后台分发的数据的GML文件,以及自定义的分组个数,首先,GML数据文档经过系统的提取以及解释操作,得到了基于XML模型的数据文档树。然后进行整体同构压缩的过程,压缩过程中主要有2个子流程,主要是根据其数据文档的数据内容和坐标聚类进行的内容同构压缩以及根据文档标签特性进行自动化替换的采用类似索引的思路进行置换后压缩,而数据内容则是根据所付地物的坐标进行K-Means聚类算法对数据进行空间分组并以各子坐标系为原点重新计算坐标,从而大量压缩数据内容。
2、GML数据内容同构压缩。本文研究中采用的空间数据是研究城市的基础地理数据,其数据格式是空间语言GML,是一种XML格式的扩展,其具有标签化管理、坐标清晰的特点,是一种本质上对空间对象进行描述的,由开放地理信息协会制定标准的语言。该语言中立于各厂商,是一种开放的标准,对空间数据有规范的编码,另外可以快速在互联网上进行共享,继承了XML的优势,对于网络化传输有先天的优势,利于数据管理与网络实时传输。经过聚类算法的同构压缩,可以将大量长度较大的坐标数值存储为相对坐标,在数值量特别大的情况下,此种方法能有效的减少坐标数值串的字节数量,进一步降低文本文件的大小。
3、GML语义同构压缩。算法的主要过程为,首先遍历文档中的全部字符,然后提取重复率最高的标签,并用较简单的字符进行替代。如将重复率最高的
四、算法实验与效率分析4.1系统集成与开发环境
本文在学校实验室进行相关模拟,主要网络为中国电信专门提供的千兆光纤,网速相对较快,但是需要各种配置才能达到测试的需求。主要开发环境:Microsoft Visual Studio 2015;数据库环境:SQL Server 2008;各Web浏览器主要采用Chrome浏览器。移动终端模型采用的是iPhone 6 Plus以及华为Mate 7,分别代表iOS 和Android智能操作系统
4.2移动网络传输分析
为了更好的模拟海量数据处理时的网络情况,本文采用了不同的数据量的文件进行了各个不同网络环境下的相应的实验和测试,以实验针对海量数据管理、存储和传输相应的系统表现。本文在学校的200兆和千兆光纤环境下进行了多用户并发传输实验,实验结果图表1所示。
通过上述结果可以看出,当有不到10个的移动终端设备访问监控后台系统时,可以启动十个线程对于数据请求进行处理,当用户急剧增加时,请求的响应和数据发送时间会受到一定的减弱,一方面是由于数据传输和获取时都需要线程加锁等操作,另一方面并发线程小于并发消息 时,消息在队列中的排除时间会造成同步的延迟。
结语:本文对于系统的整个算法流程,特别是数据压缩的关键技术和海量数据存储管理的主要技术进行了论述,给出了详细的数据压缩的方案,包括基于数据坐标的聚类压缩以及基于文档标签特性的文本频次压缩方法。最后介绍开发的平台环境以及数据,使原形系统实验有一个客观的对比性平台,在Visual Studio平臺上进行了二次开发,分别形成了移动终端和后台的原型系统,介绍系统开发及实现并进行相关实现,最后进行软件测试,证明了软件的有效性和科学性。