基于大数据的信息系统关键技术研究

2015-03-27禹禄君

湖南邮电职业技术学院学报 2015年3期

【摘要】物联网、移动互联网、社交网、电子商务、电子政务、数字家庭、远程教育、远程医疗等新一代信息技术的应用不断产生大数据，利用好大数据已成为提高企业核心竞争力的关键因素。文章首先详细介绍了大数据技术，然后分析了分布式文件管理技术、分布式数据处理技术、分布式数据库技术等基于大数据的信息系统关键技术。

【doi:10.3969/j.issn.2095-7661.2015.03.010】

【文献标识码】A

【文章编号】2095-7661（2015）03-0040-03

[收稿日期]2015-07-29

[作者简介]禹禄君（1963－），女，湖南邵东人，湖南邮电职业技术学院副教授，研究方向：计算机网络技术、高等教育。

Research on key technologies of information system based on big data

YULu-jun

(Hunan Post and Telecommunication College, Changsha, Hunan, China 410015)

Abstract：The use of a new generation of information technology such as the Internet of things, mobile Internet, social network, e-commerce, e-government, digital home, remote education and remote medical treatment continuouslyproduce large data. Makinggood use of big data has become the key factor for improving the enterprises' core competitiveness. This paper first introduces the big data technology in detail, and then analyzes the key technologies of information system such as the distributed file management technology, distributed data processingtechnologyand distributed database technologywhich are based on bigdata.

Keywords：large data; information system; keytechnology; data mining

一般认为：大数据（bigdata）是超过使用者所能处理和分析能力上限的数据集合。大数据的特点可总结为4个V，即volume(体量巨大)，variety(类型多样)，velocity(生成、处理快速)和value(价值巨大但密度低)。

大数据时代，数据是信息产业持续高速增长的新引擎。国家可利用极为丰富的数据资源，分析经济状况，帮助政府更好地响应经济运行规律。企业可分析、挖掘、运用大数据，获取有价值的信息，提供相应的产品，实现精准服务。

1　大数据技术

大数据技术是指从大数据中快速获取有价值信息的技术。包括数据采集、数据存储、基础架构、数据处理、数据挖掘和结果呈现等技术。

1.1　数据采集技术

大数据的数据采集技术是指利用多个数据库来接收产自客户端App、Web或传感器等的数据的技术。在大数据的采集过程中，面临的最大挑战是并发数高，比如淘宝和12306网站在峰值时的并发访问量高达数百万。为方便大数据的有效分析，还应将其导入一个大型分布式数据库或分布式存储集群，还需在导入过程中做一些简单的清洗和预处理工作。

互联网企业都有自己的系统日志数据采集工具，包括Hadoop的Chukwa，cloudera的flume和facebook 的scribe等，都采用分布式架构，能满足数百MBPS的日志数据采集和传输需求。对于网页数据的采集，常用网络爬虫或网站公开API，从网页中抽取图片、音频、视频文件或附件等非结构化数据，再以结构化方式存储为统一的本地数据文件。对于网络流量的采集，可用DPI和DFI等带宽管理技术。对于科研或企业经营等有保密性要求的数据，可使用特定系统接口等方式来采集。

1.2　数据存取技术

对于数据的存取，互联网企业主要使用面向OLTP交易型需求而设计、开发的Postgre SQL，以满足人机会话应用为主。其它企业常用传统的关系型数据库（RDBMS）。如：Oracle或IBM的DB2和Microsoft的SQLServer，都采用行存储格式，比较适合频繁的数据增、删、改操作，但对统计分析类的查询效率较低。成熟的典型产品有Teradata和Sybase IQ，都定位于高端客户的数据仓库和决策分析系统，且在数据分析应用上的性能都优于Oracle和DB2。Teradata使用MPP （Massive Parallel Processing）架构，产品以软硬一体机的方式进行销售；Sybase IQ是基于列存储的关系型数据库产品，以软件方式销售。

1.3　基础架构技术

大数据主要采用往网络中添加更多节点服务器的办法来达到均衡计算量目的的横向扩展架构，而非服务器硬件的纵向扩展架构。国际数据公司研究发现，数据的重复率接近75％，企业战略集团指出，在备份和归档存储系统中的数据冗余度超过90％。因此，如何高效删除大数据中的重复数据是关键所在。

分布式重复数据删除系统的架构由客户端、元数据服务器和数据服务器三部分组成。其中，客户端主要提供对外的交互接口，并在其提供的文件操作接口中实现对数据的预处理，如数据块的划分与指纹的提取。元数据服务器主要完成对元数据的存储和集群的维护管理，指导路由和负载均衡。数据服务器主要负责数据去重引擎及其存储、管理。

1.4　数据处理技术

如何根据业务需求来处理信息，进而产生商业价值，是大数据研究和应用的关键。在大数据中，怎样挖掘出特点，通过科学建模，带入新数据，以实现预测功能是大数据最重要的应用。大数据处理技术起源于Google的Hadoop数据处理架构。其核心是MapResuce算法和分布式文件系统HDFS。能可靠地存储和处理千兆字节的数据，可通过数千节点的廉价服务器群来分发和并行处理数据，能自动维护数据的多份备份，且在任务失败后能自动地重新部署计算任务。但因任务内串行、链式浪费严重、中间结果不可分享、算法不友好，数据连接操作、基于图的算法、需要多伦迭代等而效率低下，且编程复杂。

Skytree结合机器学习算法，为企业提供大数据高级分析，现已用于推荐系统、异常识别、预测分析、聚类、市场细分及相似性搜索等领域。

Spark通用并行计算框架是基于MapReduxe算法实现的分布式计算，但它将中间数据放到内存中，其迭代运算的效率更高，更适合于迭代运算较多的机器学习和数据挖掘。

1.5　数据挖掘技术

数据挖掘是在现有数据基础上进行基于各种算法的计算，达到预测的目的，满足高级别数据分析需求。数据挖掘算法是大数据分析的理论核心，比较典型的算法有用于聚类的Kmeans，用于统计学的SVM和用于分类的NaiveBayes。面临的主要挑战是挖掘算法的复杂性和计算涉及的巨大数据量跟计算量。各种数据挖掘算法各自基于相应的数据类型和数据格式，才能深入数据内部，科学地呈现数据本身的特点，挖掘出相应的价值。

1.6　结果呈现技术

直观、可视化地呈现大数据的处理结果是应用大数据的需要。通过专业的数据统计分析系统设计方法，理清海量数据指标与维度，按主题、成体系呈现复杂数据背后的联系，除原有的柱状图、饼图、地理信息图等数据展现形式外，还可通过图像的大小、形状、颜色、亮度、运动趋势等多种方式，借助主从屏、多屏联动、自动翻屏等大屏展示功能，超清输出，支持触控交互，对数据进行多维并行分析、展示，呈现不同角度的数据走势、比例和关系，帮助使用者识别事务的发展趋势、挖掘数据间的关联关系，发现数据背后的知识与规律，高效获取有价值的信息。

2　基于大数据的信息系统关键技术分析

信息主要有文本、视频和音频三种表达方式，理解和应用各种信息是信息处理系统研究的基本内容。信息具备各种属性，理解、认知、表达和利用其属性是各类企业成功的基础。例如，Google成功利用互联网信息的链接关联性模型完成了搜索引擎的开发应用；Facebook、新浪微博通过研究信息的社会属性，构建了类似人际交流的信息流动平台。基于大数据的信息系统的具体功能千差万别，结构复杂多变，但就其关键技术而言，可细分为：分布式大数据存储技术、分布式大数据处理技术以及大数据运算与管理技术等。其核心技术又可分为处理和分析两类，每一类中又包含多种大数据技术，如数据挖掘技术、模式识别技术、信息处理技术、数据库技术、云计算技术、可视化技术等。

2.1　分布式文件管理技术

数据存储与管理是应用大数据的基础之一，目前针对大数据信息系统设计的分布式文件管理技术在各大互联网企业中得到了成功地运用。其中，Google提出的GFS文件管理系统技术使用大量价格低廉的服务器，搭建一个具有较高拓展性能的文件管理系统。大数据被分块存储到不同的服务器中，通过关联链接、追加更新等方式对数据进行存储与管理。

2.2　分布式数据处理技术

大数据服务通过将各类大数据操作进行封装，为消费者提供无处不在的、标准化的、随需的检索、分析与可视化服务。

分布式数据处理系统的主要数据处理技术包括批处理技术和流处理技术两种。批处理技术将需要处理的数据先存储起来，再按照某种特定的分割方法将其分为多个数据块，分别交由多个处理服务器进行并行处理。淡化了数据的关联关系，极大地提升了数据的可调度性和集群性，其核心在于数据的划分方式、分配方式和处理技术。流处理技术将所需要处理的大数据看作是一个不间断的流，实时地对进入处理系统的数据流进行处理和返回结果。明显地提升了系统的数据处理时效性。

2.3　分布式数据库技术

传统数据库大多是关系型数据库，由于大数据的体量巨大且类型多样，关系型数据库在处理大数据时普遍存在着不可忽视的缺陷，再加上大数据的价值密度较低，对数据库提出了新的要求。分布式数据库系统采用更加简单的模型对数据信息进行管理，将其管理的数据信息看做字符串，且不直接对字符串进行解释，使被管理的数据具有结构化或半结构化特征，从而简化了数据库系统。

3　结束语

通过对相关大数据的分析、挖掘，商家可制定更加精准有效的营销策略和做出更加高效可行的决策；零售商能及时掌握市场需求情况和发展动态并做出适时应对；企业能为消费者提供更加精准的个性化服务；在公共事业领域，可促进经济发展、维护社会稳定；在医疗领域，可提高诊断的准确性和更有效地对症下药。通过实时监测、跟踪、分析、挖掘研究对象在互联网、移动互联网上产生的大量行为数据，可揭示出规律性的东西，有助研究结论和对策。随着计算机通信技术的不断发展、进步，信息技术已经深入到社会经济、国防、教育、交通、医疗等各个领域。数据库技术在信息系统中承担着存储和管理信息的使命，分布式数据库技术是数据库技术发展的主要方向。