大数据发展的特点、问题及其对策研究
2018-05-26南东辰
摘 要:大数据是体量巨大需要更快、更强的能力处理的信息资产。它的特征是数据数量巨大、数据有多样性、价值真实性高且密度低、处理速度较快。大数据的发展面临新的挑战,可能使得个人隐私泄露,大数据的发展需要更多的模型和计算方法。加强立法活动,加强数据开发,加大对人才培养是大数据发展的策略。
关键词:大数据 特点 问题 对策
大数据(Big Data)是极其庞大的数据存储资料,因为其数据体量巨大,需要更快、更强的能力才能够处理,使其变成有价值的信息资产。大数据产业具有重要的战略意义,通关对原有数据进行产业加工,挖掘有价值的信息,从而提升企业利润和加强政府管理能力。
一、大数据发展的特点和问题
1、大数据的4V特征
大数据发展是维克托·迈尔·舍恩伯格在《大数据时代》中提出的概念,大数据应该对所有数据进行分析处理,而不是采用单一的抽样调查处理[1]。在业界,通常用4V来形容大数据发展的特点,即是Volume(数据数量巨大)、Variety(数据有多样性)、Value(价值真实性高且密度低)、Velocity(处理速度较快)。大数据数量大,每天产生的数据在不断膨胀,在PB(=1000TB)、EB、ZB级别;数据类型多样性包括图片、视频、位置等;数据虽然特别巨大,但是能够在很短的时间内提取信息。
2、大数据的存储特点
大数据的数据存储模式通常有三种:第一类是,采用MPP架构新型数据库集群,采用列存储、粗粒度索引等技术,使用MPP架构高效的分布式计算模式,对企业分析类应用数据存储;第二类是,采用Hadoop技术对数据扩展和封装,利用Hadoop衍生的几十种NoSQL技术,对非结构化数据计算,可以有效处理非结构、复杂数据计算,充分挖掘其特点;第三种是采用大数据一体机,专门为大数据分析而开发的服务器,在里面可以对数据有效存储、查询、分析等。大数据主要包括大规模并行处理(MPP)数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
二、大数据发展的问题
1、大数据的数据安全面临挑战
大数据技术与传统的数据存储不同,它的存储周期为复杂多链条形态,数据共享、交易、存储、挖掘分析等使得数据应用多样化,在信息系统软硬件架构变革的背景下,黑客可能对数据篡改、伪造、重放,控制关键节点,使其成为高数量级僵尸网络。大数据采用开放的分布式存储和计算架构,深层的程序设计复杂,高级持续性威胁APT攻击和大规模分布式拒绝服务DDoS攻击,传统的防御技术无法抵御外界攻击,有的甚至将大数据作为APT攻击的载体,这些新型手段的破坏方式给大数据管理带来了挑战。
2、大數据发展使得个人隐私泄露
在大数据时代,互联网企业如百度、腾讯、阿里巴巴等企业既是数据的生产者,又是数据的存储、管理、使用者,他们在不同场景对数据收集处理,这很难确保数据不被匿名、隐蔽、清楚个人关键信息。有的企业为了追求利润目的,不同企业之间互相共享客户数据,缺乏有效监管,主要靠企业自律,用户无法确定自己隐私信息的用途。再则,服务商内部人员偷盗售卖个人隐私信息,或者是网络供应商数据被木马、钓鱼网站、病毒等劫持盗用,大数据技术应用使隐私保护和公民权益面临严重威胁。
3、大数据的使用和分析的问题
由于大数据中数据体量巨大,数据常常以杂乱无序的方式呈现,有效、有价值的数据应该是精确完整、有价值的,在对数据采集与获取以后,需要用到不同的分析过滤技术,将多源数据进行融合计算,对数据源进行自动检测与修复,提高数据源的质量。在对数据分析中,数据建模也是重要核心的方法,由于数据海量式呈现,需要构建众多模型构成的模型库,挖掘出数据背后的共性特征和个性化的差异特征。大数据产生具有动态性和涌现性特点,数据的产生与多少都是不确定的,在分析过程中,需要对这些不确定的问题进行有效配置和弹性地调度,探索动态相应的策略与算法,不断优化和改进,才能够实现数据价值的开发和有效利用。
三、大数据发展的对策研究
1、加强大数据立法活动,确保大数据信息安全
2017年6月1日开始实施的《中华人民共和国网络安全法》明确规定了,“任何个人和组织不得从事非法侵入他人网络、干扰他人网络正常功能、窃取网络数据等危害网络安全的活动;不得提供专门用于从事侵入网络、干扰网络正常功能及防护措施、窃取网络数据等危害网络安全活动的程序、工具”,“网络运营者不得收集与其提供的服务无关的个人信息,不得违反法律、行政法规的规定和双方的约定收集、使用个人信息,并应当依照法律、行政法规的规定和与用户的约定,处理其保存的个人信息”[2]。国家从法律的角度规范了数据收集、存储、使用、删除等行为,应当继续完善个人信息保护的规定,并制定相关的配套政策供具体执行,确实着力保护个人信息安全。
2、加大对数据开发力度
用云存储技术应对不断增长的大数据,解决储存容量、设备、位置等问题,确保数据的安全可用。云存储的数据中心架构,“基于云计算理念架构数据,以云服务等级协议为基础,采用并行编程模型的调度分割,并行数据库和分布式文件系统,对结构化数据和非结构化数据储存”,并为客户提供所需的服务。针对海量的数据,应该提高数据的质量,针对业务数据、传感数据、网络数据等,将不同类型的数据分类处理,动态增减,加强数据理论和技术研究,筛选有价值数据。对数据的分析,需要优化模型库和知识库,修正相关参数,加强复杂模型库的设计与研究,使得扩展的数据分析模型能够应对不断增长的大数据。大数据的需求分为周期性和非周期性需求,针对非周期性需求可以采用弹性的广布分配的计算方法来处理,构架弹性和虚拟云计算处理体系以实现技术动态平衡[3]。
3、加大对大数据人才培养
我国大数据产业整体实力与国外相比仍有较大差距,作为大数据发展的核心专业人才队伍建设不足是一个重要原因之一。当前我国的大数据人才培养主要是以统计学和计算机培养为核心,统计学人才主要注重基础性数据挖掘、分析和建模,计算机人才大培养包括了计算机设施、系统集成与存储、数据建模和管理、深层次的数据分析和挖掘以及计算机安全等多方面。与国外日趋成熟的培养模式相比,我国国内培养大数据人才刻不容缓,要完善大数据培养方式,增加大数据专业方向,积极借鉴国外经验,快速、全面的获取先进的人才,为我国大数据发展打下坚实的人才基础[4]。在打造高端人才的同时,要积极引进高端人才,把懂大数据分析和管理的国际高层次人才引进国内,让重点高校和科研院所培养更多高端专业人才。另外,为适应不断变化的市场需要,要加强对在职人员相关技能的专业培训,提升他们的大数据收集、分析、应用能力。
参考文献
[1]维克托·迈尔-舍恩伯格.《大数据时代》[M],浙江人民出版社,2013年1月1日
[2]中华人民共和国网络安全法(附草案说明)[M], 法律出版社,2016年11月
[3]官思发、孟玺、李宗洁、刘扬,大数据分析研究现状、问题与对策[J],情报杂志,2015年5月18
[4]刘宏晶,国内外高校大数据高端人才培养途径与启示[D],北京:首都经济贸易大学,2017年3月
作者简介
南东辰(1995-),男,陕西咸阳,西安翻译学院,大专,15级,专业:工商企业管理。