大数据应用的技术体系及潜在问题探讨
2022-01-17谢恩
谢恩
(湖南省食品药品安全信息中心,湖南 长沙 410013)
0 引言
随着互联网技术的发展和应用,如何加快中国信息处理技术的发展,实现建立大数据应用的体系也受到社会的广泛关注。在这些工程中,大数据应用基础设施的建设是最基本、最核心的问题[1]。大数据处理已成为现代社会最重要的问题之一,也是关系到国家网络安全的重大问题。随着信息产业作为国家战略的发展,大数据应用处理体系的建设成为近期工作的重点。更重要的是,大数据网络的发展和普及对信息传输提出了更高的要求。因此,大数据应用体系的建立和发展在眼下就显得尤为重要。
1 大数据应用的重要性
1.1 大数据是国家技术发展规范的重要组成部分
近些年来,我们正面临这一场巨大的变革,这场变革的引起者就是信息和数据。大数据应用已经充分渗透进了社会的各个领域以及人们日常生活的各个方面,并成为推动社会经济的一种新的动力。根据市场数据显示,2010年-2015年,全球流量激增26倍,在2012年我国大数据市场规模上升至4.5亿元人民币,同比上涨40.6%, 从2013年开始,大数据市场呈爆发式增长,2016达到101亿元。信息技术的革新、社会经济的改善,都表现出大数据应用引起的诸多变化。在信息化建设的竞争阶段,大数据应用已然成为世界各国竞相发展的重点。大数据影响着各国之间的竞争,成为了一种国家必备的软实力。也将引领未来国际竞争的战略格局[2]。
正如前文所述,大数据应用体系的建设是十分有必要的,同时也是国家发展规划中的重要技术组成。目前大数据技术同样广泛应用在政府机构中,例如在上海早在2006年便开始通过公开金融信息,从而催生了一大批金融咨询服务企业,极大的拉动了就业;再例如交通部门通过大数据技术实现交通状况的动态检测等。通过立体的探索和研究并通过深度的发掘大数据应用领域,将会成为未来大数据发展最主流以及最核心的方向。如图是近年来我国的大数据应用的比例:
1.2 大数据应用渗透至各行各业
大数据建设的意义所在是其在现实中的应用,需要通过调研从而发掘大数据在不同场景下的应用,因为只有深入了解应用场景的本质,才能对客户的需求充分掌握并做出真正符合市场需求的高性价比应用。通过细分行业的充分规划可以实际高效的大数据平台打造,必须发掘大数据在细分行业的应用点才可以实现大数据的价值体现并将其最大限程度的利用。
图1 大数据应用比例(数据来源:国家统计局)
1.3 大数据驱动技术创新
大数据的出现不是凭空的,技术的变革才是关键和基底。核心技术从来都是大数据价值体现的根本。从数据信息的获取到数据信息研究从再到算法模型与数据呈现,必须都要以关键的技术支持。大数据时代的到来,是通过刺激经济发展需要的间接手段,从而极大的驱动技术的创新[3]。
2 大数据应用的技术体系
大数据所需的资料量以及数据量极其庞大,主流的软件无法在合理的时间内进行有效的处理。而眼下,对大数据主要的定义为:规模庞大、信息种类多样以及处理效率极高。规模庞大就是:数据量积累到一定的程度,就无法用主流软件进行分析处理,大多需要用定性模式来操作;数据多样是指,面对需要处理的信息类型,将这些信息分为结构化、本结构化和非结构化,将这些特征加在相应信息的属性上,提升操作的效率。
2.1 基础设施建设
大数据技术的关键意义不仅仅是对大量数据的接收,关键在于对这些海量数据的针对处理分析。换句话说,大数据实现经济价值的关键是提高数据分析的水平,从而实现实现数据处理的价,而大数据的基础设施就是指实现数据的获取存储与管理并实现分析的基础设施——即大数据处理中心,它涵盖了计算机系统以及其他的配套设备,例如通信和存储设备等。它的特点在于可以对大量数据进行专门的挖掘与处理。
数据中心的概念最早起源于上世纪60年代,主要与计算机信息存储等相关。在上世纪90年代,数据中心又逐渐发展成为——将服务器放在一定的空间并实现布线和连接设备,到来21世纪,互联网的发展十分迅猛,从而让数据中心的建设需要也随之不断增加。到了2021年,云数据中心的概念与技术开始出现,因此数据中心也采用了超级融合架构管理的技术与模式——即将计算内存网络资源、服务器虚拟化技术相互结合,并整理在同一组服务器上从而实现使用的管理软件的统一管理,且可以将网络上的多组设备聚合在一起,以形成一个单一的资源池。近年来伴随着用户的平均流量不断增加,数据中心的建设又迎来了新的需求和变化[4]。
2.2 软件建设
大数据系统软件将大数据处理平台与大数据应用软件相结合,是大数据系统的基础,大数据系统软件是分布式计算机平台资源的统一抽象,提供基本的通用功能,如集成存储管理、分析框架、全生命周期数据工程、大数据处理安全等,为大数据应用的开发和运行提供环境,是大数据产业的“主要驱动力”。
国际大数据系统软件开发主要以OSS为基础,逐步形成了以Hadoop、spark、tensorflow为代表的,大数据应用开发的共同核心软件和工具平台。国际开放源码软件基金会(APACHE)和其他社区被用作快速技术开发的平台。IBM和其他基于开源软件的商业版本也打包在hadweb中,hadweb是一个非常重要的开源框架,用于在大型数据流程序中使用数据流分析数据流,包括批处理、连续操作、统计分析、计算图和tensorflow,是一个开源软件平台,通过与数据处理和数据处理系统中成熟的关系数据库技术的比较,针对大数据时代的负载优化问题,提出了一种,基于列族和键索引的无模型存储系统,并给出了计算框架。从大数据系统软件开发的实践来看,注重区域创新和生态创新是大数据系统软件的发展方向。大数据领域国家工程实验室作为公共平台,通过创新和突破,是大数据系统软件的核心技术,促进了大数据与各种行业应用的深度融合,推动了大数据系统软件技术和产品的研发,形成具有代表性的示范应用案例。
2.3 移动端开发
通过大数据的基本原理可以到处——大数据是凭借多种渠道来达到获取信息的目的。计算机和移动终端(如手提电脑等)分布在有线、无线网络中从而增加获取信息的渠道,而各种传感器又广泛的应用在不同的移动终端上,凭借这些传感器,用户可以实现获得各种信息的目的,并通过网络传输数据。因此在大数据时代,移动端是其大数据传输的关键媒介。
实现信息数据的共享是目前技术研究的关键,这其中涵盖了针对实现为大数据信息的获得提供保障传感器研究,以实现高速优化自身网络结构的技术目的。以Wed2.0为例,它可以实现将网络上的各项信息由被动的信息接受转化为信息研究分析,为网上“冲浪”增加体验感,可以说在大数据时代,网络技术手段的成熟与移动端的大力开发,为人们的生活带来了很多的便捷。
2.4 管理体系建设
随着大数据技术的不断深入应用,信息安全所面临的风险相比,也发生了根本性的变化。从这个角度考虑和出发,对大数据建立完善的管理体系的要求十分迫切。
整体的数据安全管理体系通常通过分层建设、防护,利用平台能力及应用的可成长、可扩充性,创造管理体系系统框架,形成完整的安全管理体系。其中,数据采集和分析是基本要求。收集汇总各类业务系统产生的海量信息数据,并运用实时关析技术、智推技术和风管技术,对数据事件统一加工分析,实现对数据安全风险的统一监管和风险预警处理。敏感数据隔离交换层通过数据指纹采集、内容检测和响应处理三个步骤,极大提高了工作效率。数据防泄露层击破:数据易流动、易复制、难管理等难题,深度分析和识别、监视和保护静止的数据、移动的数据以及使用中的数据,达到在敏感数据利用的,事前、事中、事后完整保护和响应,实现数据的合规用,防止数据泄漏。
3 潜在问题
3.1 信息安全问题
在大数据的发展过程中,不得不提到一个非常关键的问题——安全以及隐私问题。随着目前科技的提升,以摄像头为代表的监控设备在不断增加,为人们提供位置信息记录、监控的同时,但也有被不法分子利用的风险。他们通过对数据的窃取,从而掌握人们的出行、消费等信息情况,从而达到为自己提供非法牟利的目的。另一方面由于云计算技术的不断提升,这为僵尸网络的发展带来了便利的同时,也增加了密码被破译的风险,由于人们对于计算机的依赖程度不断提升,所以信息安全技术是目前大数据发展的同时一直是不容忽视的风险[5]。
3.2 数据准确性问题
数据输入规范的不统一,造成不同的业务部门、不同时间、甚至在处理相同业务的时候造成数据冲突或矛盾。并且,不是所有行业都有公认可信的数据标准,而组织标准制定过程中容易出现数据元描述及理解错误;代码不正确、不完整等情况都会导致大数据不准确的主要因素。
3.3 运营管理问题
由于大数据产业的发展较为迅速,因此也就导致了大数据在具体的行业应用中存在一些运营管理问题的存在,包括运营管理制度的建设不完善、对于大数据在具体应用场景中的掌握不充分等,从而大大限制了大数据技术的实际应用效果。
4 结论
在目前的时代发展背景下,大数据在发展过程中会遇到很多机遇,同时也会遭遇不同的挑战,因此做好系统化的规划是非常重要的,同时针对数据的分析处理也十分关键,因为它可以为企业的发展提供准确的信息,从而为企业创造极大的经济效益;另一方面,大数据的的发展也为百姓的提供了更好的生活条件。综上来看,全面的掌握大数据的核心内涵、并规范大数据的处理步骤,针对大数据处理技术上存在的缺陷进一步研究并解决,可以达到大数据信息的处理品质并使得大数据在实际应用中的水准得到提高,同时针对大数据技术中的安全性性等问题也需要提上日程。