APP下载

大数据融合分析应用的多角色探索

2021-06-24陈静

中国信息化 2021年6期
关键词:模型资源融合

陈静

大数据时代的到来,数据共享与开放机制成熟,大数据融合分析应用中新角色和职责随之产生。本文介绍了在大数据融合分析应用中主要扮演的多角色,各角色的分工任务及配合。

一、引言

随着计算机和信息技术的迅猛发展和普及应用,行业应用系统的规模迅速扩大,行业应用所产生的数据呈爆炸性增长。大数据相关技术紧紧围绕数据价值化展开,数据价值化将开辟出广大的市场空间,重点在于数据本身将为整个信息化社会赋能。随着大数据的落地应用,大数据的价值将逐渐得到体现。

党中央、国务院高度重视大数据在经济社会发展中的作用,党的十八届五中全会提出“实施国家大数据战略”,党的十九大明确提出要加快推进信息化,建设“数字中国”、“智慧社会”,党的十九届四中全会提出“推进数字政府建设,加强数据有序共享”。推进政务数据汇聚共享和综合应用,是新时代推进国家治理体系和治理能力现代化的必然要求。

为抢抓大数据发展重要战略机遇,围绕加强政务、行业、互联网数据共享利用,促进“数字政府”建设和经济社会发展,大数据融合分析应用至关重要。

二、大数据的特征

大量:随着信息技术的高速发展,数据开始爆发性增长。社交网络(微博、推特、脸书)、移动网络、各种智能工具,服务工具等,都成为数据的来源。淘宝网近4亿的会员每天产生的商品交易数据约20TB;脸书约10亿的用户每天产生的日志数据超过300TB。迫切需要智能的算法、强大的数据处理平台和新的数据处理技术,来统计、分析、预测和实时处理如此大规模的数据。

高速:大数据对处理速度有非常严格的要求,服务器中大量的资源都用于处理和计算数据,很多平台都需要做到实时分析。数据无时无刻不在产生,谁的速度更快,谁就有优势。数据类型繁多也对数据的处理能力提出了更高的要求。

多样:大数据时代,数据格式越来越多样化,包含了文本、音频、图片、视频、网络日志、地理位置信息、模拟信号等不同类型;数据来源也越来越多样化,不仅产生于内部平台,也来自外部数据,从而决定了大数据形式的多样性。

价值:现实世界所产生的数据中,有价值的数据所占比例很小。相比于传统的小数据,大数据最大的价值在于通过从大量不相关的各种类型的数据中,挖掘出对未来趋势与模式预测分析有价值的数据,并通过机器学习方法、人工智能方法或数据挖掘方法深度分析,发现新规律和新知识。

三、大数据融合分析的基础支撑环境

从大数据融合分析应用的角度来看,基础支撑环境离不开软硬件和大数据技术的支撑,包括资源池层、服务层、管理层、辅助技术平台层。从大规模数据融合分析的需求考虑,大数据架构平台技术选型上要求采用开源的分布式技术架构为基础进行搭建,以具备开放融合的数据采集、数据存储、数据分析的服务能力。采用云计算技术构建统一的基础设施、支撑软件、应用功能、信息资源、运行保障和信息安全等服务,为数据融合分析应用提供敏捷、可靠、安全、弹性的IT基础支撑环境。

(一)资源池层

资源池层包含了基础设施、及通过云平台软件和大数据平台软件在基础设施之上抽象出云资源池和大数据资源池,云资源池包括云计算、云存储、云网络等资源池,大数据资源池包括Hadoop资源池和MPPDB资源池,各种资源池可以根据大数据融合分析应用进行构建。

(二)服务层

服务层通过对资源池层各类资源的封装,通过分布式的算法进行资源的分配,从而消除物理边界,提升资源利用率,统一资源池分配。实现资源服务的发现、路由、编排、计量、接入等功能,显现从资源到服务的转换。云资源池服务主要包括计算资源服务(虚拟机服务、物理机服务、镜像服务等)、存储资源服务(块存储服务、对象存储服务、文件存储服务等)、网络资源服务(虚拟私有云、安全组服务、虚拟防火墙服务、弹性负载均衡、弹性IP服务等)、虚拟数据中心、硬件托管服务等。

大数据资源池服务主要包括H a d o o p资源服务(HDS、RDS)、MPPDB资源服务(ADS)等。

(三)管理层

管理层包含整体运营、运维管理及公共组件的管理,包括VDC管理、租户管理、服务控制台、资源管理、拓扑管理、性能管理以及安全管理等。其中安全管理包括主机安全、数据安全、应用安全、管理安全等方面的相关管理。

(四)辅助技术平台层

采用大数据技术构建海量数据的存储、计算平台,为大数据融合分析应用务提供开放、高效的大数据存储、分析、挖掘等服务。

大数据融合分析应用需要通过辅助技术平台,实现多种数据源融合、处理、分析,完成大数据融合分析协调工作,进行数据分析、指标预警、专题报告、舆情分析、报表分析、决策支持等综合性分析服务工作。应用以自然语言处理、数据挖掘、机器学习等算法模型为手段,能够支撑辅助决策分析的数据分析人员及其他使用者对数据进行一系列的操作,最终实现数据分析工作人员在线交互式的大数据协同分析工作。

四、应用角色的分工配合

大数据融合分析应用由于大数据的特点和技术创新,对应用开发提出了新的要求和规范,增加了应用难点,对专业人员提出了更新、更高的标准,从而需要多角色分析人员进行应用设计和维护,确定各角色分工任务及边界就至关重要。

(一) 主题管理角色

主题管理角色需要根据大数据融合分析应用的要求,开展需求调研,掌握需求调研方法,能协助业务部门进行需求的分析和梳理,并输出系统建设或优化需求;善于分析和归纳总结,将需求逐级分解,创建主题管理,理解需求的基础上进行主题任务需求拆解,针对大数据融合分析应用需求特色需要包括数据分析需求、平台需求、模型需求、数据治理需求、数据采集需求等多方面;需要具备极强的沟通表达能力与其它角色进行有效沟通和配合。

大数据融合分析应用的建立依赖于自顶向下的数据规划和自底向上的数据发掘。其中数据规划是面向业务主题的,针对需求管理师确定的需求进行采集、主题拆解规划、产生主题数据规划,和已有业务主题的应用管理,对各个服务内容进行汇总编排。整体过程对后期的数据治理有重要的指导意义。自底向上的数据挖掘是进行多维度数据智能挖掘,从而推动动态主题的形成,這部分新发掘主题也要按需进行管理。

(二)规范管理角色

在大数据融合分析应用中,规范尤其重要,需遵循国家相关标准规范,参考借鉴国内外类似标准规范,以及大数据融合分析应用主要主题、流程和特点,研究制定项目工程技术标准、数据标准、业务规范、管理规范等。同时,规范管理角色还需要解决应用中数据采集、数据开放、指标口径、交换接口、访问接口、数据元标准、基础代码标准、接口开发规范、数据质量管理规范、技术产品、安全保密等关键共性规范,从而推动建设有规范、维护清晰化、数据安全化、数据资产保护化,保障和规范大数据应用发展。

(三)数据治理角色

数据治理角色主要承担日常的数据治理及新增治理工作,接收主题管理角色派发的主题数据治理任务,快速响应新的数据治理工作需求,将零散数据治理开发成“可见、可得、可用”的数据资源。同时,数据治理角色还需要配合规范管理角色,快速构建一套确保数据质量的标准,对数据标准进行实时跟踪,确保数据质量,更好地为应用提供数据支撑。

数据治理角色可以利用数据治理工具实现数据采集之后的数据集成、数据建模、元数据管理、数据质量管控和数据服务,将零散的数据通过治理开发形成统一的数据资源,保障数据质量和数据安全,确保数据资源在授权范围内可用。

数据治理离不开辅助技术平台的支持,数据治理角色通过数据交换平台和数据资源目录平台,能够实现大数据分析应用所需数据源的统一接入;通过数据治理平台和数据集成平台,实现数据资源的统一汇聚、融合和分发,将零散的数据通过治理开发形成统一的数据资产,并保障数据资源安全;通过以自然语言处理、数据挖掘、机器学习等算法模型为手段,能够支撑治理人员对数据特殊要求进行基本操作。

(四)融合分析角色

数据融合分析是以产生决策智能分析为目标,融合分析角色通过主题需求制定主题指标,实现数据和指标的业务保障;并通过数据分析挖掘,完成指标模型的机器学习、深度学习、模型评估等工作,保证业务应用可用性和可靠性。

数据融合分析角色还需基于数据分析挖掘系统承担主题模型的开发实现工作,基于业务需求的模型详细设计,进行接入数据预处理、模型设计、模型训练、模型推理结果输出、模型评估和部署落地,并可以服务的形式发布以备随时调用。数据分析挖掘系统需具备以下三种能力:

1.通用算法能力

数据分析挖掘系统需要为用户提供封装好的、可简单可视化调用的通用封装算法(如特征工程、图计算、时间序列、回归、分类、聚类、推荐、异常值检测等),并支持用户进行便捷的参数调节能力,完成数据处理、模型训练等工作。

2.业务模型训练能力

数据分析挖掘系统需支持用户上传、获取业务数据,并基于用户业务数据,调用平台封装的通用算法完成数据处理及模型训练工作,使得模型具备解决实际业务场景问题的能力,将通用的算法转化为实际业务模型。

3.模型服务能力

数据分析挖掘系统需支持用户将训练的业务模型发布为服务并注册至应用支撑中心。模型服务为模型轻量化的应用方式,基于数据分析挖掘系统的计算资源,用户可通过在线接入業务数据的形式,调用业务模型并得到推理结果,从而支撑其他系统的应用需求。

(五)可视化角色

可视化角色需要满足多终端访问的需求,包括大屏展示、PC机、智能手机、PAD等,同时采用BI可视化工具,建立大数据分析业务应用丰富的可视化展现。服务包括基于GIS的全景精细呈现;GIS信息、GPS数据、建筑物三维数据、统计数据、摄像头画面等多类型数据融合呈现;支持时间、空间、属性等多维度呈现和查询能力,如二三维联动查询、历史回放、圈选查询、筛选查询等;设置仪表盘,让图表展示效果更加灵活有特色。

(六)安全管理角色

大数据在为数据治理提供方便的同时,也会给个人隐私、企业机密、政府公信乃至国家安全带来挑战。数据如同一把双刃剑,在带来便利的同时也带来了很多安全隐患,随着各地用户信息安全事件频出,让人们开始感受到“数据”与生活接触如此紧密,数据泄露可以对个人的生活质量造成极大的威胁。数据安全和隐私保护不仅是公民个人的责任,对采集数据和共享数据的政府单位,也有义务保障数据的安全和隐私,此过程中,政策、技术、意识缺一不可。

安全管理角色需要根据应用主题确定数据采集、质量保障和安全管理标准,明确数据安全责任、主体风险和权利义务,处理好创新发展与保障安全的关系,建立完善安全保密管理规范措施。同时加强关键信息基础设施安全防护,做好平台及服务商的可靠性安全性评测、应用安全评测。

五、结语

在大数据融合分析应用中,各角色的分工越来越细致,角色任务边界愈来愈明显,分清各角色任务是实施大数据融合分析应用的前提保障,为后期应用实施规范化管理及解决快速应用快速服务带来优势。未来随着大数据技术发展日益成熟,后期会对大数据融合分析应用各类角色提出更高更专业的要求。

猜你喜欢

模型资源融合
“五学”融合:实现学习迁移
自制空间站模型
刚柔并济
我给资源分分类
破次元
挖掘文本资源 有效落实语言实践
融椅
资源回收
模型小览(二)
圆周运动与解题模型