APP下载

基于MAXcomputer+DSC前置机的行业公共数据链的设计与应用

2022-05-30杨凌张天荣

电脑知识与技术 2022年30期
关键词:数据链

杨凌 张天荣

摘要:行业公共数据链作为行业数据共享的通道,其运行效率和安全影响着数据汇聚对用户的服务水平。传统数据中心网络无法承载海量数据的行业条线传输,基于阿里的MAXcomputer数据仓+DSC前置机的行业公共数据链设计方案,不给行业条线单位增加任何经济压力就能分析处理高达PB级的海量数据,形成省厅-市-县/区完整的行业全域公共数据链体系,提供数据汇聚、数据推送、数据查询、数据填报、统计分析、比对订阅等面向数据应用的场景。

关键词:数据链;行业数据仓;DSC;MAXcomputer

中图分类号:TP274        文献标识码:A

文章编号:1009-3044(2022)30-0066-02

开放科学(资源服务)标识码(OSID):

1 引言

随着信息技术的逐步成熟和数字化改革的持续推进, 越来越多的行业数据被积累下来,数据规模已经增长到了传统软件行业无法承载的海量数据(百GB、TB乃至PB)级别对各个行业条线的大数据汇聚和共享要求越来越高。传统的手工报送、即时聊天软件传输或树形层次性结构汇聚都不能满足海量数据实时共享的需求,迫切需要构建部、省、市、区县一体化的数据服务链路体系,形成行业公共数据平台的开放体系。通过大量调研,笔者设计了基于阿里的MAXcomputer数据仓+DSC前置机的行业公共数据链解决方案,不给基层条线单位增加任何经济压力。

2 行业公共数据链的设计

2.1 MAXcomputer

MaxComputer是阿里云的一种全新的大数据处理服务,是一种用于批量结构化数据的存储和计算,提供海量数据仓库和针对大数据分析建模的服务[1]。MaxComputer能提供完善的数据导入方案以及多种经典的分布式计算模型,能够提供快速的、一站式的、完全托管PB级数据仓库的数据同步、任务开发、数据工作流开发、数据管理和数据运维服务,让需求单位不用花大价钱建设数据中心,就能分析处理高达PB级的海量数据,有效降低企业或单位成本,并保障数据安全[2]。

2.2 DSC前置机

很多大型企业(如银行、券商、电信运营商等)有很多后台核心处理系统和核心数据,当需要对外提供各种业务接口和数据服务时,会在他们企业内部部署一台服务器(或计算机),然后通过专线或硬件隔离技术将这台服务器连接到外部企业的外网系统上,这台服务器称为前置机。前置机用于安装外部需求企业的业务软件或架设一个小型数据仓,方便企业或单位之间交换、存放和获取数据。

政务(或企业)内外网两端的业务系统需要数据交换,在各自业务系统前布置前置机,实现数据交换。一是前置机能保证外部的应用不能直接访问核心服务;二是前置机负责将需要交换过来或者交换的数据缓存到这台服务器中;三是前置机提供业务渠道与核心服务主机的交流桥梁,有管理和调度业务渠道发起的交易的作用,通过前置机调用可大大减轻后台核心服务器的负载[3]。

2.3 行业公共数据链的设计

2.3.1 行业公共数据链定义

行业公共数据链是一个面向数据全域共享,解决跨部门、跨区域、跨层级的数据流通和治理,为行业提供一体化、智能化的数据服务平台,助力形成全域数据资产体系,是行业/产业数据大脑建设的基石。

2.3.2 行业公共数据链的架构设计

基于MAXcomputer数据仓+DSC前置机设计的行业公共数据链,设计架构如图1所示,解决了通过在线任务的方式向下级单位发送汇聚要求、上级单位可以随时了解下级上报数据的实时情况了、下级单位对要上报的数据更清晰等问题。

3 行业公共数据服务链的关键技术

行业公共数据服务链主要涉及异构数据库离线同步、数据湖仓一体、敏捷部署、安全策略等技术。

3.1 異构数据库离线同步技术

异构数据库是指不同结构的数据库系统,如Oracle、 SQL Server、MySQL、Hive、ADS、HBase、TableStore(OTS)等;异构数据库离线同步是指不同结构数据库在离线的状态下实现数据共享和透明访问[4]。通过MAXcomputer提供的离线数据同步工具——DataX部署Reader插件和Writer插件,同步不同数据源可抽象为从源头数据源读取数据的Reader插件以及向目标端写入数据的Writer插件[5]。每接入一个新的源头数据库,在开发环境创建并运行同步数据的DataX任务,以实现不同数据源和现有的数据源的数据同步;在生产环境运行DataX任务,保障生产环境业务数据的正常产出。

3.2 数据湖仓一体技术

构建数据湖仓一体技术有两种方式:一、通过MaxCompute与数据湖构建DLF和对象存储OSS构建湖仓一体:数据湖的元数据(Schema)全部位于DLF中。MaxCompute利用DLF对OSS元数据管理能力,提升对OSS半结构化格式(Delta Lake、Hudi、AVRO、CSV、JSON、PARQUET、ORC)数据的处理能力。二、通过MaxCompute与Hadoop构建湖仓一体:该方式包括本地机房搭建、基于云上虚拟机搭建以及阿里云E-MapReduce等。当MaxCompute与Hadoop平台所在的VPC区域网络开通后,MaxCompute可以直接访问Hive元数据服务,并将元数据信息映射到MaxCompute的外部项目(External Project)中[6]。

3.3 安全策略技术

围绕数据共享的安全生命周期,借助于EDR检测响应技术通过预防、防御、检测、响应赋予前置机更为细致的隔离策略、更为精准的查杀能力、更为持续的检测能力、更为快速的处置能力[7]。另外,通过双向白名单机制,不在白名单中的IP不允许访问,并且每个下级单位加装终端检测响应平台EDR,在应对高级威胁时,通过“云-网-端” 协同联动、共享威胁情报和多层级响应机制,帮助用户快速处置终端安全问题[8]。

3.4 敏捷化部署技术

面向多变的业务网需求,采用OneData/OneProfile/OneService的一体化数据架构从明细数据→细粒度模型→粗粒度模型→业务模型的敏捷化迭代快速实现数据支撑,对场景进行建模,完成应用的快速上线[9]。同时支持海亮实时数据的汇聚和分发,采用智能分片技术,数据传输性能≥100MB/S,性能支持横向扩容。

4 甘肃省数据中心公共数据解决方案

甘肃省数据中心在构建某行业省级公共数据服务链时,为了减低下级单位的部署成本降低费用,采用的是基于MAXcomputer数据仓+DSC前置机的服务架构,实现了某行业省厅-市-县/区完整的行业公共数据链体系,如图2所示。该体系支持100多种数据源类型,支持阿里、华为、开元等多种异构大数据平台。面向数据应用的场景可提供多种服务能力,例如数据汇聚、数据推送、数据查询、数据填报、统计分析、比对订阅等。经过应用发现,基于MAXcomputer数据仓+DSC前置机的行业公共数据链体系优势如下:

1)信息资源支持按照主题,来源部门,行业等多维多检索,数据查找方便;

2)资源使用方在线填写待接收数据的地址信息,推送频率和全量/增量在线可选,推送任务自动执行,结果可在线查看;

3)云化部署,免前置机部署,监控简单,性能可线性扩展,使用方不用感知;

4)支持丰富的数据接收方式,包括MySQL/SQL Server/Oracle等传统数据库、多种文件格式、Hadoop/Hive/Hbase等大数据组件;

5)审批完成后自动启动推送服务,不用复杂人工配置。

5 结论

现代通讯与大数据技术的发展,彻底改变了传统数据报送模式下信息资源不能共享这一现状,基于MAXcomputer数据仓+DSC前置机为甘肃省数据中心设计的某行业公共数据链为行业成员组织之间提供信息桥梁,缓解了单位信息化建设中的资金、人员、技术等诸多困难,对大多数中、小单位是个福音,并且通过该行业公共数据链体系也能够促进自身的信息意识和信息化建设进程。

参考文献:

[1] 宋亚奇.云平台下电力设备监测大数据存储优化与并行处理技术研究[D].北京:华北电力大学(北京),2016.

[2] 有石为玉. MaxCompute介绍[DB/OL]. [2018-09-04]. https://blog.csdn.net/weixin_41770169/article/details/82380232.

[3] 林勉,李一凡,高洋.“云媒體电视”酒店平台系统建设[J].有线电视技术,2016,23(3):21-25.

[4] 阿里云. DataX同步数据[R/OL].[2020-12-09].https://help.aliyun.com/document_detail/194293.html

[5] 丁志勇,黄霖,董辉.路网运行管理系统的数据协同与应用研究[J].人民交通,2018(2):48-51.

[6] 阿里云. MaxCompute湖仓一体[DB/OL].[2022-1-7].https://help.aliyun.com/document_detail/205439.html.

[7] 张明全.业务安全和云化,深信服助力融合媒体智慧转型[J].中国传媒科技,2020(1):14-19.

[8] 彭佳丽, 闫凯丽, 宗思雨,等. 数据驱动下面向产品设计的需求识别研究[J]. 科技经济导刊, 2019(35):2.

[9] 向中文,陈云.行业公共数据中心研究与应用[J].计算机应用,2001,21(3):68-69.

【通联编辑:王力】

猜你喜欢

数据链
多平台通用数据链助力未来战场
高速公路工程项目实施中数据链应用探析
基于深度学习的无人机数据链信噪比估计算法
数据链技术在地铁车辆应急驾驶防碰撞系统中的应用
数据链的发展及其应用研究
直升机数据链的发展和应用
一种新型无人机数据链抗压制干扰技术的研究
舰载综合数据链便携式检测系统的设计与实现
盾和弹之间的那点事(十六)
一种无人机数据链信道选择和功率控制方法