基于磁光电存储技术的数据湖总体架构探讨
2023-06-03贾宁波孙琢王凌
贾宁波 孙琢 王凌
蓝光存储技术的海量存储、长寿命、低能耗的特点是低碳数据湖建设的最佳选择,结合电存储、磁存储的特性,为数据的全生命周期提供服务,结合数据湖磁光电一体平台、数据资源管理软件、数据湖运维管理系统,有效解决大数据使用场景下的快速响应、长期存储、低碳节能等要求。
随着5G、社交网络、自媒体的发展,数据总量呈现爆发式增长。2020 年全球数据产生量达到 47ZB(1ZB 即 1012GB),而到 2035 年,这一数字将达到2142ZB,即年均增速为 1.3 倍,也就是约每3年翻一番。努力降低全社会长期保存数据的能耗和成本,是需要迫切解决的问题。基于磁光电存储技术的低碳数据湖,并有效解决数据低成本、低功耗、长期存储问题。
一、基于磁光电存储技术的数据湖硬件架构
数据湖是存储数据自然/原始格式的系统或存储,以存储数据为主要目的,兼具数据计算、数据治理、数据深度分析挖掘、数据价值挖掘等作用。存储的数据类型包括结构化数据(行和列)、半结构化数据(如CSV、日志、XML、JSON)、非结构化数据(如email、文档、PDF等)和二进制数据(如图像、音频、视频),同时可以实现数据的长期保存、无限扩展。
(一)数据湖的存储介质
目前主流的存储方式主要有电存储、磁存储、光存储。
电存储介质以固态盘(SSD)为主,固态盘不需要机械转动,具备性能高、低功耗、易携带、抗震性能好等多种优点,在数据中心存储设备中,固态盘已经得到了广泛使用,随着价格的进一步降低,正在逐渐替代传统的机械硬盘(HDD),广泛应用于分布式存储系统中。
磁存储包括磁盘存储和磁带存储。磁盘既机械硬盘由于价格便宜、存储容量大的特性,广泛用于数据中心存储系统当中。机械硬盘的原理是电磁存储,磁盘高速旋转,磁头来回移动读写数据,磁盘高速旋转,噪音较大。机械硬盘读取速度相对较慢,一般不超过200MB/S。机械硬盘抗震能力弱,磁头在受到撞击时会易发生位置偏移,造成硬盘磁道损坏。传统磁盘存储存在功耗大、寿命短、容量小、安全性低等问题,同时,由于目前占全球存储市场 80%的磁存储,其核心技术、上游材料、整机设备均由美日企业垄断,我国存在关键技术和产品“卡脖子”,以及供应链严重依赖进口等问题。
磁带存储是二十世纪30年代的发明,距今有将近百年的历史,磁带存储是一种顺序存取的设备,具有存取时间较长、存储容量大、便于携带、价格便宜等特点,同时磁带存储也存在保存环境要求高、读写速度慢、兼容性差等缺点。磁场、湿度、温度和灰尘容易导致磁带退化、变形、发霉、粘连、磁化和磁层磨损,每隔2~3年都需要倒带一次。在读取数据时,磁带采用线性寻址方式来定位数据位置,寻址速度较慢,时间要用分钟来计量,不能满足数据快速访问的需求。磁带格式不兼容,LTO格式只能向下兼容两代,造成老磁带设备被淘汰,磁带上的数据将无法读取。
光存储技术是二十世纪80年代兴起的存储技术,光存储具有海量存储、长寿命、低能耗的特点。目前国内单张蓝光光盘最大容量为500GB,采用无机相变材料,双面6个记录层,实现容量的提升,标准19英寸机柜容量3.192PB。根据目前的研发进度,通过基于高精度运算的串扰消除技术,消除窄信道间距化引起的相邻信道间串扰的影响,改善信噪比,实现信道间距≤180nm且≥4 值化信号的高精度稳定读取,预计到2025年,单张蓝光光盘的最大存储容量将为1TB,标准19英寸机柜容量可达6PB。
按照法律的强制规定,金融数据应该保存7年甚至更长,关键设计文档数据应该保存15年,医疗数据应该至少保存30年,这些长期存储的数据被称为“冷数据”,被访问的频率非常低。随着大数据时代的到来,这些“冷数据”需要有效可靠的存储设备。蓝光光盘寿命长达50年,期间无需更换介质和数据迁移。同时由于蓝光存储具有存储介质和驱动装置分离的特性,有利于数据的长期存储。
蓝光存储自身能耗极低,42U高度蓝光机柜工作功耗170瓦特/小时,待机功耗仅为7瓦特/小时,无需专业空调设备,极大降低数据中心电能消耗。经过信通院泰尔实验室检测,1PB蓝光存储每小时能耗仅为磁存储的5.28%,与传统以磁存储为主的机房比较,1000PB存储规模,每年节省电能1482万千瓦时,节能比例96.49%。
(二)磁光电混合存储的特性和优势
海量的高价值数据如何长期、稳定、低能耗存储已成为各国数字化转型的共性和瓶颈问题。按照存储介质,结合电存储、磁存储高速响应的特性,利用光存储系统存储大规模温冷数据,利用磁存储和电存储技术存储高频访问数据,构成高效率的数据存储体系,能够保证数据的完整性及规模性,实现数据的分类保存和高效读写,充分发挥不同类型数据的短期和长期价值,使得磁光电混合存储成为当前发展趋势。利用分布式存储架构,融合磁盘、磁带、固态硬盘、光盘等存储介质的优势,提供高效、安全、稳定、低成本的全介质数据存储系统,保证数据安全的同时节约社会存储成本。
(三)硬件架构
磁光电全介质存储系统,基于全介质管理的能力和智能分级技术,兼具电、磁存储高性能读写和光存储海量存储、长寿命、低能耗等特點的分级存储能力。
存储层划分为热数据池和温冷数据池。业务层产生的视频、图片、文件等非结构化数据通过接口写入到电磁存储上,保证数据读写的快速响应,随着数据访问频率的降低,系统会依据生命周期管理策略将数据转储至温冷数据池的蓝光介质。数据在不同介质中智能流转均通过系统自动实现。
磁光电全介质分级存储架构,20%的热数据通过电、磁存储,保证高性能;80%的冷数据通过蓝光存储长久保存,绿色节能,安全可靠。磁光电混合分级存储架构,是解决数据湖能耗、能效及安全问题的关键技术。
二、目前主要厂商数据湖软件架构概述
(一)AWS数据湖软件架构
AWS数据湖架构是基于AWS Lake Formation构建的。AWS Lake Formation是管理性质的组件,和其他AWS服务配合,完成整个数据湖构建。数据处理的过程包括数据流入、数据沉淀、数据计算、数据应用四个步骤。
数据流入包括元数据的流入和业务数据流入,元数据流入包括数据源创建、元数据抓取,形成数据资源目录,生成安全设置与访问控制策略。AWS把元数据抓取、ETL和数据准备剥离出来形成AWS GLUE组件。AWS GLUE与AWS Lake Formation共享同一个数据资源目录。异构数据的接入AWS支持S3、AWS关系型数据库、AWS NoSQL数据库,AWS利用GLUE、EMR、Athena等组件支持数据的流动。
在数据沉淀阶段,AWS 采用Amazon S3(Simple Storage Service)作为整个数据湖的集中存储模式,Amazon S3是一种对象存储服务,可提供业界领先的可扩展性、数据可用性、安全性和性能。Amazon S3提供易于使用的管理功能,以便组织数据并配置经过微调的访问控制,以满足特定业务、组织和合规性要求。
在数据计算阶段AWS采用GLUE组件进行基本的数据处理。GLUE计算形式是批处理模式的ETL任务,触发方式包括手动触发、定时触发、事件触发三种。事件触发模式,利用AWS Lambda架构进行开发,提升了任务触发的定制开发能力,各类ETL任务,可以通过CloudWatch进行监控。
在权限管理方面, AWS通过Lake Formation提供的权限管理,数据资源目录访问权限和底层数据访问权限,对应元数据与实际存储的数据。存储数据的访问权限又进一步分为数据存取权限和数据存储访问权限,数据存取权限类似于数据库中对于库表的访问权限,数据存储权限则进一步细化了对于S3中具体目录的访问权限。
AWS 客户能够在云中构建数据湖,并提供可扩展、安全、经济高效的组合,同时使用机器学习的各种分析方法进行数据分析。Lake Formation为提供查询数据集的能力,AWS Glue用于数据集成,Athena用于SQL, Redshift用于数据仓库,EMR用于基于Apache spark的大数据处理。Lake Formation的数据集显示在目录中,始终执行访问控制,用户随时在相同的数据上组合分析方法。
(二)华为数据湖软件架构
华为数据湖主要包括两个平台,数据湖探索平台(DLI)和智能数据湖运营平台(DAYU),DLI相当于AWS的Lake Formation、GLUE、Athena、EMR(Flink&Spark)的集合,DAYU是数据治理平台。
数据湖探索DLI兼容openLooKeng、Apache Spark、Apache Flink生态,提供流处理、批处理、交互式分析的融合处理分析服务,使用标准SQL、Spark、Flink程序完成多数据源的联合计算分析,挖掘数据价值。
DLI用户可以通过可视化界面、Restful API、JDBC、ODBC、Beeline等多种接入方式对云上CloudTable、RDS和DWS等异构数据源进行查询分析,数据格式兼容CSV、 JSON、Parquet和ORC主流数据格式。
DLI基本功能包括SQL作业支持SQL查询、Flink SQL在线分析、全托管式Spark计算,同时DLI可以实现多数据源分析、存算分离、弹性资源池调度与管理。DLI 核心引擎,Spark是用于大规模数据处理的统一分析引擎,聚焦于查询计算分析,Flink是一款分布式的计算引擎,可以用来做批处理,即处理静态的数据集、历史的数据集,openLooKeng使用了业界著名的开源SQL引擎Presto来提供交互式查询分析基础能力。DLI是无服务器化的大数据查询分析服务,可以实现按量计费和自动扩缩容。
智能数据湖运营平台提供数据全生命周期管理、具有数据管理能力的治理运营平台,包含数据集成、规范设计、数据开发、数据质量监控、数据资产管理、数据服务等功能,提供知识库建设,支持数据存储、数据计算分析引擎等數据底座等功能。
三、基于磁光电存储技术的数据湖架构
(一)光磁一体平台
光磁一体平台提供了对象热磁存储、对象归档存储、生命周期管理、数据抽取、容量扩展、数据读写、冷热数据转换等功能。
热磁存储为重要数据归档系统、视图库系统或其他应用系统提供热磁存储能力,统一以AWS S3协议接口暴露给上层应用。冷数据归档存储为重要数据归档系统、视图库系统或其他应用系统提供蓝光归档存储存储能力,统一以 aws glacier 协议接口暴露给上层应用。用户通过对热磁空间存储桶进行生命周期设置,实现数据存储策略,由热磁迁移至蓝光归档存储,实现光磁转换的功能。平台提供用户管理、光盘库信息查询、光盘库状态监控、光盘库注册删除,存储桶状态监控,以 RESTfulapi 为用户提供监控运维服务。同时系统支持容量扩展功能,可根据实际的存储需求进行容量的扩展。光磁一体平台支持数据读写功能,能够对视频、图片等大容量数据进行读写以及数据加密、多并发等数据操作。系统也可根据系统配置策略进行动态调整,磁盘和蓝光存储介质之间的数据读写传输效率能够支持平台情报数据的分析处理能力。
(二)数据资源管理平台
数据资源管理平台是基于大数据、容器、云计算技术,提供数据探查、采集、清洗、处理、管理、应用、全局调度、接口服务,推动实现数据治理、数据资产化的综合性平台工具。
针对不同部门,不同业务的结构化数据进行摸底,探查元数据信息、质量情况,筛选出数据治理最为关注的核心数据,降低数据治理成本。
同时依照DAMA3.0标准设置规则,支持全周期评估数据质量,方便数据提供方在已接入数据的基础上线上修改接入转换流程或者线下更新数据,对问题数据进行处理,从根源上解决问题数据提升数据质量,实现数据治理的闭环。
数据处理模块提供一站式、界面化的大数据开发与测试系统。支持用户灵活进行SQL、Hive、流计算等各类任务的脚本开发,实现指标表的创建、数据血缘的分析、数仓的分层以及上层其他应用的数据分析。
智能知识库模块实现智能化管理企业、政府海量非结构化、结构化、半结构化的文档和数据,让所有的知识可以用自然语言即可查询、应用,实现深化知识积淀、业务经验分享借鉴、信息快速查找。
(三)数据湖运维管理系统软件
数据湖运维管理系统软件提供了基础资源监控平台、分布式采集器、基础资源授权、存储管理模块、可视化大屏展示、网络链路监控、动环系统集成包等功能。平台能够通过资源管理、拓扑管理、告警管理、报表管理、工单系统管理和系统管理等子功能完成基础资源监控平台功能。同时平台通过分布式采集器用于大规模资源采集、分支机构或者异地进行监控数据的采集。基础资源授权模块实现交换机、路由器、防火墙、服务器、数据库、应用量等网络设备、操作系统、宿主机、邮件系统完成基础资源授权功能。存储管理模块通过存储设备监控管理和存储设备运行状况监控管理完成存储管理功能。可視化大屏能够对数据监控结果进行可视化展示。网络链路监控能够通过全国链路监控 Ping、Http、https、dns等完成网络链路监控功能。动环系统集成包通过读取对方系统的指标数据后能够在机房视图中统一展现。
磁光电混合存储提供对象存储和文件存储服务,支持标准的 S3、NFS、CIFS、FTP 协议,利用蓝光介质实现 EB 级数据的安全、高效、绿色、低成本保存;系统通过按需扩展的分布式架构,有效降低用户一次性投入成本;数据与元数据分离,小文件归并等方式可有效提升整体的读写性能;生命周期策略可实现数据的跨介质流动;通过EC和副本两种保护策略、数据恢复QOS、前后端一致性校验,保证数据安全可靠;运维管控界面对集群信息、审计日志、告警监控提供有力支持;提供API、SDK、CLI、控制台以及图形化管理工具,为不同用户提供便捷访问方式。
《“十四五”国家信息化规划》明确提出,“十四五”时期,信息化进入加快数字化发展、建设数字中国新阶段。数据作为新型生产要素,成为让物理世界和数字世界灵魂互通的桥梁。以自动驾驶、车路协同为主要应用的交通行业,以数字孪生、智能制造为主要应用的制造行业,以精准医疗、影像云、脑成像为主要应用的医疗行业,都对数据存储有十分迫切的需求,同时也急需解决存储的海量、长期、绿色和自主可控的问题。
基于磁光电存储技术的数据湖,有效解决数据海量、长期、绿色存储的问题,是全社会数据资产存储和智慧城市的数据“底座”,对于推进数据要素有效利用、数据价值的深入挖掘有着重要的意义。同时,基于磁光电存储技术的数据湖,在金融、医疗、存档等需要长期存储的行业,数据的海量存储和计算成为可能,为新型数据中心建设提供了新的思路和解决方案。