超大容量蓝光及光磁电一体化智能存储技术在新型数据中心建设中的应用
2022-10-19朱涛,尚德玲,魏刚毅等
1 建设背景与意义
1.1 数据中心在国民经济建设中的地位与作用
1.1.1 数据中心是数字经济的底层基础设施 数据中心作为信息基础设施,其建设的规模、质量将直接决定当前数字经济时代经济发展的速度与高度,数据的计算和存储能力是国家未来竞争力的集中体现。作为算力和存储力基础设施的重要组成部分,数据中心是促进5G、人工智能、云计算等新一代数字技术发展的数据中枢和算力载体,对于数字经济增长具有重要助推作用。可以说,数据中心是推进数字经济发展的基础设施和重要保障,是推动我国经济转型升级的重要抓手,是构建智慧城市核心竞争力的重要载体。2020年3月4日,中央政治局常务委员会召开会议,明确指出“加快5G网络、数据中心等新型基础设施建设速度”。近年来,数据中心产业规模高速增长,近5年年均增速超过30%。截至2020年底,我国在用数据中心机架总规模达到400+万架。
1.1.2 数据中心节能减排对碳减排的贡献突出 我国二氧化碳的排放量位居世界第二,给环境保护和可持续发展带来较大挑战。数据中心作为互联网基础设施之一,其机柜数量多、功率大,需要耗费大量的能源用于维持数据中心运作,是公认的高能耗行业,主要以消耗电力资源为主。过去十年间,我国数据中心整体用电量以每年超过10%的速度递增,2020年用电量突破2,000亿千瓦时,占全社会用电总量的比重约为2.7%,数据中心的高能耗不仅给企业带来沉重负担,也给全社会能源供应带来巨大压力。因此,数据中心行业积极践行碳中和,向绿色化方向发展成为大势所趋。根据IDC预测,2025年中国数据中心耗电量将达到3,842.2亿千瓦时,按照有关测算,1千瓦时耗电将产生0.86公斤二氧化碳,折算二氧化碳排放约33042.92万吨二氧化碳。因此数据中心节能减排技术的发展对碳减排目标实现具有较大现实意义。
1.1.3 现有数据存储的能耗高,而蓝光存储技术节能效果明显 按照国家对数据中心低PUE的高标准建设要求,从数据中心IT设施的能耗占比角度看,存储设施的占比大约在35%,成为双碳目标达成的主要矛盾之一。数据存储有83%的能耗来自于存储介质,目前存储介质主要包括机械磁盘、固态硬盘、蓝光光盘和磁带等存储介质。据不完全统计,目前国内市场中磁盘和闪存盘的市场占有率约为80%左右,磁带占15%,光盘及其他存储设备约占5%。
在能耗方面,全负荷情况下,固态硬盘功耗基本小于3W,而磁盘功耗基本大于6W,蓝光光盘为0.13W。静态无负荷情况下,固态硬盘的功耗约0.05~1.3W,但是机械磁盘功耗基本大于4W,蓝光光盘为0W。可见,机械硬盘的能耗大于固态硬盘而蓝光光盘最小。在相同容量下,蓝光光盘相比机械硬盘的能耗降低94.72%,空间占用节省60%以上。
蓝光存储技术能够大幅降低数据存储的总耗电量,同时可达到节电、节地、节碳减排的良好绿色节能效果。
1.2 国内外数据中心产业及存储技术发展状况和趋势
1.2.1 我国数据中心能效水平现状我国数据中心行业发展较晚,建设标准相对滞后,中国的数据中心能耗总量也高速增长,明显高于世界的平均水平,一方面是因为中国的数据中心建设规模增速较快,另一方面中国的数据中心存在较大的节能潜力。根据2019年工业和信息化部在《全国数据中心应用发展指引(2018)》中公布的数据:2018年,全国超大型数据中心平均PUE为1.63,大型数据中心平均PUE为1.54,其中2013年后投产的大型、超大型数据中心平均PUE低于1.50。全国规划在建数据中心平均设计PUE为1.50左右,超大型、大型数据中心平均设计PUE分别为1.41和1.48。
工信部等三部委开展“国家绿色数据中心”遴选工作,国内数据中心不断创新绿色节能新应用,新建大规模数据中心的电能能效设计值已经有所降低,但整体与国际平均水平相比还具有一定的提升空间。
1.2.2 国内外数据中心存储技术发展状况和趋势 数据中心总体耗电较高,根据2020年初《Science》刊登的文章《重新校准全球数据中心能耗估算》,2018年全球数据中心总耗电达到205TWh,占当年度全球总用电量的1%。2015年我国数据的存储量为0.6ZB,不足数据产生总量的五分之一却消耗了345亿度电,若将当年产生的数据全部存下来,则需要1890亿度电,占当年全社会用电能耗的3.4%。
海量数据如何安全可靠、长期低成本低能耗存储,为大数据时代的数据中心节能提出了严峻的挑战。目前数据中心的主流数据存储还是采用的磁存储,因此会消耗大量的电能。根据二八定律,80%的数据是冷数据,如果能够长期低成本、安全可靠地解决冷数据存储问题,大数据存储问题就可以得到解决。蓝光存储是目前最有效的数据长期归档存储方式,磁带与蓝光光盘作为离线储存介质,不需实时加电保存,因此能耗相对较低。实验表明,光学储存的二氧化碳的排放量远远小于其他类别的储存介质。
1.3 新型数据基础设施建设的重要性、必要性和作用
1.3.1 符合国家产业政策2020年2月,中央全面深化改革委员会第十二次会议提出:“统筹存量和增量、传统和新型基础设施发展,打造集约高效、经济适用、智能绿色、安全可靠的现代化基础设施体系。”
2020年3 月,中央政治常务委员会会议提出“加快5G网络、数据中心等新型基础设施建设进度。”
2019年,工信部联合国家机关事务管理局、国家能源局发布《关于加强绿色数据中心建设的指导意见》,提出到2022年,数据中心平均能耗基本达到国际先进水平,水资源利用效率和清洁能源应用比例大幅提升。
1.3.2 符合国家“碳达峰、碳中和”规划和远景目标的要求2021年全国两会“,碳达峰、碳中和”首次被列入政府工作报告,节能环保成为社会关注焦点。数据中心亟需顺应这一发展趋势,降低碳排放,逐步实现数据中心“碳中和”目标。在全球碳排放总量中,信息通信技术设备的贡献在2040年将达14%,达到交通运输碳排放的一半以上,数据中心的能耗占其中的很大一部分。多方测算表明,节能和提高能效对我国实现碳排放达峰目标贡献率70%以上。
2 蓝光存储技术的优势
超大容量蓝光和光磁电一体化智能存储系统由500G蓝光光盘库和光磁电一体化智能存储系统组成。采用基于图神经网络和深度强化学习的跨模态认知技术,实现超高清视频的分层分级存储智能节能和高效调度。该系统具有大容量、长寿命、绿色、低成本、安全的特点。
2.1 超大容量蓝光存储技术
目前国内单张光盘最大容量为500G,该光盘库采用无机相变材料,其双面AD-R碟片依据国际档案级WORM盘片标准设计生产,多达6个记录层。线密度为47.9nm/bit,区别于自身国内独家生产的300GB光盘的79.8nm/bit,实现容量的提升,每个标准19英寸机柜容量可达3.192PB。
500GB蓝光光盘采用了平面-沟槽记录技术和串扰消除技术,最大限度地提高了每一层的记录容量。这意味着径向记录密度比原蓝光光盘提高了40%,单张光盘容量达到500G。采用基于逻辑格式的新缺陷管理系统,以克服伺服误差信号串扰问题,最终实现窄轨距的目的。(图1)
图1 平面-沟槽记录技术
该光盘可在常温常湿的条件下存储数据50-100年,无需数据迁移,与磁盘存储相比总体成本(TCO)降低95%。在节能方面,与传统热磁存储技术相比,该光盘库具有明显的技术优势,蓝光光盘存储方式,不需要实时加载大功率电源,对保存环境无特殊要求,综合能耗远远低于磁盘存储,相比相同容量的磁盘存储能耗降低94.72%。且具有防黑客、抗电磁干扰、无辐射等功能特性,可实现数据长期、安全、可靠存储。
2.2 光磁电一体化智能存储系统
该系统利用分布式存储架构,融合NVMe、SSD、HDD和蓝光等存储介质的优势,为用户提供高效、安全、稳定、低成本的全介质、分层分级数据存储服务,保证数据安全的同时,节约用户成本。
系统利用蓝光光盘大容量、长效安全特性,基于光磁电融合自动分层分级存储技术,实现数据的弹性、按需存储,有效降低存储成本,满足全介质、全场景海量数据的高效智能化存储需求。相比同行业的分层存储基本只考虑数据的访问频率、访问时间等表面特征,超级智能存储系统提出的策略关注数据更本质的固有语义特征和语义关联,全局全周期主动调度文件(文件中包含图像、文字、视频、音频、元数据等多模态信息),理解用户与文件的关系使得调度操作本身针对性更强、效率更高,减少调度次数,降低能耗,且更具有用户行为预测的前瞻性。
光磁电一体化智能存储系统是按照数据的访问频度,采用不同的存储介质,通过具有高密度、高安全、长期保存、绿色节能的混合存储基础架构、存储管理软件、分层存储算法,按生命周期对数据进行管理,实现对热数据、冷数据的智能分层分级存储管理。按照策略使TB级的大批量文件在光磁存储介质中的流动,并为运营人员和用户提供统计信息查询,最终形成全介质、全场景一体化的解决方案。
3 蓝光存储技术节能效果分析
以建设或改造1000PB存储量数据中心为例,使用超大容量蓝光及光磁电一体化智能存储方案相比全磁盘存储方案能够从节电、节水、节地等多方面取得绿色节能效果,其中用于智能分级存储使用光磁配比为8:2、用于归档等冷数据存储可使用全蓝光配置。根据信通院中国泰尔实验室《蓝光光盘库存储系统与磁盘存储系统能耗对比测试报告》数据,具体节能效果如下:
单PB蓝光存储每小时用电能耗为0.13kWh,与单PB的磁盘存储相比,年总用电能耗节省2.05万kWh,节能比例为94.72%。
对于1000PB有效存储总量,全蓝光配置的归档等冷数据存储,相比磁盘存储,年总用电能耗节省2050万kWh,节能比例为94.72%。相当于节省标准煤2519吨(计算公式引自《综合能耗计算通则》选用电力等价折算标准煤系数为0.1229kg/kWh)。相应减少碳排放量12381吨,节碳比例为94.72%(计算公式引自《北京市重点排放单位二氧化碳核算和报告指南》选用间接排放系数为0.604kgCO/kWh)。
对于1000PB有效存储总量,智能分级存储使用光磁配比8:2条件下,能够达到日常数据存储的性能要求,相比于全热磁存储的解决方案,光磁融合的解决方案中总耗电量年节省1640万kWh,节能比例为75.79%,相当于节省标准煤2015吨,减少碳排放量9905吨。
由于蓝光光盘可在常温常湿的条件下存储50年以上,无需额外的通风冷却系统维护机房环境,可大大降低IDC对冷却系统等其他辅助设施的设备数量及用电量,从而降低数据中心IT系统所需制冷量。经测算,对于1000PB有效存储总量,与全热磁存储方案相比,智能分级存储光磁配比8:2条件下,光磁融合机房相比全磁机房,年制冷量降低75.79%,可降低制冷系统用电量75.79%。
由于无需额外的通风冷却系统,可大大降低IDC对冷却系统等其他辅助设施的设备数量及用电量,进一步节省水资源。经测算,与全热磁存储方案相比,智能分级存储光磁配比8:2条件下,年节水量可达2.47万吨,节水比例为80%,WUE值可由1.427降至1.179。
以蓝光单机柜存储容量为2.74PB、有效容量2.34PB为例,相比于磁存储单机柜,在全光配比条件下,有效存储1000PB数据可节省机柜数为906个,节地比例为67.95%;在智能分级存储光磁配比8:2条件下,存储1000PB数据可节省机柜数为725个,节地比例为54.36%。
4 新型数据基础设施建设案例
我们利用超大容量蓝光及光磁电一体化智能存储系统建设的深圳市某网络通信领域国家重点实验室数据中心项目,该实验室是中央批准成立的突破型、引领型、平台型一体化的网络通信领域新型科研机构,作为国家战略科技力量的重要组成部分,以重大基础设施为支撑,以重大攻关项目为核心,与全国150余家高校、科研机构、龙头企业开展深度合作。
科学数据是科研创新发展的重要基础性战略资源,具有数量庞大、来源多样、格式多样等特点。2018年,国务院办公厅印发的《科学数据管理办法》明确指出,应加强科学数据全生命周期安全管理,制定科学数据安全保护措施,加强数据下载的认证、授权等防护管理,防止数据被恶意使用。随着科学数据量的增加,重要科学数据的安全备份和长期分级归档存储越发重要。
该实验室拥有海量的科学数据,数据类型主要为小文件非结构化数据,其价值珍贵。采用传统的存储介质,存储成本高,且存在安全隐患,因此需要采用安全、长期、低成本的多存储介质分级存储策略,同时要求存储系统有较高的IOPS和带宽,读写带宽共计100Gbe。
2020年我们与该实验室合作,采用华录蓝光存储系统、分布式存储架构建立一套光磁电科学数据存储系统。项目规模为磁存储4PB,蓝光光存储28PB,写入速度与读取最大速度均不低于10GB/s、最大IOPS不低于40000、读取IOPS不低于45000,系统冷数据存储层采用华录蓝光光盘库,提供海量数据的长期存储;温数据存储层采用分布式对象存储,实现数据快速存储;冷数据存储与温数据存储层统一管理,支持全局命名空间,实现光磁电全介质统一管理、智能分级。根据数据的访问频率设置流动策略,使数据智能地在不同介质间流动,对冷热数据进行分层管理,将大量的冷数据存储在蓝光中,将频繁访问的热数据存储在热磁中,满足不同数据读写需求。通过设置过期删除和定期转储策略,使存储在磁盘上的热数据经时间冷却后,逐渐下沉到安全性更高、成本更低的冷存储介质中,满足海量非结构化数据管理的需求。
项目实施后取得了以下效果与成果:①温数据存储层具有较高的IOPS和读写带宽,能够满足海量小文件快速读写,并对小文件聚合,形成大文件包后向冷数据存储层自动分级,极大地提高了数据可靠性和磁盘利用率。②冷数据存储层提高了光盘库读写速度和可靠性,采用Raid6,数据可靠性可以达到19N,满足实验室海量科学数据访问高带宽、高IOPS,同时也保障重要科学数据的安全备份和长期分级归档存储。③系统灵活可扩展,温数据存储层与冷数据存储层都采用分布式对象存储架构,支持Scale-out与Scale-up扩展,实现存储容量与读写性能线性扩展。由于蓝光低能耗、长寿命,数据存储无需迁移等特性,整套系统具有较低的总拥有成本(TCO)。
5 总结
在面对世界百年未有之大变局和不断做强做优做大我国数字经济的背景下,国家明确要求打造集约高效、经济适用、智能绿色、安全可靠的现代化数字基础设施体系。超大容量蓝光和光磁电一体化智能存储技术领先且能效果明显,为保障我国数据中心环控与低能耗、低造价设计将做出了重大贡献,值得大范围推广应用。