大数据环境下高性能计算模型及关键技术研究
2022-09-09詹嘉鑫
詹嘉鑫
(联想集团 北京市 100089)
在大数据环境下,人们的生活水平、工作效率都有所提高,为人们带来了非常大的便利。在大数据技术不断发展的前提下,各行各业都开始广泛研究和应用大数据解决工作问题。在高性能计算模型中,大数据能够实现对大量数据信息的收集、分析和存储,甚至是应用,加强对高性能计算模型和关键技术的研究是十分必要的。
1 大数据的应用优势
1.1 提高工作效率
各个企业在工作过程中都会涉及到大量的数据信息,这些数据信息的处理往往会消耗企业的大部分时间。在大数据的应用下,企业工作人员能够利用大数据技术实现对工作的优化和简化。利用大数据技术,企业能够针对所有的数据信息进行分类处理并进行全方位的分析,不仅能有效利用、筛选和储存企业发展过程中的重要信息,还能够为有效提高各类数据信息的利用率。在工作过程中,工作人员只要掌握大数据应用技术,就可以在面对某项工作时直接到数据库中对数据信息进行筛选和处理,大大地节省了在工作过程中的数据查找、处理等时间,既保证了工作的质量又很大程度地提高了工作的效率。作为高性能计算市场的领导者,联想集团就利用了集群软件和配套软件一体化的方案,既提高了工作效率,有为用户提供了全方位的服务,使其在大多领域内都能够占据一席之地。
1.2 全面分析企业发展情况
在大数据的应用下,企业相关管理人员能够更好地分析企业运行和发展情况,并在此基础上创造出更多的经济效益。应用大数据能够有效帮助企业发现更多的发展机会,把握住各类活动,使企业的发展模式在大数据分析下进行针对性地转变,以此为客户提供更好的服务,提升企业的整体实力并提高其在市场中的竞争力。另外通过应用大数据,企业管理者能够全方位地了解企业各部门的运行情况,并通过对社会形势的分析,不断优化和完善企业自身的发展。
1.3 为企业决策提供科学依据
在企业内,应用大数据技术能够有效帮助企业管理人员进行科学地决策。在大数据技术的分析下,企业能够更好地了解自身的发展现状,并对市场环境等方面进行全方位地分析,以此为企业工作人员和管理人员提供充分的数据支撑,作为企业决策的重要参考依据,确保企业决策的科学性。另外,在企业开展各项活动的过程中,大数据技术能够保证其处理数据的时效性,在进行过程中就可以实现对数据的高效分析,并能够对相关数据进行深度挖掘,以此确保企业各活动能够顺利开展。
2 大数据环境下高性能计算模型
2.1 数据活化理论
数据活化就是给数据赋予其特殊的生命意义,是一种数据应用和数据管理的重要模式。数据活化的主要目的在于将数据实现规模化的集合并使其能够保证充分的活跃度,为数据分析、查询等工作提供便利条件。数字活化的过程中最主要的组成部分就是数据组织单元,而这些组织单元主要是由具备计算功能和储存功能的“活化细胞”所组成的。在实际工作的过程中,通过这些活化细胞能够将空间中的数据相互关联起来并共同作用于空间环境,以此提高大数据计算的质量和效率并使其存储功能得以完善。在数据活化中,活化细胞包括主细胞、数据细胞和特殊细胞。其中主细胞主要负责对元数据信息加以储存并管理和控制其他的细胞;数据细胞主要是用来执行主细胞所分配的任务并重点储存数据信息;特殊细胞则主要用来记录前两个细胞所删除的无用数据。数据活化的智能化程度较高,能够在运行的过程中对计算环境中的任务信息自行感知并分析,同时能够自主地对活化细胞的数据信息进行分析。不仅如此,数据活化还能够在主动感知到数据信息后对其按照需求加以计算和处理最终再将信息在活化细胞之间实现传输和共享,同时还能够在不断变化的计算环境下不断更新。例如在2020年3月,联想联合英特尔、华大基因三家公司用技术促进COVID-19新型冠状病毒的基因组特性分析。在这一过程中,联想与英特集团为华大基因提供的技术包括一个大型高性能计算集群,可用于处理从华大DNBSEQ-T7 测序系统读取的高通量数据。通过这一大型高性能计算集群的计算和分析技术,为科学家研究病毒的毒性、传播模式、病原体与宿主间的相互作用提供了重大支持,进一步加速了华大基因对新型冠状病毒的基因组特性研究并助力了流行病学及疫苗设计研究。
2.2 数据多态组织索引
数据多态组织索引主要在数据活化理论后发挥作用。在数据活化理论中,活化细胞占据着重要的作用,在活化细胞的作用下,实现对数据的分析和存储,并保证数据的灵活性,使其能够在存储形式和多态存储介质之间随意变换。在随意变换的过程中,会存在大量的数据信息被分解的情况,使其成为活化细胞的临界状态,这种细胞会被临时存储在分布式内存当中,而这种分布式内存就是数据活化池。在数据活化池当中就会出现大量的组织索引,其中包括数据时间索引、空间索引以及属性索引,通过这些索引能够有效表达数据信息的时间、空间和属性。在数据多态组织索引的作用下,原始的数据就会经过一系列特定的操作后不断混合,并形成相应的数据结构,这种数据结构也可称之为物理存储形态。在整个混合的过程中,方式直接影响索引的整体结构,例如Hash索引主要存储分布式数据,在其混合的过程中,首先将大数据化为最小的数据单元并对其进行分布式储存,将其中的非属性信息进行过滤,在一系列操作下,混合的形式就会以Hash映射函数呈现出来,并形成新的数据结构,这种就够就是数据的Hash索引结构。要想得到不同的数据结构和数据属性,就可以通过不同的混合方式进行,具体示意图如图1所示。
图1:Hash索引结构示意图
以索引的属性和维度对其分类,可以将其分为时间索引、空间索引和属性索引;以其不同的存储形态,可以将其分为内存索引、外存索引、数据索引和二级索引,其中外存索引主要对应分布式文件系统,数据索引则主要对应空间数据仓库。除此之外,根据不同的索引结构,还能将其分为多个类别,包括格网索引、Hash索引等。在多态存储模型中,组织索引结构也是多态的。在高性能计算模型当中,数据多态组织索引是较为常用的技术类型。在数据多态组织索引的帮助下,能够在特定的区域范围内对某个目标信息进行全方位的搜寻,组织索引所能覆盖领域扩大,其能够搜索的范围也会随之扩大。数据多态组织索引一个最大的优势也是最独特的优势在于其可以在一定区域内对移动中的目标进行搜素,且其成功搜索的概率相对要更大。另外,数据多态组织索引在工作的过程中没有过多的条件要求,在较低的条件下就能够实现高精确度的搜索。
2.3 数据处理
在数据处理模块当中,数据提取功能可以将先获取特定的数据源,其中数据源既可以是固定的数据信息也可以是变动的数据信息,甚至还可以是存在于网络中的数据信息。其次,需要将所获得的数据源进行处理,包括数据信息过滤、格式标准化处理等,在经过多个环节的数据处理后就可以将处理后的数据存储到相应的数据库当中。最后,高性能计算模型就能够对数据库中所输入的数据信息进行分类并加以分析。在数据库信息分类分析的前提下,还可以建立数据仓库,将不同的协议相结合起来,不断挖掘新的数据信息并对其加以分析,在这一过程中能够有效掌握其中的时间变化规律。在挖掘出数据信息后,将其传送到数据处理系统当中,生成所需要的新的数据信息。除此之外,高性能计算模型的数据信息还可以全面监控和监测数据仓库中的数据信息甚至是模型中出现的全部数据信息,并在监测到索引数据后出现明显的提示。合理地利用数据处理信息能够有效弥补传统的计算机模型数据处理中存在的不足,使数据处理效果得到进一步提升,为后续数据信息的使用提供可靠保障,尤其是在大数据环境下,为数据处理和分析提供了非常有效的方式。联想集团的联想方针一体机系统解决优化过程中,就重点将其数据处理模块进行优化,使数据挖掘、处理和共享等环节更为高效和流畅,使其能够支持Linux/Windows应用程序和全面协作型屏幕共享,进而实现远程的监控和控制,使服务器的监控功能更为完善。
2.4 数据多态存储模型
在高性能计算模型中,数据存储也是呈现出多态模式的,且其多态模式对不同对象表现出不同的含义,一方面表现其存储介质的多态性,一方面表现其存储形式的多态性。在存储形式方面,由于一个数据空间内会存在多个不同属性的地理元组,且其表达的信息也有所不同,不仅能表达时间、空间等信息还能表达原始数据信息,因此不同的地理元组在储存形式上也存在一定的差别。存储形式上包含分布式内存系统、分布式文件系统、NoSQL数据库以及空间数据仓库这四种不同的形式。一般来说,代表属性的数据信息地理元组通常以NoSQL数据库的形式存储,而代表原始数据源的数据信息地理元组则通常以分布式文件系统的形式存储。联想集团是全球领先的高性能计算方案提供商,拥有完整的高性能计算产品生态,可以提供适配多种芯片的服务器产品组合、智能化的算力调度、全球首创的绿色节能45°温水水冷技术。目前,联想集团仍在向更多领域延伸,不断成熟高性能计算解决方案,并在国内各高校甚至是全球顶尖高校内建立了高性能计算系统或应用高性能计算解决方案。2021年4月10日,上海交通大学125周年校庆之际,联想集团杨元庆宣布个人出资1亿元人民币,为母校捐建一座全国高校一流的绿色水冷高性能计算中心,推动算力在高校的普及,赋能基础科研创新与人才培养,助力攻克更多全人类面临的共同挑战。
在数据信息不同的储存形式下,在硬件方面便能够体现出不同的储存介质,具体通常通过机械硬盘的不同型号、规格、接口等来展现。存储的介质既包括固定硬盘又包括存储器,二者各有优势,前者的读写效率更高,后者可以进行随机且动态的存取操作。
为了提高存储模型的高效性和灵活性,将地理元组作为数据活化细胞能够有效使数据在不同的存储形式和存储介质当中实现多态存储的效果,并使数据信息结构仍然能够保持较强的灵活性。通过构建自由的地理元组能够在数据活化池的作用下,使其实现调取、混合、归并等全过程,并且在这一过程中主细胞能够充分发挥其调控作用。例如将数据的存储形式从分布式文件系统变化为分布式NoSQL数据库的过程中,先是将分布式文件系统中所存储的数据调离出来,将其输送到数据活化池当中,并且在此过程中形成空间数据集体。在数据活化池的作用下,数据信息逐渐分解、混合并归并,再将其重新分配并存储到NoSQL数据库当中。利用数据多态存储模型能够有效将数据信息在不同的存储介质和存储形式之间灵活转换,并且在这一过程中保证数据信息的准确性,提高大量数据信息存储的灵活性。
3 大数据环境下高性能计算模型关键技术
3.1 并行二路空间连接算法
在大数据环境下,高性能计算模型中的一项关键技术是并行二路空间连接算法,这也是目前较为常见的算法技术之一。并行二路空间连接算法在应用的过程中具有加强的组织性,且计算速度较快,具有较高的效率。通常来说,并行二路空间连接算法需要先寻找计算的目标数据,在这一过程中通常利用随机解出迭代的方法,以此确保了并行二路空间连接算法选择参数的高质量且使整个过程在高效的情况下进行。当然,这种寻找目标数据的方式也存在一定的不足,主要在于利用这种方法进行寻找只能满足局部区域的数据查找,难以大范围进行,也就是说在分布式内存计算基础上的并行二路空间连接算法并不适用于大范围的数据信息全面搜索工作,更适合于局部范围的数据搜索。并行二路空间连接算法在工作的过程中包含多种状态形式,有休眠状态、活跃状态和预休眠状态,通过这些状态之间的互相切换促使整个工作过程可以更加灵活的调度,并且能够促进索引工作的更高效进行。在这种方式下,高性能计算模型的整体工作周期和有效期限也会有所延长。
并行二路空间连接算法在实际工作过程中能够促使数据信息通过索引模块并在此过程中完成索引工作,以此能够有效确保索引的目的性和标准化,避免多余环节的出现,提高模型的科学性。同时,并行二路空间连接算法还能够实现数据索引和数据处理并行,并在经过索引功能后仍能保持数据信息的完好性,提高模型中索引的利用率。在并行二路空间连接算法的作用下,数据索引过程能够在一定范围内高效的进行,并能够以相对应的速度对该范围进行全方位的数据搜索。在这一过程中,虽然并行二路空间连接算法发挥了非常重要的作用,但是在数据处理方面仍然存在一定不足有待优化。在对该方法进行优化和完善的过程中应该充分结合实际情况进行,使其能够在数据处理中发挥更大的价值。
对于分布式的内存技术或者在于并行二路空间连接算法而言,这样的情况吧本质而言,字啊渔数据的索引与处理模式进行的计算,利用模式进行索引之后出现的数据,需要保证能够和之前的原模式产生等价,即使在这样的情况之下,会有很大的请况导致产生数据收索具有过多的情况发生,但是在这样的方式之下,能够有效的利用索引进行目标能耗的降低,使之能够高效的提升索引带来的利用率。但是在分布式内部计算的算法下,本质上也就是将不同的数据,都进行统一的认定,都统一的当成是在一定维度当中的单一数据,同时也就在这单一数据当中,进行搜索。在这样的情况之下,就肯定会出现处理某一数据的情况之下,优化的过程当中,出现了过早就直接收敛的情况发生。所以,在具体的使用当中,需要进行高度的关注这一内容,也就是需要进行并行二路空间连接算法在一定的程度之上的优化,并且还要进行进一步的解决这一问题。
3.2 并行多路空间连接算法
在大数据环境下高性能计算模型关键技术的实际使用当中,并行多路空间连接算法是常用的一种方式,这一方式在很大的程度上,能够保证减少算法的能耗,并且能够有效的延长其大数据环境之下的高性能计算模型,放眼于其他的算法当中进行分析而言,并行多路空间连接算法是能够进行延长大数据环境的高性能计算模型的唯一方式。这一方式的算法的连接方式主要在于利用并行多路的空间连接方式,所以在面对于海量的大数据的情况之下,可以更加的具有优势,要比较于分布式内存计算的并行二路空间连接算法具有一定的优化效果。但是这一优化的效果也并非是没有代价的,其代价就在于在能源的消耗当中具有更加快速的消耗。所以,在这样的情况下,进行能源的消耗降低成为了重点的内容,并且在保证效率的同时,还要保证能够具有良好的使用寿命延长的效果,这一内容也就成为了目前主要需要攻克的内容。在常规的情况下进行分析,基于分布式内存计算所带来的并行多路空间连接算法,也就是在考虑到了这一情况所产生出现的,在设计的过程当中充分的考虑到了数据范围当中有可能会出现消耗的均衡效果。并且利用以往的目标数据进行控制,根据目标数据的感知半径来作为网格的设计,将这些所设计出来的网格进行索引的设计,同时尽可能的让这些索引存在于休眠的情况当中,在每个序列当中,只是保证每个网格当中只有头部的数据在活跃的状态当中。进入到这一状态的过程中,基于分布式内存计算所带来的并行多路空间连接算法,就会通过一个数据代替另外的一个数据进行替换,利用这样的方式,能够的到数据点,使得其他的数据点的位置更加的精准,由此就能够实现两个相邻的网格当中的数据进行处理。这样的方式,网格当中的数据也都是等价的存在,能够利用提升单跳的索引面积方式,也就有效的节省产生的能源消耗。
并行多路空间连接算法也是在大数据环境下,高性能计算模型常用的关键性技术,且该技术也是在分布式内存基础上进行的。在实际工作的过程中,并行多路空间连接算法比并行二路空间连接算法在大量的数据信息处理中能够发挥更重要的作用,且呈现出更好的处理效果。虽然并行多路空间连接算法能够高效的处理大量数据信息但是其产生的消耗也是更多的。对于目前的并行多路空间连接算法发展而言,在保证其数据处理的效率的基础上,如何降低处理过程中的能源消耗,延长其使用期限是需要研究的一个重点问题。在应用并行多路空间连接算法的过程中,相关技术人员应充分考虑在所有处理的数据范围内可能出现的能量消耗情况,并探究如何保证消耗的均衡性。
在使用并行多路空间连接算法时,应将所有的数据处理信息作为重要的参考依据,将该方法与拓扑控制算法相结合使用。在并行多路空间连接算法应用的过程中,应首先对数据进行感知,根据所感知到的情况对目标范围内的数据信息分为不同的类别,并且尽可能地保证这一过程中数据索引模块能够处于休眠状态,以此促使各个类别中的数据信息能够充分活跃起来。在此过程后,将其送入到索引模块,开启索引状态,并利用并行多路空间连接算法,在数据处理的过程中使用一个数据替代另一个数据并获得性的数据点,以此类推,在这一环节后,相邻类别之间的数据就能够同时索引和处理,并以此延伸到全部类别数据的处理。在应用并行多路空间连接算法的过程中,所划分出来的各类别数据都是平等关系,必须要明确等价数据的存在,以此才能提高索引和数据处理的效率,且避免一项数据同时参与多个数据替换行为,导致能量大量消耗的问题。
4 结论
综上所述,在大数据环境下,高性能计算模型利用其数据活化理论、数据多态组织索引、数据处理、数据多态存储模型实现对数据的高效收集和处理,为各企业在面对海量数据信息的工作提供了较大的便利。在高性能计算模型中,包括并行二路空间连接算法和并行多路空间连接算法两项关键技术,有效提高数据信息的准确度和利用率,为各行业的高效发展提提供条件。