大数据高效迁移策略探究
2021-11-16蔡玺张文轩李万阳
蔡玺 张文轩 李万阳
(甘肃同兴智能科技发展有限责任公司,甘肃兰州 730050)
1 数据迁移流程
1.1 数据准备
数据准备工作是完成数据迁移的基础,准备工作需要充分而周全。需要整理新旧系统数据字典、数据质量分析、差异化分析,建立新旧系统间的映射关系,制定具体的迁移方案等。
1.2 迁移实施
数据迁移的实施是将准备好的数据复制到物理介质或将其推送到全球互联网上,是迁移任务3个阶段中最重要的环节。迁移过程中可能出现多变的迁移环境及数据变化(写入、导出、格式化等),这要求数据实施迁移必须制定完备的数据迁移实施流程[1]。
1.3 数据校验
在数据迁移进行完毕后,需要针对这部分进行检查和校对,应当第一步针对迁移进行查校,因为无论是通过物理介质还是网络传输,数据传输期间有很多不确定影响因素,完整的数据迁移是证明该过程完成的重要依据。其结果也是判断系统是否可以使用的根本。
2 时态密集度迁移方法的特征
大数据具有数据量大、类型繁多的特征,随着海量数据的不断堆积,微簇的聚类程度也会有所不同。对于微簇时态权重F设n表示某一微簇,tn为数据点S到微簇n的时刻,则微簇n的时态密度为所有到达微簇n的权重的总和:
通过数据到达微簇时的速度的计算发现,当新的数据到达微簇时,时态密集度权重之和增加,随着数据运行时间的衰减推移变化,会影响整体微簇的产生。如果新的数据快速不断地推移到达微簇,那么时态密度就会越来越大,一旦新的数据不能尽快推移到达微簇,其时态密度就会逐渐减少。通过增量的计算反映出一个微簇推移时间的快慢对整体微簇产生的重要性,新的数据到达微簇的时间越快,就会增加微簇的时态密度,而当微簇一直未有新的数据到达,该微簇没有形成时态密度特征,就会通过更新信息将该微簇删除。这种针对微簇不同阶段点的时态密度分析计算的方式,不仅有效提高了计算的速度,还保证了计算的有效性和可靠性。
3 大数据高效迁移策略
3.1 数据格式统一
数据会因类型不同而产生不同的存储记录方式,导致数据存储格式不统一。数据被迁移到新平台后,影响到原来系统和新系统之间数据库的正常,可能导致重复数据的二次录入以及格式问题等情况出现,这些情况会影响到系统的兼容性。无法实现数据的统一管理。为避免这一现象发生,在新的数据迁入环境中应采用统一化格式存储数据,以便于管理。
根据新平台的应用功能,采用设计语言查询数据库的特殊编程方式,以便更好地管理和控制数据库。设计Java语言服务方式,服务器对数据库迁移缓存ORM框架采用的是Hibernate。通过迁移数据库中的数据与新系统数据库中的数据,进行Hibernate语言对象访问形式,有效解决了数据重复混乱的问题[2]。
3.2 数据分割
由于庞大的数据量对平台系统造成推移接收困难,所以,迁入数据应先进行切分,再被多线程同时处理。这种处理方法具有很多的优势。数据移动和接收的问题可以得到处理,对于平台的运行环境有一定的优化作用。另外,在进行迁移前,首要的工作是对处理的总数据的情况进行合理的计算,不一定要精确,但是一定要在系统硬盘内存的量内。之后,根据实际的情况来将数据迁移到位。通过数据切分模块将大数据细分成较小数据单元,之后,采用多线程协同处理的方式,完成上述数据分割过程,分割的不同部分应当做好对应的记录,之后提高新平台后,完成数据迁移过程。数据切分记录表如表1所示。
表1中:N为数据总量,E为单个作业需要完成的迁移数据量,M×E≤N,整个切分流程分为以下几个步骤。
黄莺目瞪口呆,傻看着刘雁衡。刘雁衡两眼盯住胖警官:“我跟你们去,在这里,我什么都不会说。传单的事,只有我知道。”
表1 数据分割记录表Tab.1 Data segmentation record table
Step1:分析并估计系统存储能力及处理能力;
Step2:通过预估计算来分析预加载数据规模;
Step3:当数据迁移量超出系统处理能力时,需要先将数据做切分处理;
Step4:当切分环节出现问题时候应仔细评估数据迁移量并进项异常检测;
Step5:将切分完成的数据信息序列导入到数据迁入模块中。
3.3 数据迁移
基于时态密度特征的大数据迁入作业,采用的是多线程并行处理模式,数据迁入步骤如下。
Step1: 加载迁入队列初始信息;
Step2:检测数据源是否存在数据,如果存在数据,就要读入下一个单位量的数据,如果没有结束程序;
Step3:若检测队列已满,则等待;
Step4:当队列中数据读入缓冲区,表示为空时,则任务结束。
迁入缓冲队列技术和迁出缓冲队列技术有效解决了时态密集大数据在迁移过程中读入数据在格式上存在的差异和时率不匹配问题。通过对不同访问数据的访问率进行分别存储,把经常访问的数据存储到成本较高的存储空间,实现存储硬件的最大化使用价值,快速安全地完成大数据的迁移工作[3]。
4 对比实验
为了验证基于时态密集度特征的大数据高效迁移方法的有效性,进行对比实验分析。
4.1 实验环境
实验环境如表2所示。
表2 实验仿真环境Tab.2 Experimental simulation environment
4.2 实验数据分析
实验数据分析如表3所示。
表3 实验数据Tab.3 Experimental data
4.3 实验结果与分析
将不同种类的数据迁移方法进行对比分析,不同时间点结果如下:
3:00AM:经验模态分解大数据迁移方法和粒子群大数据迁移方法的迁移效率分别为54%和70%,而基于时态密集度特征迁移方法的迁移效率为88%;
9:00pM:经验模态分解法和粒子群迁移法的效率分别为31%和59%,而基于时态密集度特征迁移方法的迁移效率为91%;
综合来看,时态密集度特征迁移方法具有良好的处理效率和实用性。
5 结语
综上所述,互联网技术以及物联网技术的高速渗透让人们获得了更多的可以取得信息和数据的渠道,但是同时也让做好数据信息的管控更加困难。所以本文推出了具有时态密集度特征高效迁移法:通过将不同平台的数据进行迁移后,完成了控制数据和迁移数据的可能,并且在此基础上进一步完善了数控平台的稳定性,避免控制平台出现数据流流失等情况发生。基于时态密集度特征的大数据高效迁移策略,首先进行预估数据计算,并针对数据进行分割,随后开始迁移工作,从而达到数据优化以及数据合理配置的目的。该方法确实有很强的实用性,且对于系统平台的运行也具有很大的帮助,对于提高迁移效率,改善运算精确具有很大的帮助。另外,一些智能化的具有储量大、运算能力强的软件业得到了广泛的使用,从而为数据迁移工具的开发以及大数据的应用提供了帮助。