基于集成学习的全云化健康大数据整合系统设计
2020-12-07张喆汤永利
张喆 汤永利
摘 要: 设计基于集成学习的全云化健康大数据整合系统,实现健康大数据的高效率、高精度整合。管理员操作管理操作层实现系统控制、调控以及应用;大数据分析层通过ELM预测模型的参数单步预测方法获取融合多维参数信息的健康数据预测结果,并采用Bagging集成学习方法融合ELM预测模型获取高精度的强学习模型,实现差异多维全云化健康大数据的有效判读;通过全云化健康大数据整合层中的整合管理器以及整合运行引擎整合健康大数据,并通过调控层将整合后的健康大数据反馈到大数据资源层中,存储到该层中的临时数据库以及元数据库中,同时这些数据库中的数据为应用软件数据库提供数据调度服务。实验结果说明,该系统整合健康大数据的整合量和整合效率高,且具有较高的空间存储容量和并发数据处理性能。
关键词: 健康大数据; 整合系统; 系统设计; 集成学习; 预测建模; 数据存储
中图分类号: TN919?34; TP311 文献标识码: A 文章编号: 1004?373X(2020)22?0173?04
Abstract: A all?cloud health big data integration system based on integrated learning is designed to achieve the high efficiency and high precision integration of health big data. The administrator can perform operation management of the operation layer to realize the system control, regulation and application. The big data analysis layer is used to obtain the health data prediction results integrating multi?dimensional parameter information by means of the parameter single?step prediction method of the ELM prediction model, and the Bagging integrated learning method is used to integrate the ELM prediction model to obtain the high?precision strong learning model, so as to realize the effective judgment of the differentiated multi?dimensional all?cloud health big data. The integration manager and integrated running engine in the all?cloud health big data integration layer are used to integrate the health big data, and the integrated health big data is fed back to the big data layer by means of the regulating layer and stored in the temporary database and metadata database in the layer. The data in these databases is used to provide data scheduling service for the application software database. The experimental results show that the system has high integration capacity and efficiency in integrating health big data, as well as high spatial storage capacity and concurrent data processing performance.
Keywords: health big data; integration system; system design; integrated learning; prediction modeling; data storage
0 引 言
健康大数据(Healthy Big Data)是通過常规软件工具在不能接收的时间界限内对数据进行采集、操控和处理的健康数据的集合[1],是随着信息时代发展出现的新名词,具有诸多优势,应用范围十分广泛。随着全云化时代的到来,健康大数据越来越多地和计算机组合到了一起,让健康大数据走进每一家。因此,全云化健康大数据智能化分析方法成为相关人员研究的热点问题。该方法无需先验知识,分析历史采集数据判断规范,可实现不同类型健康大数据的有效判断和整合。通常采用基于数据预测的全云化健康大数据智能分析方法,实现健康大数据整合。因为极限学习机(Extreme Learning Machine,ELM) 预测模型是一种新的参数训练方法,其具有很多如训练速度快、精度高、拥有极少参数设置等优点。集成学习(Ensemble Learning)又称多分类器系统,其功能组成构造是通过多个学习器的组建和结合完成学习任务,具有准确性高和多样性强等功能。集成学习应用十分广范,如在计算机、电子医疗辅助等领域[2]。因此,本文设计的基于集成学习的全云化健康大数据整合系统,采用Bagging集成学习方法融合极限学习机(Extreme Learning Machine,ELM) 预测模型实现健康大数据的有效预测后,通过整合层和资源层,完成健康大数据的整合和存储,本文系统不仅实现了全云化大健康数据的整合,也为今后大数据发展提供了可靠依据[3]。
2.2 全云化健康大数据整合效率
由图5可知,随着实验物流公司大数据存储量的不断增加,本文系统整合全云化健康大数据效率远远高于物联网整合系统。本文系统整合时间在200~500 ms之间,而物联网整合系统的整合时间在300~900 ms之间,说明本文系统整合全云化健康大数据效率较高。
2.3 存储空间容量对比
设置实验两种系统的基本存储参数为0.83,存储空间容量极限参考数为7.1×28 TB,在这些条件下,检测两种系统进行实验物流公司2016年8—10月期间全部健康大数据整合过程中耗费的存储空间容量情况,结果见表1。
2.4 并发度对性能影响分析
分析图6可知,随着时间的增加,本文系统在处理对全云化健康大数据处理性能并发数量上远远大于基于物联网的健康大数据整合系统,说明本文系统对全云化健康大数据处理性能更高。
3 结 论
本文设计的全云化健康大数据整合系统是一个多层体系结构,通过管理操作层、大数据分析层、全云化健康大数据整合层和全云化健康大数据资源层间的协同合作,实现全云化健康大数据的有效整合。其中,大数据分析层和大数据整合层是总体系统的关键组成部分,分析层采用Bagging集成学习方法和ELM预测模型组成强学习方式,实现健康大数据的有效预测和判读后,通过整合层实现健康大数据的有效整合。随着5G时代的发展,健康大数据越来越多地呈现在人们的视野中,本文系统会让更多的全云化健康大数据走进人们的生活中,带给人们方便快捷的使用效果,为今后大数据的发展奠定了有效的基础。
参考文献
[1] 艾科,马国帅,杨凯凯,等.一种基于集成学习的科研合作者潜力预测分类方法[J].计算机研究与发展,2019,56(7):1383?1395.
[2] 刘胜娃,苏兴华,詹胜,等.面向钻井大数据的数据集成及分析系统的设计与实现[J].微电子学与计算机,2018,35(1):128?132.
[3] 周敏,岳丽娜.基于物联网和云技术的桥梁结构安全信息平台设计[J].武汉理工大学学报(信息与管理工程版),2017,39(6):765?768.
[4] 饶川,苟先太,金炜东.基于选择性集成学习的高速列车故障识别研究[J].计算机应用研究,2018,35(5):1365?1367.
[5] 臧艳辉,赵雪章,席运江.基于MF?R和AWS密钥管理机制的物联网健康监测大数据分析系统[J].计算机应用研究,2019,36(7):2065?2069.
[6] 刘浩,文广超,谢洪波,等.大数据背景下矿井水害案例库系统建设[J].工矿自动化,2017,43(1):69?73.
[7] 刘伯德,张森.基于网络化大数据的城市轨道交通安检系统[J].城市轨道交通研究,2019,22(6):182?186.
[8] 李俊楠,李伟,李会君,等.基于大数据云平台的电力能源大数据采集与应用研究[J].电测与仪表,2019,56(12):104?109.
[9] 刘洪霞,冯益明,曹晓明,等.荒漠生态系统大数据资源平台建设与服务[J].干旱区资源与环境,2018,32(9):126?131.
[10] 韦丽华,张敏.合肥城乡规划数据采集及集成系统研究[J].规划师,2018,34(z1):26?28.
[11] 李超强,侯文军,李豪.“量化自我”?复杂信息系统人因功效评估大数据分析平台的建设[J].中国电子科学研究院学报,2017,12(6):563?569.
[12] 欧强新,李海奎,雷相东,等.基于清查数据的福建省马尾松生物量转换和扩展因子估算差异解析:3种集成学习决策树模型的比较[J].应用生态学报,2018,29(6):2007?2016.
[13] 徐禹洪,黄沛杰.基于优化样本分布抽样集成学习的半监督文本分类方法研究[J].中文信息学报,2017,31(6):180?189.
[14] 高慧云,陆慧娟,严珂,等.基于差异性和准确性的加权调和平均度量的基因表达数据选择性集成算法[J].計算机应用,2018,38(5):1512?1516.
[15] 张燕,杜红乐.基于异构距离的集成分类算法研究[J].智能系统学报,2019,14(4):733?742.