APP下载

基于大数据分析的科技成果数据融合方法研究

2022-05-11运晨超黄毅臣赵微薛璐璐杨亮

微型电脑应用 2022年4期
关键词:科技成果页面神经网络

运晨超, 黄毅臣, 赵微, 薛璐璐, 杨亮

(1. 国网冀北电力有限公司经济技术研究院, 北京 100038;2. 北京博望华科科技有限公司, 北京 100045)

0 引言

科技成果是科研人员利用智力在科学技术活动中劳动得到的知识产品,该产品拥有学术价值或经济价值。因特网上有大量关于科技成果数据的信息和页面,而且这些数据还拥有类型多样性和结构多样性等特点,导致无法从中快速又准确地获取有价值的科技成果数据。

数据融合是通过联合多传感器信息源的数据及信息,对位置和身份进行更加精确的估计,以便实时处理战场态势及威胁、完整评价其重要程度[1]。为了实现数据融合,李晓瑜等[2]提出一种k-means改进算法的并行化实现与应用,赵骏鹏等[3]提出基于粒计算的多尺度聚类尺度上推算法。前者只适用于小范围的数据融合,大数据处理时会产生拥塞;后者的融合过程复杂,融合内容不稳定、效率低。针对上述问题,本文提出一种基于大数据分析的科技成果数据融合方法。

1 科技成果的数据抽取

1.1 成果元数据

设定科技成果为多个数据项构成的记录,而元数据为构成这些科技成果信息的数据项。例如学位论文,其元数据通过对许多学术网页内容的分析确认,主要有题目、作者、附注、日期、资源类型、资源标识、相关文献与权限管理等。采用DOM(Document Object Model)树实现科技成果数据抽取,该过程抽取万维网页面中科技成果数据的元数据,组合成完好的成果记录[4-5]。

1.2 构建DOM树

HTML是万维网的大部分页面表示语言,它的文本是自描述性数据,具有半结构化特征,无法清楚辨识页面上混杂在一块的科技成果数据结构和内容。为了解决这一问题,通过结构化处理HTML网页,继而实现目标科技成果数据的抽取[6]。由于HTML网页中的格式不够规范,可能有些标签会出现没有结束标签,或者错误递归嵌套,并且存在循序交叉的问题,所以需要对HTML网页开展结构化处理,正确递归嵌套网页的标签元素,从而将其解析成DOM树[7]。

结构化处理后的HTML网页页面文档格式规范,将此文档反馈至解析器转为DOM树结构,每一个HTML网页页面中的标签对应树上的一个节点。遍历DOM树上的每一个节点,匹配主题词得出节点集合A1、A2、A3、A4分别为标题节点集合、作者节点集合、作者姓名节点集合以及初始化目标节点集合(DOM树中所有节点的集合),通过各节点坐标值研究节点集合A1、A2、A3中的节点a1、a2、a3彼此之间的空间关系,得出中间结果集合TEMP1、TEMP2、TEMP3,其满足(a1,a2)=(miorbi,a)且(a1,a3)=(a,miorbi)的条件,这时存在作者姓名的节点在中间结果集合TEMP3中,说明中间结果集合TEMP3满足全部的规定抽取要求,最终的目标节点是将中间结果集合TEMP3中每个节点temp3与集合A4中节点a4作关系连接(temp3,a4)=(miorbi,ai)的输出结果。

本文方法不仅应用DOM树的包含层次特点,而且对网页结构发生的变化适应良好。利用DOM树的包含层次特点检索DOM树,若存在与条件不符的任一节点,则该节点中的所有节点都不符合条件,从而省去了所有DOM树节点绝对坐标的计算量[8]。

2 基于大数据分析的科技成果数据融合

科技成果数据具有种类多、数量大、相互关联信息不清晰的问题,且其初始数据的冗余度和噪声含量比较高,所以必须对数据进行预处理和分类。

结合MapReduce模型与Hermite正交基前向神经网络方法共同实现科技成果数据的融合。依据MapReduce执行流程,对预处理完成的科技成果的数据实施并行化处理,并采用Hermite正交基前向神经网络,对并行化处理后得到的子数据集进行分类融合,利用多个归约函数合并所有节点计算处理的子集,获取最终数据融合结果。

2.1 Hermite正交基前向神经网络方法流程

图1描述了Hermite正交基前向神经网络的方法流程。

图1 Hermite正交基前向神经网络方法流程图

确定网络初始化的初值,利用输入的样本数据,计算隐含层输出、输出层输出及输出层偏差,对比实际输出与期望值,判断其是否满足偏差,满足则结束方法,若不满足则通过调节隐含层与输出层之间的连接权值回到输出层计算环节,直到满足偏差。通过Hermite正交基前向神经网络方法使整个计算的过程更简单、速度更快,让数据融合的复杂程度大大降低。

2.2 MapReduce执行流程

MapReduce作为一种编程模型,用于对范围较大的数据集合开展并行化计算,主要由Client、JobTracker、TaskTracker、HDFS等4个独立部分组成了由任务提交到任务完成的整个过程。MapReduce主要结构如图2所示:

图2 MapReduce主要结构

图2描述了MapReduce的实施结构,主要分为任务提交、初始化、任务分配、任务实施、任务完成等5个环节。其中任务提交的内容是:首先部署任务的有关信息(Map方法、Reduce方法以及输送渠道),实现部署后上传任务(图2中的①);然后通过分配节点获得ID(图2中的②),对任务的方法和渠道安排开展查验,整理任务资源将其拷贝到分布式文件系统(图2中的③),通过任务实施节点的调用通知其开始任务(图2中的④)。初始化是JobTracker通过分布式文件系统获得有关任务信息的输入(图2中的⑤),同时按照任务资源信息将Map、Reduce的程序初始化。任务分配环节是TaskTracker凭借心跳通信机制与JobTracker取得联络,并通过接收JobTracker整理的任务信息获得被分配的任务(图2中的⑥)。任务实施的内容是TaskTracker在得到自己的任务后,获取任务资源有关的部署信息、代码和数据,并将其拷贝到系统文件夹中(图2中的⑦)。在Map或Reduce的任务结束后,任务反馈信息输出到HDFS并保存(图2中的⑧)。

2.3 结合MapReduce模型和Hermite正交基前向神经网络方法的并行化处理

组合Hermite正交基前向神经网络方法与MapReduce模型后的MapReduce能够在集群上对大数据集同时进行处理,数据计算效率得到大幅度提升。利用MapReduce帮助研究基于大数据分析的科技成果数据融合方法,将处理小样本的方法应用到大数据的处理上。图3是结合MapReduce模型与 Hermite正交基前向神经网络方法的并行化处理架构图。

利用Hermite正交基前向神经网络方法运行时的数据块独立被处理的特点,将其与MapReduce模型组合进行并行计算,在数据融合初期,通过任务分配节点将数据集合应用Map原理分割成体积平均的多个子数据集,并安排到所有任务实施节点,使用本文方法对科技成果数据依据给定要求实施融合,最终结果通过数个归约函数对所有节点计算处理的子集合并得出。

图3 结合MapReduce模型和Hermite正交基前向神经网络方法的并行化处理架构图

3 实验分析

为验证本文方法的数据融合性能,本文选择实验的数据为国家科技成果网科技成果数据的不同类别网络页面。科技成果依据研究性质划分成基础理论成果、应用技术成果和发展工作成果3类:基础理论成果类包含科学论文、原理性模型和发明专利等;应用技术成果类包含新技术、新材料和新设备等;发展工作成果类包含了对科技的政策、管理和活动进行研究的研究报告。由于详细类别的数据容量过大,仅采用首页数据展开实验。

表1描述了本文方法针对国家科技成果网科技成果数据的抽取结果。

表1 针对国家科技成果网科技成果数据的抽取结果

分析表1所示的数据抽取结果发现,3类科研成果的数据块正确抽取率均为100%,各个数据块内信息正确抽取也达到了100%,可见本文方法可以非常完整正确地抽取科技成果数据内容,验证了本文方法在数据抽取时可有效确保抽取数据的完整性和准确性。

为进一步验证本文方法的优势,采用k-means方法(文献[2]方法)、粒计算方法(文献[3]方法)为本文方法对比方法,对比3种方法融合不同数据容量的3种类型科研成果数据的效率,对比结果如图4~图6所示。

图4 基础理论成果类数据融合效率比较

图5 应用技术成果类数据融合效率比较

图6 发展工作成果类数据融合效率比较

通过图4看出,当数据容量超过16 GB时,3种方法逐渐拉开差距,k-means方法和粒计算方法的数据融合时间随着数据容量的增大而增长,而本文方法的数据融合时间保持稳定,不受数据容量的增长影响。

分析图5可知,当数据容量超过16 GB以后,k-means方法的数据融合时间出现大幅度提升,粒计算方法的数据融合时间也有明显提升,但是上升幅度低于k-means方法,本文方法的数据融合时间则较为稳定,当数据容量达到128 GB时,处理时间仅为48 s。

分析图6可知,当数据容量为128 GB时,2种对比方法的数据融合时间分别达到122 s、145 s,而本文方法的数据融合时间仅为45 s。

4 总结

本文研究基于大数据分析的科技成果数据融合方法,通过数据抽取和数据预处理对繁杂的科技成果信息数据实施简化处理,在此基础上有效结合MapReduce编程模型和Hermite正交基前向神经网络方法,共同实现数据并行化处理,完成科技成果数据信息的融合。实验结果表明,本文方法能够完整正确识别科技成果数据信息,有效提升融合效率,减小了数据融合的复杂程度,对大数据的处理提供强有力的支持。

猜你喜欢

科技成果页面神经网络
刷新生活的页面
基于神经网络的船舶电力系统故障诊断方法
MIV-PSO-BP神经网络用户热负荷预测
基于改进Hopfield神经网络的对地攻击型无人机自主能力评价
答案
让Word同时拥有横向页和纵向页
河南:为科技成果转化提供法治保障
基于神经网络的中小学生情感分析
国家食药监总局:促进监管科技成果转化
科技成果精准转化的“科创365”