基于机器学习算法的研究热点趋势预测模型对比与分析
2019-04-20李静徐路路
李静 徐路路
摘要:[目的/意義]细粒度分析学科领域热点主题发展脉络并对利用机器学习算法对未来发展趋势进行准确预测研究。[方法/过程]提出一种基于机器学习算法的研究热点趋势预测方法与分析框架,以基因工程领域为例利用主题概率模型识别WOS核心集中论文摘要数据研究热点主题并进行主题演化关联构建,然后选取BP神经网络、支持向量机及LSTM模型等3种典型机器学习算法进行预测分析,最后利用RE指标和精准度指标评价机器学习算法预测效果并对基因工程领域在医药卫生、农业食品等方面研究趋势进行分析。[结果/结论]实验表明基于LSTM模型对热点主题未来发展趋势预测准确度最高,支持向量机预测效果次之,BP神经网络预测效果较差且预测稳定性不足,同时结合专家咨询和文献调研表明本文方法可快速识别基因领域研究主题及发展趋势,可为我国学科领域大势研判和架构调整提供决策支持和参考。
关键词:热点主题;发展趋势;机器学习;LSTM模型;支持向量机模型
DOI:10.3969/j.issn.1008-0821.2019.04.003
〔中图分类号〕G203〔文献标识码〕A〔文章编号〕1008-0821(2019)04-0023-11
Comparison and Analysis of Research Trend Prediction
Models Based on Machine Learning Algorithm
——BP Neural Network,Support Vector Machine and LSTM Model
Li Jing1Xu Lulu2*
(1.School of Economics and Management,Tongji University,Shanghai 200092,China;
2.Department of Information Resources Management,Business School,Nankai University,
Tianjin 300071,China)
Abstract:[Purpose/Signficance]Fine-grained analysis of the development context of hot topics in the subject field and accurate prediction of future development trends using machine learning algorithms.[Method/Process]This paper proposed a research hotspot prediction method and analysis framework based on machine learning algorithm.Taking the field of genetic engineering as an example,it used the topic probability model to identify the hot topics of the WOS core summary data and constructed the theme evolution association.Then selected three typical machine learning algorithms,such as BP neural network,support vector machine and LSTM model to predict and analyze.Finally,the prediction results of the machine learning algorithm were evaluated by using RE index and precision index,and analysed the research trend in the fields of medicine and health and agricultural food in the field of genetic engineering.[Result/Conclusion]The experiment showed that the LSTM model had the highest prediction accuracy for the future development trend of hot topics,the prediction effect of support vector machine was the second,the prediction effect of BP neural network was poor and the prediction stability was insufficient.At the same time,combining expert consultation and literature research,it showed that this method could quickly identify the topic and development trend of gene field.It could provide decision support and reference for the judgement and adjustment of the discipline in China.
Key words:hot topics;development trend;machine learning;LSTM model;support vector
21世纪以来,面对日益加剧的科技创新演变和国际科技竞争态势,如何有效识别科学领域研究前沿热点并对未来科技发展态势进行预判至关重要。基于科技文献的研究前沿热点探测一直是科技战略情报的重点内容,宏观层面来讲可对国家学科架构规划、智库建设及基金规划制定提供决策支持,中观层面对于地区、高校、院系等体系的双一流建设和学科带头点培养起指导作用,而从个体微观角度来讲,研究热点的把握和趋势追踪对于科研工作者提升科研效率和科研产出意义显著[1]。因此,有效捕捉当前活跃的科研活动信息,从而追踪研究热点趋势成为一直以来关注的焦点。
目前,很多学者围绕科学研究前沿及领域热点态势等进行了有效研究并取得了丰硕的成果。但与此同时,研究热点探测多基于引文分析方法存在时间滞后问题[2],同时存在词频统计分析语义不足、演化分析较为充分但预测分析不足以及粗粒度时间切片不能有效揭示热点主题的发展演化脉络等诸多问题[3],使得研究热点探测和趋势分析科学性存在不足。
基于指数平滑、自回归模型、神经网络模型等方法的时间序列预测模型基于历史数据相空间重构和反馈传播从而把握事物演变态势并对下一时间段的发展进行预测,在金融证券、风电荷载及企业治理等领域应用广泛。但预测研究在情报学应用较少,存在场景融合力度不足以及预测方法传统单一等问题,因此,本文提出基于机器学习算法的研究热点预测模型,利用主题概率模型识别领域主题强度并以表征研究热点,尝试分析和对比不同机器学习算法预测效果以确定最优预测模型选择,对未来一段时间内的发展趋势进行定量分析。本文尝试寻求机器学习预测模型与研究前沿热点的应用结合点,也为情报学领域的前沿识别追踪领域提供一种新思路、新方法。
1相关研究
11研究热点梳理
目前在情报学和科学学研究热点及前沿热点识别中主要分为两大类方法:引文分析方法(如共被引、文献耦合)和文本内容分析(词频分析、共词以及主题概率模型分析)。
1973年,Small H等[4]首次提出利用共被引聚类方法识别研究前沿热点主题。1994年,Carfield S L等[5]利用共被引强度表征当前研究活动前沿信息并进一步对研究前沿热点内涵分析定义。Kessler M M[6]最早将文献耦合分析方法引入到前沿热点识别中来,该方法有效揭示文獻间内在联系和学科架构变化,围绕该方法的研究逐步开展。如Persson[7]利用施引文献—被引文献二维矩阵揭示热点研究主题,Morris S A等[8]基于文献耦合方法进一步可视化展示热点主题分布、演变与衰老动态时序变化。
基于共被引和文献耦合等引文分析方法存在时间探测的滞后性,同时存在未深入文本内容、欠缺语义关系等问题一定程度上制约了热点主题探测的科学性。因此,目前基于词频分析、共词分析以及主题模型成为热点识别的主流先驱。2003年,Blei D M等[9]提出LDA模型从概率统计层面定量分析和识别出科技文献动态研究主题。2004年,Mane K K等[10]利用词频分析方法对生物医学领域文献进行结构分层并绘制研究热点主题地图。2012年,杨星等[11]提出基于主题模型的热点及趋势自动识别方法并在时间轴上对热点主题进行动态演化分析,相关研究学者还有傅柱等[12]、徐路路等[13]。目前基于研究热点和前沿探测的方法取得了显著的研究成果,演化分析较为充分但存在前瞻预测不足、预测方法单一老化等问题,因此本文将结合当前机器学习相关算法对识别出的研究热点主题进行预测分析。
12基于机器学习预测方法梳理
1970年,美国科学家博克斯首次提出利用时间序列建模分析实现事物发展趋势预测对模型设计、诊断、检验以及控制等进行了阐明。之后围绕时序建模的思想和方法逐渐完善并在经济趋势预测、国家产值预判及舆情风险评估等诸多方面取得了方法的应用。目前传统的时序预测方法主要有自回归、Kalman滤波法、滑动平均模型等。
基于传统的时间序列预测方法侧重于数理统计,不具备自学习、自组织、自适应能力,尤其对于非线性及多特征维度的数据类型不能有效拟合和函数表达。随着万物互联和大数据生态环境的构建,基于神经网络、支持向量机回归及随机森林等模型的多种机器学习算法的时间序列预测模型日益发挥重要作用。
2004年,张烈平等[14]提出一种基于BP神经网络的自学习预测建模系统,利用其并行结构和处理能力将仿真实验精准度有效提高。2008年,侯亚丽等[15]针对BP神经预测模型收敛慢且易局部收敛等缺陷,提出一种基于改进LM(Levenberg-Marquardt)优化算法的神经网络预测模型,修正后向传播权重调整策略和偏置优化有效提出模型运行效率,围绕BP神经网络及其他模型算法研究的还有夏玫等[16]、孙文俊等[17]及饶浩等[18]。2015年,罗知林等[19]提出基于随机森林算法的微博信息传播预测算法,利用随机算法的高维度特征抽取能力对微网络结构及等特征进行有效提取预测。2016年,李杰[20]提出改进粒子群算法的支持向量机预测模型有效克服其参数收敛及优化问题,并以工程造价领域进行实证预测研究。2017年,张宇航等[21]针对小样本电力荷载提出一种基于LSTM(Long Short-Term Memory,长短期记忆网络)模型的短期负荷预测方法有效逼近其预测函数机制。
基于机器学习相关算法的预测模型在诸多领域取得广泛应用但在情报学研究领域尤其是前沿预测分析、热点状态追踪等方面相关研究尚未开展。因此,本文将尝试利用BP网络、支持向量机及LSTM模型对热点前沿主题进行预测分析并寻找最优预测效果。
2方法框架
为有效对研究热点进行趋势预测分析,本文提出一种基于机器学习算法的研究热点预测模型,首先以基因工程领域为例获取WOS核心合集摘要数据,然后利用LDA主题模型实现科技文献中信息抽取和主题强度表征热点度,进而利用余弦相似度定理建立主题关联构建,最后利用机器学习算法对其未来发展趋势进行预测分析并对不同机器学习算法预测能力进行评估验证。实验框架如图1所示。
21研究热点主题探测
拟选用LDA模型为研究热点主题探测工具。LDA主题模型可以表达主题、主题词与文檔3层语义结构,利用无监督机器学习方式抽取隐藏的主题信息并对主题词进行权重表示。研究热点表示一定时期内某一学科研究热情及研究主题强度,可用关键词或主题词的权重表示,权重越大表示研究主题越热门。利用机器学习算法进行研究热度预测首先需要得出每子时期主题强度值。本文提出热点研究前沿主题强度指标如下:
TIIzt=∑ni=1weight(ki)(1)
其中,weight(ki)表示主题词权重比值;∑ni=1weight(ki)反映该主题累计主题词权重值,TIIzt即为该主题权重值,越大表示研究主题越热门,越代表当前研究的重心和科技竞争点。该指标的有效探测和预测可对热门研究前沿主题发展脉络准确把握和定位。
22主题关联构建
细粒度识别子时期研究主题热度后需探索不同时间片段主题集群内部与外部关联关系,从而得到不同主题在不同时期的前驱与后继关系形成动态主题链。本文基于余弦相似度的方法计算时序主题的相似度,构建基于时间序列发展的主题发展脉络,为后续基于机器学习算法做预测分析提供实验准备和基础。设定固定阈值进行相似度判定,相似度大于阈值则说明两个时间维度的热点主题为同一主题的演进与变化,公式如下所示:
Sim(Topici,Topicj)=cosθ=∑nk=1wk(Topici)×wk(Topicj)∑nk=1w2k(Topici)×∑nk=1w2k(Topicj)(2)
其中,分子表示两个主题向量的点乘积,分母表示两个主题向量的模的积。
23机器学习算法预测模型对比分析
选取目前时间序列预测研究中常用且准确度较高的3种机器学习算法作为本实验研究热点趋势预测模型,分别为BP神经网络、支持向量机和LSTM模型。
231BP神经网络结构预测模型分析
1986年,Rumelhart首次提出误差逆向修正多层反馈的BP神经网络,凭借其优越复杂模式分类能力和多维函数映射能力而取得了广泛应用。BP神经网络主要分为输入层、隐含层和输出层3层神经结构,采用经验风险最小和梯度下降法来计算目标函数最优值从而逼近函数表达,BP神经网络网络结构如图2所示。
其中,{x1,x2,x3,…,xn}表示n维的模型输入单元,{y1,y2,y3,…,yn}表示模型输入,从输入到输出对应权重值w和偏置项b用于前向和后向传播参数调整。对于神经节点i输入可表示为:
Hui=∑Jj=1WijVj=∑Jj=1Wijg∑Kk=1wjkxi(3)
经过隐层节点得到模型输入为:
Oui=g(Hui)=g∑Jj=1Wijg∑Kk=1WjkXi(4)
对于任意输入模式u和输入单元定义误差函数为:
Eu(w)=12(xui-yui)2=12[xui-g(∑jWii) g(∑Wijxui)]2(5)
进而对神经元结构进行误差平均处理得到模型预测器的误差,使得隐层前向网络结构能够逼近定义在Rn一个密集任意非线性函数得出模型最优解。BP神经网络作为机器学习算法的一种具有较好的自学习、自适应能力和一定的推广能力。但BP神经网络面对复杂优化目标函数神经元输出逼近真实值时期训练效果较差且易陷入局部最优,其网络结构和神经元需人为设定具有较强的主观性,而该模型预测的推广能力和泛化能力也有待于进一步提升。
232支持向量机(SVM)预测模型分析
20世纪90年代科学家Vapnik等提出支持向量机(Support Vector Machine,SVM)算法,基于结构风险最小化寻找归纳统计设计模型以实现最小风险泛函,利用核函数将数据从低维度映射高维度空间降低了维度灾难和计算复杂度而具有较好的推广能力,在电力预测、文本分类等诸多领域取得了广泛应用。支持向量机采用核函数原理,将数据从低维空间映射到高维空间,有效避免“维数灾难”,提高了非线性数据的拟合能力(如图1左侧图所示),利用核函数计算值K(xi,x)表达多维向量内积计算时间t时间段内前m数据(即数据时间窗口为m)预测结果输出,如图3右侧图所示。
相比于BP神经网络等传统神经网络算法,SVM模型采用结构风险最优而其推广能力一直是该模型的优点之一。对于给定样本(xi,yi)(i=1,2,3,…,N),N为样本容量,xi为输入向量,yi为输出目标,SVM模型采用高维映射特征空间Rn到Rm再在特征空间利用线性函数进行函数逼近:
y=f(X)=[W,φ(X)]+b(6)
式中,W、f(X)为m维矢量数据,b为函数阈值,y表示点积处理后函数值。根据统计学理论SVM最小化目标函数得到拟合回归函数公式:
minW,b∶12W2+c∑ni=1yi-[W,φ(xi)-bI](7)
式中c表示控制模型损失1/2w2和训练模型复杂度的惩罚系数,i=1,2,…,n表示支持向量机点数。利用核函数可实现数据高维映射特征空间,进而在不影响计算复杂度的前提下输出模型预测时序结果。
g(xi)=wTΦ(xi)+b=∑mi=1αi[Φ(xi)Φ(x)]+b=∑αik(xi,x)+b(8)
支持向量机具有较强小样本学习能力和非线性拟合能力,不容易陷入局部最优同时参数设置相对简易,因此在机器学习时序预测领域取得了较为普遍的应用,但在情报学科学研究前沿探测和预测分析中的应用较少,因此本文选用支持向量机模型作为机器学习算法的一类展开论述分析。
233长短期记忆网络(LSTM)预测模型分析
长短期记忆网络(Long Short Term Memory Networks,LSTM)作為特殊的RNN,有效克服了其在机器学习中梯度消失和梯度爆炸的缺陷,对于间隔和延迟相对较长的时序数据具有强度处理能力。LSTM预测模型结构包括:输入序列X={x1,x2,x3,…,xn}、时序步长及相应输入xt以及控制信息传递的遗忘门ft、输入门it和输出门ot,如图4所示,在t时刻时t-1时刻输入ht-1及记忆细胞状态Ct-1到达并结合此时刻输入通过输入门并由遗忘门f过滤后得到该时刻模型输出。
图4LSTM模型预测模型结构分析
对于LSTM输入:
zt=∑Ii=1wxixti+∑Hh=1whiht-1i+∑Cc=1wsist-1c+bi(9)
yt=f(zt)(10)
式中,wxi、whi、wsi分别代表不同细胞机制权重分布,第一项表示与输入门相关的外部信息变量,第三项表示cell中的输入部分,第二项表示t-1时刻泛指状态,因为LSTM模型单元相关关联其隐层节点信息共享,则它可视为外部输入的一部分,b为偏置向量,f表示sigmoid激活函数。遗忘门和输出门机构机理和相关参数与输入相似,最终隐层单元状态值由tanh激活函数得到输入预测值。
t=σ(w*h+b)(11)
3实证研究
31实验平台
硬件:Window10操作系统、Genuine Intel(R)CPU @ 170GHz、8GRAM
软件:Anaconda、基于Tensorflow(GPU版本)后端的Keras深度学习框架、Rapidminer
32数据集及预处理
数据库:Wos核心论文集中基因工程领域论文数据
时间跨度:1965年至2017年
检索式:Keyword=“Genetic Engineering”
检索结果:2 764项。
自1965发表第一篇以基因工程为主题的文章但受限于当时科研条件和理论基础该研究后续未广泛展开。1998年围绕基因工程主题论文的研究相继展开,科研产出数量逐年增加,自2003年开始相关研究呈现高度发展状态,后续科技年代维持高热情、高产出的发展态势。本文利用LDA模型识别大规模文档数据集中主题分布,因此为保证数据样本充足性选用2003年为起始年份,以年为基本处理时间区间共计15年子区间。
33主题识别实验
331LDA相关参数设置
本文选用LDA模型进行主题识别。LDA(Latent Dirichlet Allocation,隐含狄利克雷分配)是包括文档集层、主题层及特征词层3层结构的贝叶斯概率分布模型,通过概率统计和参数拟合模拟大规模文档生成过程,抽取科技文献中具有代表实际意义的主题词进而可以深度挖掘文本数据蕴含的隐含主题信息拓扑结构。
文档集中主题数为超参数,在进行主题识别前需确定多源信息数据主题数目。复杂度(Perplexity)是衡量一个语言模型优劣常用的一个指标,David等提出复杂度指标并定义一个有M篇文档的文档集的主题模型的复杂度为:
perplexity(Dtest)=exp-∑Md=1logp(wd)∑Md=1logNd(12)
其中,M是文档集中文档的数目,P(Wd)是PLDA模型生成第d篇文档的概率,Nd是单词的个数,当perplexity(Dtest)最小时,主题具有较好的语义表达效果,建立主题文档映射,确定文档集中的主题数。本文对主题数目及复杂度动态对应关系进行实验,经实验主题步长最终主题数选择100。
332主题表征
利用余弦相似度定量建立不同子时期主题关联关系,进而在时间序列维度上建立一整条动态时序主题链,时间跨度为2003-2017年间。经实验相似度阈值取05时,主题演化和关联度较好,可以较为完整地表达不同主题类型在时间窗口的跃迁和演化特征。表2中相似度计算可以选择相似度阈值大于05的主题类型建立关联,即2014年中Topic_1在2015年发展为Topic_2进而成为Topic_7(2016),同理则可得到10个主题的主题发展变化。
建立主题动态时序链为后续进行机器学习算法预测研究提供理论基础,而具体主题强度值利用LDA模型实验可以得到主题词权重表征研究热度,进而探测不同主题研究热度在时间序列上的发展变化规律,对未来基因工程领域发展趋势进行研判。
34机器学习算法研究热点预测与对比
341实验设置
选用BP神经网络、支持向量机模型以及LSTM预测模型为本文研究热点预测器。本文热点主题探测区间为15年,选择前10年为训练数据集,后5年为测试数据集,选择相对误差作为模型预测评估指标。时间序列数据标签化处理,滑动时间窗口为1,时间步长为1年,即t年研究热点预测未来t+1年的发展情况。BP神经网络选用三层神经元结构,神经元为1-20-10-1分布,m表示相空间重构数为1,训练迭代次数为50,神经网络学习率为常数001。支持向量机模型中参数Gamma决定数据映射高维度特征空间分布,设置为15,内存大小Cache参数为400,惩罚函数中系数C设置为12,终止判据Epsilion设为0001,支持向量机和BP神经网络利用Rapidminer机器学习算子实现,LSTM预测模型则利用Python35中的Keras框架下搭建两层10维神经元层和一层Dense预测输出,训练批量Epochs设置为50共迭代实验50经后向传播参数调整后结果趋于稳定收敛,评价模型为相对误差。
342实验结果
选用相对误差指标(RE,Relative Error)描述模型预测效果。公式如下,其中表示相對误差,yt表示真实值,yt表示模型预测值。本文测试集共分10个主题及每个主题下后5年的主题强度值,对每个主题不同子时期求得相对误差RE并对其均值处理得到该主题的平均预测精度。部分基于不同机器学习算法预测精度比较见表5,以Topic0为例对2013-2017年主题热度值分别利用BP神经网络、支持向量机及LSTM模型进行预测分析并最终得到该主题平均相对误差分别为1569%、1298%和1075%,可见对于该主题LSTM模型预测精度较高,支持向量机预测效果低于LSTM模型但高于BP神经网络预测模型,但对于Topic2而言预测精度最高的为支持向量机(1096%),LSTM模型和BP神经网络预测精度相差较小分别为1308%和1425%。
BP神经网络模型预测准确度为8364%,在机器学习算法预测模型中预测效果最差,基于支持向量机预测模型和LSTM模型的预测准确度分别为8828%和8910%,预测效果相近,其中基于LSTM模型预测精准度略高,同时基于长短记忆神经网络和支持向量机模型预测稳定性相对较好,可视化分析如图6所示,10个圆环图分别表示10个主题类型,每圆环从内而外分别表示BP神经网络、支持向量机和LSTM模型预测模型,可较为清晰表达预测结果差异性。
35趋势分析
基因工程是通过外源基因载入并经复制、转录、翻译而对基因形状正常的复制和表达的生物分子技术手段,具有广泛的发展前景和应用价值。利用本实验探测得到主题词及主题发展演变,未来一段时间内基金工程领域热点主题趋势上升并呈现稳步增长的态势,主要学科主题按权重词分布可分为医药、农业和环境及食品基础研究四大主题维度。
基因工程在医药卫生方面热点与趋势分析(Topic0、Topic5和Topic9):该主题主要围绕基因工程在医疗检验、基因诊断(Diagnosis)以及基因健康治疗(Health)等方面展开,如利用同源重组基因剔、核苷酸基因合成及靶向药物治疗等手段提升基因工程诊断及治疗药物作用;采用基因工程胰岛素及干扰素(Leading)等相关疫苗增强天然疫苗在人体良化反应;利用核酸分子和聚合酶链反应进行片段化基因检测,改良传统特异性差灵敏度低级诊断误差高等医学诊断方式;利用代替性治疗和抑制性(转录水平和mRNA翻译水平)开展基因治疗(Inherited)等。该领域是基因工程领域的研究热点,但也面临着技术缺陷及实验临床验证不足等问题,未来一段时间内围绕该领域布局可进一步拓展,具有较好的发展趋势。
基因工程在农业方面热点与趋势分析(Topic4、Topic6和Topic8):该主题主要围绕利用先进基因工程(Engineering)手段进行农业作物改良、
作物制药与微生物农业控制等方面展开,如对氮代谢调节基因及携带固氮酶的微生物(Microbe)进行基因改良以满足植物肥料需求、改良自然菌株并对荧光假单胞菌等杀虫防病细菌遗传因子进行试验以减少农药使用;植物基因改良增强光合作用及新品种培育增加作物产量等以及将毒蛋白基因导入烟草、棉花及杨树等农林作物以培养出抗虫(Insect)特性;利用外部基因如磷酸乙酰转移酶基因(Protein)等以培养抗逆性强农作物。该主题主要围绕基因工程在农作物品种改良、抗虫抗病等方面展开,我国作为传统农业大国,在政策部署和市场需求上具有较好的前景,因此围绕该主题下的产业布局和学科架构调整具有积极意义。
基因工程在环境及环境保护(Topic1、Topic3)热点与发展趋势较好,主要围绕水体与土壤污染治理、石油污染及塑料降解等方面展开,如利用改良基因工程菌絮凝性能及生长迅速等特点对有毒有害污染物(Pollutant)进行降解处理;利用杂交技术与质粒载体重组优化抗菌去污能力以及提升微生物特异性DNA编码转换能力(Allele)进行石油降解等。该主题研究力度和主题强度相对较小,未来有待于进一步发展。主题Topic2和Topic7主要围绕基因工程在食品工艺及果蔬产品优化等方面的研究,如利用基因工程加入脱氢酶义基因等提升植物油硬脂酸含量等,加入淀粉合成酶使得直链淀粉合成抑制以提高食品(Food)质量增加焙烤特性等;围绕发酵食品品质、产率及风味(Flavor)特性的基因工程改良也是未来重要发展趋势之一。受限于政策支持、市场调节和食品安全性等诸多因素,围绕上述主题研究热点发展相对较为缓慢,但未来该主题发展趋势仍值得期待,具有良好的市场和环境保护价值,科技政策制定者需加大基金投入和政府引导以期发挥更大作用。
4讨论
本文以基因工程领域为分析数据源,利用主题概率模型识别其主题强度并对其发展演化关系进行分析和关联构建,在此基础上注重主题趋势的预测分析,利用BP神经网络、支持向量机及LSTM模型等代表性机器学习算法对基因工程领域的热点主题未来发展趋势进行预测分析,实验表明基于长短记忆神经网络预测模型预测精准度最高且稳定性较好,支持向量机次于LSTM模型但优于采用经验风险最优的BP神经网络,以期为后期情报学预测研究展开提供实证基础和论证思路。同时,本实验采用文献调研法[22-25]和具有生物医学等基因工程背景专家咨询,认为本实验研究热点识别及趋势分析具有较好的科学性和准确度。
本文不足之处在于采用了论文数据分析源,对于论文数据时间滞后性等问题未进行充分分析,未来考虑加入基金数据、规划文本等多源数据进行充分验证与对比分析,以准确识别基因工程领域热点主题及趋势;同时本文在机器学习算法上选用了3种代表性学习算法,未来将进一步考虑增加相关算法的分析验证同时在步长选择、相空间重构等方面进行多维度验证分析以提供预测模型的推广能力和预测能力。本文注重对未来学科发展趋势预测分析并结合情报学热点探测等技术,以期为我国学科领域及科研发展提供决策支撑和参考。
参考文献
[1]赵蓉英,余波.国际数据挖掘研究热点与前沿可视化分析[J].现代情报,2018,38(6):128-137.
[2]逯万辉,马建霞,赵迎光.爆发词识别与主题探测技术研究综述[J].情报理论与实践,2012,35(6):125-128.
[3]魏晓俊.基于科技文献中词语的科技发展监测方法研究[J].情报杂志,2007,26(3):34-36.
[4]Small H,Griffith B C.The Structure of Scientific Literatures I:Identifying and Graphing Specialties[J].Science Studies,1974,4(1):17-40.
[5]Garfield S L,Bergin A E.Handbook of Psychotherapy and Behavior Change[M].JWiley,1994.
[6]Kessler M M.Bibliographic Coupling Between Scientific Papers[J].Journal of the American Society for Information Science & Technology,1963,14(1):10-25.
[7]Persson O.The Intellectual Base and Research Fronts of JASIS 1986-1990[J]. Journal of the Association for Information Science & Technology,1994,45(1):31-38.
[8]Morris S A,Yen G,Wu Z,et al.Time Line Visualization of Research Fronts[J].Journal of the Association for Information Science & Technology,2003,54(5):413-422.
[9]Blei D M,Ng A Y,Jordan M I.Latent Dirichlet Allocation[J].J Machine Learning Research Archive,2003,3:993-1022.
[10]Mane K K,B Rner K.Mapping topics and Topic Bursts in PNAS[J].Proc Natl Acad Sci U S A,2004,101(Suppl 1):5287-5290.
[11]楊星,李保利,金明举.基于LDA模型的研究领域热点及趋势分析[J].计算机技术与发展,2012,(10):66-69.
[12]傅柱,王曰芬,关鹏.以分类主题抽取为视角的学科主题挖掘——基于LDA模型的国外知识流研究结构探讨[J].情报理论与实践,2016,39(8):96-102.
[13]徐路路,王效岳,白如江.基于PLDA模型与多数据源融合相关性分析的新兴主题探测研究——以石墨烯领域为例[J].情报理论与实践,2018,41(4):63-69.
[14]张烈平,周德俭,牛秦洲.基于BP神经网络的预测建模系统的研究与实现[J].计算机仿真,2004,21(9):48-50.
[15]侯亚丽,李铁.基于LM优化算法的BP神经网络目标识别方法[J].探测与控制学报,2008,30(1):53-57.
[16]夏玫,陈立潮,王新波.一种提高BP神经网络泛化能力的改进算法[J].计算机技术与发展,2009,19(9):62-64.
[17]孙文俊,杜娟.基于词同现网络与支持向量机的论文甄别[J].现代情报,2010,30(7):87-92.
[18]饶浩,文海宁,林育曼,等.改进的支持向量机在微博热点话题预测中的应用[J].现代情报,2017,37(3):46-51.
[19]罗知林,陈挺,蔡皖东.一个基于随机森林的微博转发预测算法[J].计算机科学,2014,41(4):62-64.
[20]李杰.改进粒子群算法优化支持向量机的工程造价预测[J].计算机系统应用,2016,25(6):202-206.
[21]张宇航,邱才明,贺兴,等.一种基于LSTM神经网络的短期用电负荷预测方法[J].电力信息与通信技术,2017,(9):19-25.
[22]刘一杰,薛永常.植物抗虫基因工程的研究进展[J].浙江农业科学,2016,57(6):873-878.
[23]申梦雅,张永清,王德国,等.基因工程在食品工业中的应用[J].广东化工,2016,43(10):99-100.
[24]田立平,赵亚飞.基因工程技术对药物发展的影响分析[J].临床医药文献电子杂志,2018,(16).
[25]王得华,马义,韩磊,等.新型基因重组PACAP衍生物MPL-2的制备及其抗2型糖尿病作用研究[J].中国生物工程杂志,2017,37(5):59-65.
(责任编辑:陈媛)