关于设计热点学科预测模型的设想
2015-10-21孙铮
孙铮
目前,科技界对热点学科的预测通常有2种方式,一种是通过某一个学科的权威科学家根据其自身对本领域的发展以及现状作出的个人预测;另一种是科研工作者根据一个学科中的某一个关键词被引频次的多寡而作出的臆测。有些对未来的预测相对准确,但也有一部分以往的预测与现今的热点相左。总之,没有一个综合各种因素并基于统计学数据的预测方法。如何充分利用论文作者的公开数据并通过设计一个科学合理的预测模型来寻找哪些学科有可能成为未来的热点学科,已经成为科技界关注的问题之一。
一、目前可利用的论文作者公开数据
科研论文在发表时,可利用的公开数据有第一作者的职称、第一作者的单位、发表刊物的名称和发表时间。
论文发表时间可以说明,论文作者是跟随热点学科进行研究,还是针对某一学科进行引导性的研究,是评判该作者的理论是否具有前瞻性的重要依据。
论文作者的职称在一定程度上显示了该作者在其本学科内是否具有科研水平和成果,是否获得了其所在学科内的其他专家的认同。以职称“高级工程师”为例,能否成为“高工”首先要在其学科领域内有一定的科研成果并获得职称评定委员会的认可,而职称评定委员会一般都是由该学科内的专家组成。
作者单位的科研水平又是由该单位所有科研人员的科研成果作为支撑,并由另一个权威评定机构的专家组进行评定的。
论文发表的刊物一般都有该刊物的影响因子,影响因子是通过统计某期刊当年的被引用总次数除以该期刊在前2年内发表的论文总数得出的评价指标,代表科研工作者对该刊物的认可度。
上述数据指标综合起来建模预测热点学科,比单纯个人预测所依据的数据基础更加具有权威性。
二、学科发展的不同阶段与统计模型的设计
一个学科的成长可以分为如下几个阶段,起始阶段、初始关注阶段、广泛关注阶段、大面积爆发阶段,爆发阶段之后就是热点学科了。
学科冷热程度可以通过搜索论文关键词的多寡体现,可以理解为热点关键词就是热点学科。
一些研究生往往是通过寻找近年的热点关键词来确定自己的研究方向来撰写论文,以期望毕业时的论文更容易发表,这种情况使得某些热点学科会连续热上几年甚至十几年。而每个热点学科的成长历程在时间跨度上是不一致的,基础学科的热点往往会经历一个漫长的成长期甚至“冬眠”数十年之后才通过应用手段的变化而成为热点,比如数学在计算机大面积普及之后,有些十九世纪的研究成果才得以应用。而应用学科的热点会有一个很短的成长期和一个很短的衰退期。所以不能按照年度来划分关键词的统计阶段,应该按照第一次发现该关键词为起始点,该关键词首次成为年度前十热点关键词为结束点。以起始点和结束点之间的中点为基点,来分布各个阶段之间统计数据。
在设计预测模型时,首先要尽量避免人为的干扰,尽量以一个关键词本学科的权威数据为依据,以统计各篇论文中的关键词为基础,并用文章第一作者的单位科研水平排名、第一作者科研水平、刊载刊物影响因子、当年被引频次、引用者的单位科研水平排名等数据为权重,计算一个可以编程的函数,然后通过服务器的运算来寻找具有相同成長历程的普通关键词,来预测哪些关键词有可能成为下一年度或者下一阶段的热点学科。
三、预测模型的具体运算方法
各项数据的统计权重是,论文第一作者的单位科研水平排名 25%
第一作者科研水平 15%
刊载刊物影响因子 25%
当年被引频次 15%
引用者的单位科研水平排名 10%
引用者论文刊载刊物影响因子 10%
假设2014年排名第1的关键词A,第1次发表在“北京大学学报 2004-6”上,第1作者是B教授,B教授的工作单位是北京大学生命科学学院,当年无人引用。那么A的起始得分就应该是“[(北京大学生命科学学院的排名或者北京大学的排名*25%)+(教授*15%)+(北京大学学报的影响因子*25%)+(当年被引0次*15%)+(引用者的单位科研水平排名*10%)+(引用者文章刊载刊物*10%)]*0.1=该关键词2004年的得分”(最后乘以0.1是预防数字过大而造成服务器运算困难而加入的保险系数,无被引则计算为0)。假设数值是3.8。
A在2005年第一次被别人引用,发表在“科技导报 2005-1”上,第1作者是C教授。C教授的工作单位中国农业大学生命科学学院,当年又被中国农业科学院的D教授引用并发表在“作物学报 2005-11”上。则A的初始关注阶段的得分应该是“{(北京大学生命科学学院的排名或者北京大学的排名*25%)+[(教授+教授)*15%]+[(科技导报影响因子+作物学报影响因子)*25%]+(当年被引2次*15%)+[(中国农业大学生命科学学院的排名或者中国农业大学的排名+中国农科院的排名)*25%]}*0.1=该关键词2005年的得分”假设数值是5.3。
这样从起始点到关注段的2个数值就出来了,这样在坐标上就有了(-50x,3.8y)和(-40x,5.3y)两个数值。后面的广泛关注阶段、大面积爆发阶段的同样计算出每阶段的得分。
四、如何寻找学科热点关键词
每个热点关键词的情况都不会一样,从作者到刊物的水平也都不会相似,所以每个关键词的起始点和第1次被引的数值都不会一样,那么如何比对2个关键词或者说如何比对一个普通关键词和热点关键词之间关系呢?
不同学科的关键词之间确实没有关联,但是科研人员水平和如何关注本学科发展是成正比的,还有如何看待本学科发展的眼光也都是相似的。如果一个普通学科能过成为热点,那他们的成长历程应该也是相似的。所以可以通过比对普通关键词和热点关键词的成长历程来判断,它是否有可能成为热点。假设一个普通关键词为G,我们可以把刚才得出的A((-50x,3.8y),(-40x,5.3y))通过函数运算得出其余弦角度和在坐标中的长度,再运算G的两点间的余弦角度和在坐标中的长度,角度和长度越接近则说明G在起始点与初始关注阶段的发展历程与A越类似。通过统计N个热点关键词的函数找到一个热点关键词发展的函数区间,G能否成为热点也就可以通过比对G是否被这个区间所包含来预测。
通过统计每个学科的热点关键词来寻找各个学科内热点成长历程特点,来完善预测模型。当数据累积到一定程度之后就可以大致勾勒出一个学科的热点成长模式。
对学科关键词的预测,可以让学术期刊依据统计模型得出的评分,在刊登论文时尽量发表那些在统计模型中得分高的论文,这对提高影响因子有很大的帮助。同时,对在校研究生准确选择科研方向也是一个辅助,对科研机构的项目立项也可以作为参考工具。