基于专利论文大数据和产业词库的高校排名研究
——以双一流高校为例
2023-01-11樊宇航吴晓昱徐鹏景
樊宇航,吴晓昱,朱 悦,陈 苗,徐鹏景
(1.上海科技发展有限公司,上海 200062;2.上海科技创新资源数据中心数据智能研究院,上海 200062;3.聪明制药(上海)有限公司,上海 201106)
0 引言
目前,高等院校的排名评价多是基于学科体系的综合性指标,较为知名的四个权威世界大学排名(QS世界大学排行榜、泰晤士世界大学排行榜、U.S.News世界大学排行榜以及ARWU世界大学)[1],都是通过设立可量化的硬性指标和主观评分的软性指标来进行排名,但是都不能够直观地将高等院校的研发能力及成果纳入到产业体系中进行细分及排名。基于产业维度的高等院校排名能够更直接对接现实产业体系,不仅能够依靠多层次的产业体系将高等院校进行细分产业的划分和排名,还能进一步推进高等院校研究成果在产学研体系中的产业化进程,同时为促进国内科技成果转化提供决策依据。
根据《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》[2](下文简称“十四五”规划)指导意见,国内需要建立以市场为导向的产学研用深度融合的技术创新体系。高等院校作为技术供给方,其功能需从人才培育、科学研究延伸到社会服务,尤其是在知识经济社会中,高等院校将被推向社会发展的中心,成为社会经济发展的重要动力;企业作为技术需求方,寻找适配自己业务方向的技术,进行相关产品的研发,投入到市场中来实现有效的技术转化;政府则需要在了解双方需求的前提下,通过制定政策,创立交易市场,加速整个工作过程。所以如何有针对性地统计和了解高等院校的技术研究领域方向,合理布局与之相对接的产业体系,对于强化高等院校在产学研体系中的位置有重要意义。
在产学研体系中,高校是其中研究的重要一环。沈佳坤等[3]认为“双一流”高校是产学研融通创新的重要创新主体,通过知识链、创新链同产业链对接分析推动产学研融通创新的作用机制。伍娜等[4]以湖北省高校为例,通过构建产业合作创新耦合评价体系,提出应建立产学研战略联盟,引导创新要素加速向优势产业集聚。景晓辉等[5]则从高校科技成果评价与转化的角度,认为高校对于科技成果的产业化应用重视不够,同时未建立有效的企业的产业需求与高校科研团队及科技成果的匹配机制。沈彬等[6]针对这一困境,提出利用新型研发机构,促进高校技术交流创新,这就需要明确高校研究的产业重点。
而在高校排名研究这一方面,国内以往也多以学科类综合型排名体系为主。例如,秦惠民等[7]基于多轮德尔菲法和层次分析法提出的4维度3层次大学全球影响评价体系;赵江涛等[8]基于ARWU、QS和THE三个世界大学排名对比国内外一流大学,认为国内在人才培养维度上进步较小。评价基础都是从文献角度出发,比如论文角度,蒋知义等[9]基于ESI数据从科研生产力、科研影响力、科研发展力、科研创新力构建工程学科研竞争力。王艳等[10]同样利用ESI数据,分析中部六省科研产出的差异,找出安徽省在科研竞争力和学科发展方面的优势与不足;比如专利角度,张慧卿等[11]选取京津地区部分高校,利用20年的专利数据,反映其技术创新活跃度和创新能力。张锐等[12]则对25所高校进行了专利竞争力的分析评估,以具体评判高校的科研能力。
在评价高校各要素方面,大数据技术让各个数据源之间都能建立联系,并且随着数据量的积累,规律的总结和发现也更加容易把握。尹天光[13]提出构建教学评价大数据综合体系,整合数据接口,及时反馈各类教学评价数据。对于高校就业质量的评价,魏玉曦[14]在建立评价体系后,引入大数据挖掘技术,适应高校就业质量变化特点,使评价结果更加可靠。刘在洲[15]研究得出大数据在高校科研评价中的应用,具有提高处理速度、实现可视化表达、促进科研评价方法和方法创新发展等强大功能和应用价值。
本文基于海量文献和专利数据以及产业体系词库,以中国42所双一流大学为例,进行不同层级产业体系的高等院校排名,从而有针对性地反映各高校的研究重点,了解同一产业领域各高校的发展水平,从而协助技术转移参与方确立合作目标和重点。
1 数据来源与收集
本文研究对象为国内一流高等院校,所以选择2017年9月教育部、财政部和国家发改委联合公布的世界一流大学名单,其中A类36所,B类6所,共计42所高校。
本文排名的基础数据主要分为三大部分:国家知识产权局的专利数据,爱思唯尔的SCI文献数据,以及自主构建的产业词库。前两个数据来源均为ElasticSearch数据库,提供按关键字查询的全文搜索功能。产业词库是利用我们团队之前的NLP相关算法和词库构建流程[16],以《战略性新兴产业重点产品和服务指导目录》(2016版)的8大产业体系为基础,填充相关产业词。表1为部分产业体系结构和中英文的示例产业词,ID号的不同长度代表产业体系的等级,长度为3是1级,为5是2级,为7是3级,为9是4级。
表1 部分产业体系结构和中英文的示例产业词
检索式的构建方式为专利或者文献的标题和摘要包含产业词库的目标词,同时专利申请人和文献发表单位包含目标高校名称,将文献时间范围确定为2016—2021年,形成作为高校排名的指标来源数据集。其中,由于涉及英文SCI文献,调用百度翻译api自动生成英文版本的产业词库;目标高校名称利用爱思唯尔的机构列表,为42所国内高校生成不同格式的英文名称和简写,以确保查全率;通过爬取SCI文献涉及期刊的最新影响因子和中科院分区的信息,作为细节指标的补充。
2 排名指标和评分策略
基于产业词库的高校排名主要综合两个维度:一是专利维度评分,二是SCI论文维度评分。选择这两个维度,是因为专利和论文是高校公开的最为主要和重要的研究成果,从数据的可获取性和客观性上是最优选择。评分策略是以专利/SCI论文的数量作为基础,辅以相关反映研究成果质量的比例系数进行调整,以达到质量和数量相结合的目的。
专利维度的评分策略如下,首先是式(1)的专利数量分数,利用数据归一化的方式,将专利数量分数控制在50~100分之间,这样较为符合评分习惯。接着式(2)和式(3)分别计算发明专利比例系数和有权专利比例系数,其中发明专利具有更高的技术价值和研究价值;有权专利是现在能够产生价值的专利,这两个系数都直接反映了专利的质量,最后式(4)将前三个量相乘,获得专利维度评分。
式中,50为最低分和高低分之差。
同理,SCI论文数量的评分策略如下,首先是式(5)的经过归一化的SCI数量分数,接着式(6)~式(8)分别计算中科院1、2区论文数比例系数、刊均影响因子系数和篇均被引频次系数,其中式(6)的系数代表了高校优质论文的占比,式(7)~式(8)则代表了论文的平均水平,这三者都反映了论文的质量,最后式(9)将这前四个指标相乘,获得SCI论文维度评分。
式中,50为最低分和高低分之差。
最后式(10)将专利维度评分和SCI论文维度评分按7:3的比例进行融合,因为是基于产业体系的高校排名,专利所包含的信息以及其相较于论文与产业有更强关联性,所以专利维度评分的比例更高。
3 排名流程构建
双一流高校排名通过词-产业体系对应表,形成词—文献资源—产业领域的链条,通过上述的评分策略生成各产业领域的高校排行榜。该高校排名流程方法将传统宽泛的高校排名,转变为细分产业领域的排名,由资源下载、文本分词、数据处理和结果呈现4个模块组成,图1为高校排名的具体实施流程,每个模块的具体功能如下。
图1 高校排名的实施流程
资源下载模块:该模块依据检索策略和评分排名所需的字段信息,通过Python程序,批量构建ES检索式,完成文献检索和结果数据保存,形成目标资源数据集。
文本分词模块:该模块以产业词库为分词词典,利用jieba库,对标题+摘要+关键词的文本内容进行分词。同时根据高校地址信息,形成各目标高校的文本分词结果。
数据处理模块:该模块利用产业词库的词-体系对应关系,通过调节参数n和m来确定重合词和产业领域数量,其中,n代表选取词频Top-n的词来表示文献内容,m代表选取Top-m的产业领域来表示高校涉及的研究重点。该预处理流程旨在降低数据特征维度。
结果呈现模块:该模块针对不同层次的产业体系,计算得出与之相关的产业词词频、专利数量和SCI论文数量等基本数值,以及发明专利比例等细化指标,最后根据各指标融合计算规则,计算出最终评分,形成高校排行榜。
产业词库的应用在四个模块中都有所涉及。后期可以通过调整词库,复用整个实施流程,实现针对不同领域体系的高校细分排名,此外,可调参数的设置使得整个排名流程更加灵活。
4 排名结果分析
将1级的8个产业体系排名取平均数来反映高校的平均水平,表2反映了排名前列的高校情况,其中清华大学平均排名最高,在6个产业中排名第1,在所有8个产业中也都排名前3,优势非常明显;排名第2的浙江大学,在各个产业领域的表现非常平衡,都能进前10。此外,由于是产业相关领域,工科强势的高校,如哈尔滨工业大学、上海交通大学等,平均排名都比较靠前;其他的高校则有重点的优势产业领域,如电子科技大学在新一代信息技术产业、天津大学在新能源汽车产业等。
表2 平均排名前列的高校情况
为进一步说明本文构建的高校排名的科学性,本文与软科学科排名进行对比,选择较为相似的材料科学与工程和新材料产业,前10排名结果如表3,总共有7所高校同时进入两个排名前10,说明本文1级的高校排名与较为权威的高校排名差异不大。
表3 本文高校排名和软科排名的对比
然而正如之前提到,现阶段的高校排名无法满足更加细化的排名,但基于本文的产业词库可以实现上述目标。以新材料产业为例,3级体系中有稀土功能材料和高性能纤维及复合材料,表4展示了3级产业体系的高校排名,在稀土领域,排名靠前的中国科学技术大学和北京大学都有稀土相关的学院或重点实验室;上海交通大学在“稀土之都”内蒙古包头成立了稀土研究院;在新材料领域排名不高的厦门大学,在细分的稀土领域可以排在第四,可能的原因是其和中国六大稀土集团之一的厦门钨业联合建立了研究所。在高性能纤维及复合材料领域,排名第4的山东大学参与建设了山东省高性能纤维及其复合材料协同创新中心,所以细分产业领域的排名具有一定的合理性。
表4 3级产业体系的高校排名
5 结束语
本文所构建的基于海量文献数据和产业词库的高校排名方法,不仅能够以更简洁、更流程化的方式形成高质量排名高校,还能将高校研发实力定位到细分产业领域,为资源有效配置和推进技术成果产业化进程提供有力依据。■