基于聚类分析的河南省高校科技创新能力比较研究
2023-10-17梁慧敏罗志敏
梁慧敏 罗志敏
(郑州大学教育学院,河南 郑州 450001)
0 引言
党的二十大报告提出,高质量发展是全面建设社会主义现代化国家的首要任务。高质量发展离不开科技创新能力的提升,在我国创新体系建设中,高等院校一直走在前列。科技创新能力是衡量高校综合能力的重要准则之一,在我国经济发展和科技发展进程中,高校一直扮演着重要的角色,是科技创新能力建设的桥头堡。通过理论创新研究、实践创新落地等手段,高校积累了大量的创新人才,并建立了自己的创新体系,创造了多个创新应用重大成果[1]。在2021 年度国家科学技术进步奖三大奖通用项目中,高校的创新成果占全国总项数的82.6%,产出哲学社会科学研究成果占全国的80%,在凝聚态物理、超级计算机、量子通信等领域都取得众多标志性成果。137所“双一流”建设高校承担了63%的国家自然科学基金重点项目、69%的国家自然科学基金重大研究计划、73%的国家社会科学基金重大项目[2],可以说高校已经成为我国各领域科技创新的制高点。
尽管高校的科技创新能力已经得到了社会的认可,但不可否认的是,在创新体制实施的过程中,依然面临很多实际问题[3],其中,最主要的是对基础研究的重要性认识不足,学科布局的综合性和交叉性不够,很多创新的基金项目或者资金扶持流向了成果导向比较强的工程、计算机等工科领域,数学、哲学、文学、医学等基础学科创新支撑相对较少。近5 年来,基础学科的创新资金投入量仅有5%,与发达国家相比差距较大[4]。
在近年的研究中,已经有不少学者针对高校科技创新能力的评价体系进行研究,且量化研究居多,量化研究以数据分析为基础,以事实结果为导向,在众多量化分析方法中,聚类分析应用最为成熟,但过往的聚类分析仅考虑高校学科的产出数据,工程类和技术类等产出较高的学科依然会获得更好的评级。为进一步提高科技创新能力评价指标的准确性,本研究引入一种基于贝叶斯约束的聚类方法,用以合理设计科技创新能力评价指标[5]。
本研究以河南省为研究案例进行计算分析。河南是我国的教育大省,截至2022 年底,河南省地方高校共计156 所(不含成人教育高校),其中本科院校52 所(其中,民办本科院校17 所),专科院校77 所(其中,民办院校20 所)。近年来,河南地区通过分类引导高校找准发展定位和服务面向,优化调整学科专业结构,初步实现了科技创新能力和科研投入的正向投入。在2021 年度的河南省科学进步相关的奖项中,高校的创新内容达到75.5%,高校的创新成果很好地支撑了河南省地方发展。2021 年,河南省人民政府办公厅出台的《关于提升高校科技科技创新能力的实施意见》提出到2025 年,全省高校区域、层次、类型布局趋于合理。为了实现该目标,均衡多学科创新投入、设置合理的科技创新能力评价指标具有重要价值和意义,但河南高校现有的科技创新能力评价体系比较粗放,创新投入仅将“产学研”收入和学校学科排名作为评价指标,工科和历史排名较好的学科创新扶持远大于基础学科和近年来发展迅速的学科,创新投入极不平衡。因此,需要构建一个合理且能动态衡量高校科技创新能力的评价体系,实现创新扶持的均衡化发展。
1 河南高校发展概况分析
1.1 高校总览
河南地方的高等院校主要包含四种类型,分别是(1)“双一流”高校(郑州大学、河南大学),(2)省属重点建设高校(河南科技大学、河南农业大学等),(3)河南省属一般高等本科学校(郑州轻工业大学、河南工程学院等),(4)地方高等专科学校(开封学院、河南职业技术学院等)。其中,“双一流”高校和河南省省属的本科学校的学科建设较全面,学科创新成果较多。从全国范围来看,郑州大学等重点大学的软科排名也在前列。由于部分学校缺乏数据且调研困难,因此本研究根据以上(1)-(4)个高校分类类型选取60 个高校进行研究,提取其中的60 个数据,所调研学校的科技创新成果占河南省全部高校创新成果的95%(根据2022 年教育部高校科技统计数据)。
1.2 河南高校科技创新平台与学科布局分析
河南省教育厅高校管理处2021 年的调查数据[6]表明,河南高校拥有20 个国家级科技创新平台,基本上在郑州大学和省属重点学校。在“十二五”科技发展规划中,教育部对我国的高校类型进行了详细分类。本研究在分析过程中,引入了“工学”“理学”“农学”“医学”“文学”“财经”6 大重点分类,对不同学科的创新发展分级进行研究。
根据2022 年河南省教育局统计数据,全省目前拥有创新发展平台多于1 120 个,省属重点实验室90 个,部级工科类工程实验室302 个,技术研究中心782个[7]。本研究的调研数据涵盖以上全部创新平台、中心的92%,同时还包括协同研发中心、国家重点实验室、财经和医学类实践实验平台、产学研成果调研中心及这些高校所署名的期刊等表征科技创新能力的内容。
1.3 河南高校科技创新的问题分析
尽管河南省具有众多高校及创新研发平台,但全省高校整体科技创新能力依然存在一些问题,总结如下。
1.3.1 应用技术研究能力薄弱。在河南省全部的省级重点实验室中,应用中心、产学研转化及工程技术成果中心的比重为9.3%,该值的全国平均水平为18.4%[7],说明河南省高校在基础研究向实用化研究转化方面的能力比较薄弱。
1.3.2 创新投入分配不均衡。省内“双一流”高校(郑州大学、河南大学)与省属重点建设高校(河南科技大学、河南农业大学等)的省级创新平台,分别占相关学科的71%和78%,成果转化率分别为44.5%和51.5%[7],创新成果转化和平台建设之间存在一定的不相关性,意味着河南地区其他高校在创新成果方面也做出了突出贡献,但整体上的扶持力度需要提高,创新投入分配存在不均衡问题。
1.3.3 缺乏分级管理机制。目前,河南省高校的创新扶持力度、资金支持力度使用的是高校软科排名机制,该机制从教师水平、发文数量、软科全国排名等角度来决定创新水平,忽略了基于创新成果的评估,不能对当下高校的科技创新能力进行合理的评价。
2 研究方案设计
为了能够对高校科技创新能力进行合理分级,本研究引入基于贝叶斯约束的均值聚类方法来进行科技创新能力分级,选择贝叶斯均值优化方法的原因在于贝叶斯约束方法可以给出数据的先验信息,消除高校属性带来的计算不准确问题。
2.1 贝叶斯-K均值聚类算法
聚类算法方面,本研究引入K-means(K均值聚类)算法[8],该算法在高校科技创新能力分级方面应用广泛,在非监督的分类中具有较好的效果。算法将各个聚类子集内的所有数据样本的均值作为该聚类的代表点,通过迭代过程将数据集划分为不同的类别,使得评价聚类性能的准则函数达到最优,从而使生成的每个聚类内紧凑,类间独立。在传统计算流程中,算法会随机给出K 个聚类中心,通过不断地对聚类中心和数据之间的距离进行计算并得到最优的分组。但在以往利用K 均值聚类来进行创新评价的研究中,没有考虑到学校自身的属性数据,仅利用学科产出来进行分类,导致科技创新能力分级和评价结果依然导向工科类和应用类学科,文史哲及基础学科评分较低。因此,本研究引入一种基于贝叶斯先验分布的改进K-均值算法,将学校的基础信息作为先验知识融合到计算数据中,消除了学校由于排名、学科应用导向所造成的分级不平衡现象[5]。
2.2 计算流程
基于贝叶斯分布的K-均值聚类算法计算构成如下。
2.2.1 基于贝叶斯因子构建约束的数据预处理。学校的排名、学科类型等先验知识对聚类计算具有较大的影响,为了消除传统理念带来学校评级不准确的结果,将学校的排名、学科类型进行先验处理,处理后的数据作为聚类算法中的一个输入参数来进行计算,并将学校按照优势学科进行初始分组,替代随机分组的方式。
2.2.2 选择评价聚类性能的准则函数。基于分组进行误差计算和迭代,聚类算法使用误差平方和准则函数来评价聚类性能。
2.2.3 相似度的计算根据一个簇中对象的平均值来进行。①搜集全部河南地区高校创新相关数据,完成数据整合,并将数据随机分配到k个非空的簇中。②计算每个簇的平均值,并用该平均值代表相应的簇之间的差异结果。③根据每个对象与各个簇中心的距离,所用的标准为欧几里得距离标准,分配给最近的簇。④然后进一步转到②,重新计算每个簇的平均值。这个过程不断重复直到满足某个准则函数停止计算,完成计算任务。
重复分组和确定中心的步骤,直至算法收敛,评价函数达到最小值,所得到的分级即最终结果。
本研究的计算过程如图1所示。从图1中可以看出,首先实现数据的获取,对获取的数据进行预处理,使用预处理模块对数据进行归一化、数据编码,然后利用贝叶斯构造分类准则先验,将先验结果作为均值聚类的基础,构造对应的先验函数,最后利用K 均值聚类的方法进行迭代,来具体分离得到指标结果。
图1 计算过程
3 数据获取
3.1 数据采集
前文对河南省高校科技创新能力进行了描述性分析,为进行定量研究,选择58 所河南地区不同级别,涵盖工、农、医、理、哲、文的高校来进行数据计算,初始聚类的维度对应为6个。
目前,我国不同省份、不同地区对高校科技创新能力评价指标并不统一,评价维度比较分散,本研究沿用了前人[3,9-10]的评价内容作为均值聚类的输入内容进行评价,包括高校发文数量、国内国际会议参会数据,WOS 期刊数据、研究内容被引数据、WAJCI 期刊发文数据、产-学-研落地项目数据,数据来源于“中国高校科研成果统计分析数据库”。由于不同学校所担负的职责和使命不同,不能用同一个聚类分类来衡量,比如将产学研转化能力较强的工学院校和师范类学校用一个指标是有失公平的。因此,先利用贝叶斯给不同的学校赋予不同的属性,利用独热编码方法[11]对所有的院校进行分级,分级标准按照学校优势学科的教育部分类来衡量,例如商丘学院以人文学科为主,在本研究的计算中赋予文史哲类型,以消除高校属性在分类中的影响。从不同学校的分级情况来看,工科类高校占比较大,有21 所高校,这也符合我国高校目前的状况,即工科类高校占比较多,文史哲类由于就业或者是实用方面,导致高校数量少。
3.2 数据描述
对从“中国高校科研成果统计分析数据库”中搜集的河南省地区高校科技创新能力数据进行分析,并且完成基于贝叶斯K 均值聚类方法的分类处理,基于不同的指标选择,给出部分数据的描述。
不同类别院校在2017—2021 年每个月平均的发文数量对比情况如图2所示。
图2 不同高校平均发文数量
由图2 可以看出,医学类院校平均发文量排名第一,工科院校的平均发文数量小于医学类院校,文史哲类院校排名第二,与人们惯有的工科院校科研能力强的固有观念相悖,工学类型的院校在产学研的转化方面具有更强的能力。用高校的科研转化销售额来衡量产学研能力,产学研收入平均值如图3 所示。由图3 可知,工学院校的产学研能力最强,给社会创造的转化率最高,也得到更多的创新资金支持,但是从结果来看,医学类和理学类的学校也同样能够得到可观数额的产学研收入,但创新支撑的资金相对少一些,再一次印证了本研究利用聚类算法进行高校指标分级是十分必要的。
图3 产学研收入平均值
4 结果分析和对比
4.1 计算过程
本研究利用python 语言来进行数据分析和计算,综合本研究的贝叶斯先验约束和聚类分析,计算过程如下:
Step1:根据高校分类,给出初始K=6。
Step2:对高校进行独热编码,将编码赋给贝叶斯约束,构建先验条件。
Step3:聚类迭代,给出不同的K值,但独热编码约束不变,在每次聚类迭代计算之前,先使用贝叶斯计算先验值。与传统聚类分析相比,本研究的聚类分析应用高校特性的先验知识,利用先验贝叶斯函数来抵消高校性质带来的计算误差,能更加公平地对高校属性进行分级。
Step4:得到最终的聚类结果,为了对比最终聚类结果的效果,将聚类的个数进行固定,并进行拓展计算。
4.2 结果分析
在结果分析方面,用前文理论模型中聚类中心的距离来衡量聚类效果。当聚类中心平均距离最大时,则得到最佳分离效果。不同分离聚类中心下的分类情况见表1。
表1 不同聚类中心的欧式距离
由图4可以看出,当将系统聚类分成5类时,高校的结果分离是最为清晰的,因此,可将高校分为5类来进行科技创新能力评级。
图4 5个聚类中心
聚类算法得到的高校分级结果见表2,可以看出不同高校的分级状态,不同高校有不同的对应结果。根据2018 年中国管理科学研究院发布的《中国大学评价》创新分级理念,其中共包含5 等11 个分级,信息如下:
表2 分级结果名单
A 等:前10%为A 等;其中前2%是A++级,介于2%~5%之间的是A+级,5%~10%为A级。
B 等:介于10%~30%之间为B 等,占20%;其中10%~20%为B+级,20%~30%为B级。
C 等:介于30%~50%之间为C 等,占20%;其中30%~40%为C+级,40%~50%为C级。
D 等:介于50%~70%之间为D 等,占20%;其中50%~60%为D+级,60%~70%为D级。
E 等:最后的30%为E 等;其中70%~85%为E+级,85%~100%为E级。
将本研究的聚类结果和该分级保持一致,给出具体的分级名单。
从以上结果可以看出,在不同的科技创新能力分级中,每个分级都包含不同的院校类型,总体上在全国排名比较靠前的高校科技创新能力整体要强一些,高校科技创新能力和高校全国排名的相关性为0.855[12]。但从表2中也可以看出,单纯地根据学科及高校排名来确定经费支持是片面的,其中,农业大学、中医药大学、师范大学和财经大学不属于工科类院校,学校的优势学科集中在基础研究方面,但从评价结果来看,几个院校都具有较强的科技创新能力,需要进一步加大产学研的转化和科研扶持力度。
5 结论与建议
基于前文计算结果,对于科技创新能力较强的高校,需要加强产学研转化能力,对于科技创新能力相对较弱的高校,则需要对科技创新能力进行提升。同时,基础学科的创新同样需要引起重视,针对分级结果,具体采取措施如下。
5.1 进一步加强各学科产学研平台建设
从分级结果分布来看,重视基础研究的高校也具有较强的科技创新能力。目前,河南省省部级科研平台分布相对合理,所建立的平台基本涵盖了所有学科,但在注重技术开发与转移的高校的创新评级不够,高校科技研究成果在技术开发与转移方面重视不够,不能很好地将科技转化成生产力,导致基础学科更多地停留在研究阶段,以申报项目及技术储备为主,并未完全将所研究的成果转化为推进经济和社会发展的有效力量。因此,在产学研结合方面还存在明显不足,河南地方高校科技创新体系对经济转型、产业升级和社会发展的技术支撑能力不足,创新资源和科技成果向企业流动、向产业集聚缺乏内在动力。需要根据不同的学科构建产学研的输出平台,支持具有高水平科技创新能力的高校进一步推进科技成果转化。例如教育主管部门可以牵头中医药大学将研究成果向制药类企业转化,建立联合的研究实验室,将转化率作为衡量中医药企业创新评价结果的年终目标,增强评价创新投入的可靠性,或者建立财经类院校的企业共享财务平台,将财经类企业的优秀财务分析经验、管理经验应用于企业的财务实践等。
5.2 平衡学科布局
河南地区高校的特点是工科、农学实力较强,在生物医药方面优势明显,能够与地方经济和生态环境紧密结合。但新能源、工程技术、食品安全、装备制造等学科及理学等基础学科还需进一步加强,特别是高端装备制造方面还存在较大差距。同时,师范类型高校的科研科技创新能力极其薄弱,学科布局出现不平衡,这与师范类学校的自身属性有关,师范类学校更注重人才建设,往往忽略创新在教学人才梯度建设中的作用。因此,河南教育主管部门需要全方位地根据市场动态来扶持新建学科的发展,研究包含新能源、人工智能、大数据等符合社会发展和实际需求的学科。同时,平衡包含教育学、哲学等基础类型学科的总体布局,提高文史哲等学科科技创新成果转化的能力。
从政策上对部分高校进行科技创新政策支持,这对于平衡高校学科布局具有重要意义。此外,河南教育主管部门需要建立统筹且平衡的创新扶持机制,将对应的资金、资源向非优势学科但有着较强科技创新能力的高校进行倾斜,保证河南地区高校的均衡发展。
5.3 建立高校分级管理机制
当前,河南高校教育管理部门还没有建立针对不同高校的分级管理机制,以比较传统的方式对高校进行管理和支持,但是不同高校的属性、研究内容及产业化转化能力存在差异,且每年都在发生变动。因此,传统的粗放式管理已不适应发展要求,由上文分析可知,为进一步提高高校的科技创新能力,不同的学校需要给予不同的扶持手段和方法,科技创新和学科建设原本就是相辅相成的。高校在明确发展定位、确定本校科技创新目标的同时,不能忘记自身的教育功能,必须把科技创新、大学教育及学科建设结合起来,将创新结果、学生实践、学科发展紧密结合,推动三者和谐发展、渗透融合。地方高校应科学运用管理科研的行政权力,营造宽松的科研氛围,通过学科建设和创新团队建设的方式调动科研人员的积极性和主动性,体现政策上的导向作用。
本研究分析的分级结果和创新支持力度相关性为0.855,还有上升空间。因此,必须通过构建产学研密切融合的运行机制,本着“开放、合作、创新、共享”原则,积极推进科技创新平台的科学规划与资源整合,更好地满足河南省地方经济社会发展需求。针对不同分级情况,建立不同分级运行机制,对于分级排名靠前的学校和学科,积极采用研究内容转化的方式来进行扶持;对于科技创新能力排名靠后的学校,通过加大资金和人才扶持力度来提高创新水平。同时,建立以“年”为时间范围的评价机制,在年底进行投入和产出的评价对比。设立不同级别学校的评价标准,例如科技创新能力靠前的学校可以利用产学研成果来衡量,科技创新能力较弱的学校利用发文情况来衡量等。针对不同类型的学校,采用不同的扶持政策和衡量标准,保证所有学科、所有学校都能均衡发展。
本研究以河南省高校为研究案例,应用改进的贝叶斯K 均值方法对高校进行分类,进一步提高K均值聚类算法在评价分析中的准确性。基于分类结果对河南省全部高校的科技创新能力进行评价体系建设研究,提供一种健全的高校科技创新能力的评价体系。该评价体系涉及包括工学、理学、医学、哲学等多个学科的信息,对河南省高校的科研能力进行综合评估,给出了5 个分类结果。基于分类结果,提出通过产学研平台建设、学科布局平衡、建立合理运行机制三个方面来提高河南地区高校科技创新能力的建议。