基于专利文本的产学合作预测研究
2022-10-08刘敏榕
吕 源 刘敏榕
(福州大学图书馆,福建 福州 350100)
科学技术是推动社会进步的主导力量,科技创新既是赢得未来发展主动权的必然选择,也是应对国际竞争新格局的内在要求。党的十八大以来,党中央对科技创新和成果转化给予了高度重视,党的十九届六中全会通过的《中共中央关于党的百年奋斗重大成就和历史经验的决议》强调,要“把科技自立自强作为国家发展的战略支撑,健全新型举国体制,强化国家战略科技力量,加强基础研究,推进关键核心技术攻关和自主创新”“加快建设创新型国家和世界科技强国”[1]。2016年5月,中共中央、国务院发布《国家创新驱动发展战略纲要》提出,创新驱动发展是我国面向未来的一项重大战略[2]。2017年9月,国务院办公厅印发《关于推广支持创新相关改革举措的通知》,在深化科技体制改革、提升自主创新能力、优化创新创业环境等方面进行了探索[3]。2021年3月,《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》提出,以国家战略性需求为导向推进创新体系优化组合,加快构建以国家实验室为引领的战略科技力量[4]。
当前环境下,产学合作是我国科技体制改革的核心内容。从宏观角度上来讲,产学合作模式深化了国家科技驱动发展战略地位,推进了供给侧结构改革以及培育了经济发展的新动能;而从微观角度上来讲,产学合作模式对于高校的意义在于规避了高校成果转化效率低、资金不足的问题,对于企业而言,产学合作则为企业研发提供了高素质的人才力量。然而,产学间的合作在现实层面往往存在突出困难。根据《2019年中国专利调查报告》数据显示,我国国内有效专利实施率为55.4%,高校和科研院所的有效专利实施率明显低于企业,分别为13.8%和38.0%,大量专利未能得到充分实施;而与此同时,我国企业普遍存在原始创新不足,关键技术受限等问题,在技术创新层面存在紧迫需求。显然,通过产学合作优化社会总体创新环境已成为提升国家科技强国战略的关键。然而,由于协同性不足[5]、激励机制缺位[6]、供需对接不畅[7]等原因,根据《中国科技成果转化2019年度报告(高等院校与科研院所篇)》,3 200家高校和科研院所中设立技术转移机构的单位仅有688家(21.5%),只有307家单位认为技术转移机构在成果转化中发挥重要作用[8]。
专利文本作为一种科技写作与法律写作的结合体,本身具有专业性、技术性与新颖性的特点,同时又包含了丰富的信息,如IPC分类号、关键词、引文关系等。对此,本文基于专利文本分析,设计产学合作推荐模型,并将现有的合作案例进行处理并用以验证模型的可行性,通过对专利文本语料信息的深层分析,发掘研究者与企业之间存在学术合作的可能,达到促成合作、提高科技成果转化率以及提升市场竞争力和生产力的目的。
1 相关研究回顾
作为科技创新体系的重要组成部分,高校和企业扮演着不同的角色。高校作为学术性研究机构,其研发活动的主要目的在于发现新知识、新规律,进而提升自身学术影响力。由于不受营利性要求约束,因此研发成果更加偏重学术性,对于现实生产力的转化能力要求不高;而企业由于盈利性质,其研发活动具有很强的实用性和商业性导向,整个研发过程都是为提高生产力而服务的。总而言之,高校在创新体系中的优势在于雄厚的研发力量、系统的研发模式以及丰富的研发资源;企业的优势在于高效的成果转化体系,稳定的资金支持以及对于市场信息的掌握。产学合作是科技政策与科技情报研究的热点课题,国内外对此开展了一系列研究。总体而言,相关研究可以分为3个方面展开:
1)产学合作体系建设。产学合作体系研究目前分为理论研究以及实例研究两种:在理论研究方面,国外学者Natália D L F等提出,“三螺旋模型”探究在产学合作体系建设过程中政府支持所起到的作用[9];国内相关的理论研究则包括对国家政策[10]、法律制度[11]以及高校内部科技转化服务体系构建[12]的相关研究;而实例研究则包括对国内现有产学合作体系的研究[13]和参考国外发达国家知识产权体系建设的研究[14],从实证的角度吸取相关经验,完善体系建设。
2)产学合作策略完善。当前我国的科技技术转移转化存在动力不足、效率低等问题,学术界针对此类问题从产学合作策略的改进与完善的角度进行回答。当前研究根据不同视角,可分为以下三类:一是国家政府主导产学合作及科技成果转化体系完善[15];二是以市场或企业等需求方为视角探讨校企合作方案[16];三是从高校视角出发探讨产学合作对学术创新绩效的影响[17]。
3)产学合作实证研究。此类研究主要包括国际经验借鉴和国内实践案例研究。国际经验借鉴是通过对美国[18]、日本[19]、英国[20]等知识产权强国所开展的促进科技成果转化的实践进行分析,为我国提供相关的经验;国内实践案例是通过对典型的成果转化案例进行分析,探究影响科技成果转化的因素[21-23]。
现有的关于产学合作的研究成果主要是分析产学合作所需的相关要素,构建较为完整的产学合作体系,从不同的角度阐述我国产学合作目前存在的问题和改善的策略,并充分借鉴国外产学合作较为成功的经验。但是目前关于产学合作相关研究存在两点不足:第一,当前的研究注重概念性和理论性的研究,缺乏方法论的相关研究;第二,当前的研究主要偏向于定性研究,研究成果缺乏可重复性,具有主观性。因此,本文拟通过基于专利文本分析的方法,探讨如何进一步有效提高产学合作概率和高校与企业相关信息的对接方法,最终帮助提高高校科技成果的转化率。
2 基于专利文本的产学合作推荐模型
正如上文所述,供需对接不畅是影响产学合作的重要因素之一。目前企业缺乏信息交流平台,难以与高校对接,找到合适的投资项目或可以快速投入生产的科技成果;对于大部分高校而言,专利信息服务尚处于起步阶段,难以找到合适的方法协助研发团队寻找合作伙伴,降低研发成本,避免科研资源浪费。而本文提出的基于专利文本的产学合作推荐模型,通过量化分析的手段,帮助企业寻找潜在的合作伙伴,也为高校的专利信息服务带来了新的参考方法,提高了科技成果转化的效率。
2.1 推荐模型构建
具体而言,本研究模型构建包含3个步骤:第一步,首先统计高校专利数据库和企业专利池中所拥有的专利,对这些专利进行结构化处理,如文本聚类分析,在Python中利用自编程序正则表达式提取待培育专利中的标题、摘要、分类号、申请年份等关键信息等;其次对所提取的信息进行筛选,选取技术相关的关键词,并生成相应的结构化数据;第二步,将结构化数据利用专利地图绘制的相关软件制成专利地图。然后根据专利地图,识别企业专利池中的技术空白点,将企业专利空白点与高校现有技术相联系,寻找校企之间存在的潜在合作区域,提取出专利地图中潜在合作区域的相关数据;第三步,根据专利地图中校企合作的潜在区域,反向确定具有合作可能的高校数据库中的专利信息。将校企双方的专利文本利用余弦相似度法进行运算,将运算结果由高到低进行排列,所得排名第一的专利即为存在最大合作潜能的高校专利。推荐模型构建如图1所示。
图1 基于专利文本的产学合作推荐模型
2.2 专利地图绘制
目前,专利地图在国际上还没有标准、统一的定义。国外学者认为,专利地图由各种与专利相关的资料信息,以统计分析方法加以整理制成的各种图表信息,使其具有类似地图的指向功能[24],其中日本的研究程度最深,应用范围也最广,日本于20世纪60年代就开始了专利地图的研究。而国内学者普遍认为专利地图是一种分析专利情报的方法,通过统计和加工的处理手段,使得原本复杂的专利情报,用各种可视化的图表显示出来,便于理解[25]。专利地图在专利信息分析中起到了承上启下的作用,承上是指专利地图是将检索到的专利信息归纳汇总,并以可视化的形式表现出来,以供后续定性分析和定量分析所用;而启下是指通过对专利地图的分析和研究,获得相关信息,如技术水平、发展动态等,依照该信息可以为企业制定相应的战略规划和专利布局。在本文中,专利地图的主要功能在于以下几点:首先是通过可视化识别出企业可以对现有技术进行改进的领域;其次是通过研究发现企业技术相对密集的领域所存在的空白技术点,最后是根据专利地图的空白点反向识别出周边可能存在的合作伙伴。
2.3 专利相似度计算
专利文本相似度计算是本研究的核心任务。当前,有关文本相似度计算的主流方法主要有基于统计、基于句法结构、基于编辑距离、基于语义信息4种。其中,余弦相似度法是基于语义信息的文本相似度计算方法之一,该方法由于摆脱了知识库的构建过程,直接通过文本内所包含的语料进行对比,因此具有较高的准确率和较低的计算成本,能够有效应用于大规模文本分析任务中。因此,本文选择余弦相似度计算专利文本的相似程度。
余弦相似度的原理是将准备进行比对的两份文本转化为空间内的两个特征向量,通过测量两个特征向量之间的夹角,计算出其余弦值,来判断两个特征向量的相似度。本研究将产学合作双方的相关专利转化为空间向量a和at,Ai和At分别表示双方专利在同一IPC分类号下的权重,可根据TF-IDF方法计算得到。根据上文所述,余弦相似度基本公式在本文中的衍生的公式为:
在文本分析的情况下,由于某个词的词频不可能为负数,所以在本文中,两个特征向量的余弦值取值范围为(0,1)。如果两个向量之间的夹角θ为0,则意味着两个向量完全重合,此时夹角的余弦值为1,即为两份文本的特征向量完全吻合,所以在本文中,余弦相似度的值越接近于1,则证明两份文本之间的相似度越高,产学合作双方存在合作的潜力就越大。
3 实证研究
3.1 样本选择与数据处理
通过网络调研,本文选取L公司作为分析案例,有以下几点原因:①L公司始建于1971年,是我国环境保护除尘行业的首家上市公司,是中国环保产业的领军企业,也是位居国际前列的大气环保装备制造企业,40余年来专业致力于大气污染控制领域环保产品的研发、设计、制造、安装、调试、运营,其规模大,涉及产业广,在一众企业中具有代表性;②根据网络调研可知,L公司与高校存在过合作的历史,可以用于验证合作预测模型的准确性,提高可信度;③L公司拥有公司专属的研发团队,是全国环保产业骨干龙头企业和我国最大的专业从事烟气除尘、脱硫脱硝装置等大气污染治理设备机电一体化的研发制造基地,具有与高校合作的研发潜力。
根据企查查提供的数据可知,L公司2018年、2019年、2020年以及2021年在研发上投入的研发资金分别为4.363亿、4.621亿、4.822亿和3.219亿,并主要运用于环境保护专用设备制造、大气污染治理的技术研发。但是据分析,自2018年后,虽然L公司在研发上的投入有所增加,但L公司的专利授权通过率明显下降。在技术研发方面,L公司现面临研发动力不足、投入成本高等问题。因此,对于高校的科研成果存在迫切需求,有强烈的合作动机。
本文中的专利数据来源于国家知识产权局专利检索及分析数据库,经筛选后,共获得1 199篇专利,将专利相关信息导出。然后,利用Python的自编程序正则表达式提取每一篇专利文献中的标题、摘要、分类号、公开年份、关键词字段,生成结构化数据。
在进行专利样本选择时,考虑到较早申请的专利技术L公司已经较为成熟地运用于投入生产与占领市场,因此合作潜力较小,所以筛选了近3年内L公司所申请的专利技术作为实验样本,共计174篇。部分处理后的信息如表1所示。
表1 部分已处理专利信息
3.2 企业专利技术空白点识别
根据处理好的数据绘制专利地图,如图3所示。由专利地图可以看出,L公司目前研究的核心方向共有3个,分别是脱硝、烟气处理系统等,吸收塔、废水脱硫等,以及热管、烟气转换器等。其他较为完善的研究方向多为核心研究方向的上下游产业链相关方向,如清灰装置、滤袋除尘、电源控制、检测装置、造粒塔、废气处理、脱附、液冷板等,这些专利共同构成了L公司完整的产业链。其核心技术部分存在合作的可能性较小,相关研究取得突破性进展的难度较大,因此,核心技术上下游产业链中研究较为薄弱的部分,即为合作潜力较大的技术空白点。
图2 L公司2013—2021年专利申请趋势
图3 L公司2019—2021年专利地图
对上述专利进行聚类分析,共得到8个聚类,如图4所示。根据该图可以看出,技术空白点主要集中于清灰装置、滤袋除尘等区域,检测装置、输送机、法兰管等区域,造粒塔、废气处理等区域以及电源柜、电炉、脱附等区域。
图4 专利聚类分析
3.3 合作预测与分析
提取识别出的空白点周围的专利关键词并按照关键词词频进行加权处理,得到如图5所示的专利关键词词云。从图中可以看出,L公司的空白点周边技术主要集中于除尘器及其相关技术。以图5中的主要关键词作为检索词,在高校专利库内进行检索,经过清洗掉失效专利数据后,共得到4 766条相关记录,共有38所高校与L企业产生技术关联。将上述4 766条记录同样进行结构化处理和聚类分析,并与L公司的相关技术主题进行匹配对应。
图5 专利关键词云图
以烟气净化与除尘装置两个主题为例,将高校专利库与企业技术空白点按照IPC分类号进行分类,如表2所示,反映了高校专利数据库中专利文献与这两个专利主题的匹配情况。按照上文所示余弦相似度公式,计算各个专利文本之间的相似度,可以为企业挖掘潜在合作伙伴,如图6所示,L企业在烟气净化领域的潜在合作伙伴有山东大学、浙江大学、清华大学等,合作可能分别是22.52%、23.81%、23.60%。
表2 高校匹配专利主题情况
图6 企业合作对象推荐图
图6展示了L企业在烟气净化领域的潜在合作伙伴。如上海交通大学,在本次调研的高校中合作潜力位列第二,并且根据文献调研的结果得知,L企业曾成功与上海交通大学达成合作,目前共有两项专利已获得授权,也正是烟气净化领域的相关专
利。除此之外,例如山东大学,共有3项专利聚类到烟气净化主题,专利组的IPC号为B01D53,其主要研究方向为气体处理的工艺、装置或方法;而L企业在此分类号下的专利共有10项,主要集中于烟气净化系统的研究。烟气处理工艺、装置或方法正是烟气处理系统中重要的一环,因此,L公司在此领域与山东大学具有较高的合作潜力。此外,安徽工业大学、华北电力大学等其他高校科研院所也具有较强的技术实力和合作可能,在一些特定的技术分支方向具有较高价值的专利,可作为某些技术方向技术合作的参考合作对象。
4 结 论
本文提出了一种基于专利文本分析的产学合作推荐模型,该模型基于专利地图识别企业技术空白点,并通过计算余弦相似度从高校专利库中匹配潜在的技术合作对象。通过L公司的实证分析,发现L公司在烟气净化、除尘装置等方面存在技术缺口,对此分别识别出上海交通大学、华北电力大学、安徽工业大学、山东大学等潜在合作对象。本文主要研究结论如下:
1)本研究基于专利文本的量化分析,可以为大规模的产学合作预测任务提供可行的方法,能够避免专家咨询等传统质性方法在客观性方面的不足。并且当前研究大多数聚焦于定性研究,本文从定量分析的角度出发,有助于完善产学合作相关的研究体系。
2)本文采取信息可视化与文本分析相结合的方法,在一定程度上更为有效地帮助企业寻找出潜在的合作伙伴。先利用专利信息可视化技术圈定潜在合作伙伴范围,再使用文本分析的方法对圈定范围内的潜在合作伙伴进行相似度排序,甄别出合作可能最大的潜在合作伙伴,比起单纯的文本分析方法更加快捷高效,节省人力和相关资源,符合当前产学合作环境中专利数量多而服务人员少的需求。
3)本文实证研究是以企业为视角寻找潜在合作伙伴,但是本模型也可以以高校为视角查找相关企业进行合作伙伴预测,但需要提前调查企业的相关资料,例如核心技术、产业链相关技术等,具有一定的难度,可以作为本研究未来的研究方向进行深入探索。
需要指出的是,本研究主要聚焦于特定企业,从国家宏观科技战略的角度看,未来对于大规模校企合作自动匹配的方法上仍有继续探索的空间。除此之外,本研究仅涉及高校层面,如果利用研究中相应的专利信息,再深入探索高校专利申请人和企业专利申请人之间点对点的精确合作,则更有可能提升产学合作的效率。