关键核心技术识别方法研究进展
2024-04-25赵建梁爽
赵 建 梁 爽
(1. 中国科学院文献情报中心 北京 100190;2. 中国科学院大学经济与管理学院信息资源管理系 北京 100190)
0 引 言
关键核心技术是国之重器,加强关键核心技术攻关,对推动我国经济高质量发展、实现新旧动能转换、保障国防和经济安全具有十分重要的意义[1]。突破关键核心技术是我国“十四五”规划中实现科技自立自强的重要部署,也是二〇三五年远景目标的重要规划,关系着我国能否如期进入创新型国家前列、建成世界科技强国。因此,在新一轮科技革命和产业变革加速演进的背景下,准确、有效地识别关键核心技术对我国政府和管理部门在制定科技政策和战略规划、保障国家安全和国际竞争力、产业发展规划、资源优化配置、实现关键核心技术自主可控等方面具有重要意义。
目前已有部分学者针对关键核心技术的概念、特征以及识别方法进行了研究,产生了一系列研究成果,但鲜有学者对关键核心技术识别方法的研究进展进行系统梳理和对比分析。鉴于此,本文在对关键核心技术的概念内涵和特征进行辨析的基础上,归纳总结关键核心技术识别的主要方法,对比分析各种方法的优缺点,提出现有研究存在的问题以及未来可能的发展方向,以期为后续关键核心技术识别提供借鉴和参考。
1 概念界定及特征分析
1.1 关键核心技术的概念
目前,学术界对于关键核心技术的概念尚未达成共识,学者们从不同视角对关键核心技术进行了界定。对相关文献进行梳理后发现,现有研究主要从技术体系、产业链中的关键技术、关键技术与核心技术的融合、国际竞争与国家安全等视角对关键核心技术的概念进行阐释,如表1所示。基于学者们对关键核心技术的定义,笔者认为关键核心技术是在产业链中处于主导地位,难以被其他技术所替代,并对产业链中的其他技术具有支撑作用,对国家经济、国防和社会等方面安全产生深远影响的技术体系。
表1 关键核心技术的概念
1.2 关键核心技术的特征分析
对关键核心技术的概念进行分析后可知,关键核心技术具有如下特征:(1)地位垄断性。因为关键核心技术不可替代并且不易掌握,所以掌握产业关键核心技术的国家或企业在国际市场中拥有竞争优势,占据垄断地位[10]。(2)研发长期性。由于关键核心技术本身的复杂性和和不确定性,攻克关键核心技术依赖多学科、跨学科的知识支撑,需要国家、企业在基础研究上的持续投入以及专业技术人才的培养和引进[11]。(3)技术主导性。关键核心技术是产业链或技术体系中的关键组成部分,决定着整个技术体系的发展方向,对其他技术具有主导作用。
1.3 相关概念辨析
经文献调研后发现,与关键核心技术相关的概念包括关键技术、核心技术、“卡脖子”技术、颠覆性技术、突破性技术、新兴技术、前沿技术以及核心专利等。关键核心技术与这些相关概念之间有密切的关联,同时不同概念各有侧重。为了厘清关键核心技术的内涵,本文对关键核心技术及其相关概念进行辨析比较,如表2所示。
表2 关键核心技术与相关概念的辨析
2 关键核心技术识别方法
对国内外相关文献进行系统梳理后发现,关键核心技术识别方法总体上可分为定性分析法和定量分析法两类。其中,定性分析法主要依靠领域专家的经验和知识,通过专家评估和判断确定技术的重要性和关键性。随着社会网络分析、自然语言处理技术的发展,学者们尝试使用专利指标、专利间的引用、共现关系和技术主题等定量方法进行关键核心技术的识别。鉴于此,本文将关键核心技术识别方法总结为基于专家经验的方法、基于专利指标的方法、基于专利网络的方法以及基于文本挖掘的方法四种。
2.1 基于专家经验的关键核心技术识别
基于专家经验识别关键核心技术属于定性分析方法,主要基于德尔菲法、头脑风暴法等方法,借助相关领域专家的专业知识和背景,通过专家定性评价的方式识别出技术领域的关键核心技术。例如,任佳妮借助德尔菲法识别出医疗机器人领域的7项关键核心技术[20]。Ma等结合专家咨询法和模糊层次分析法识别台湾LED产业的关键核心技术[21]。
该方法操作简便,能够充分利用领域专家的智慧,识别结果具有较强的权威性。但是该方法的主观性较强,识别结果的准确性依赖专家知识的广度和深度。同时,随着科技文献数量的激增以及不同学科间的交叉融合,仅仅依靠某一领域的专家较难准确识别领域关键核心技术。因此,学者们通常将该方法与其他定量分析方法相结合来识别领域关键核心技术。
2.2 基于专利指标的关键核心技术识别
专利文献中记载着技术成果,常被看作技术创新活动的载体和结晶。核心专利是技术领域内高价值、高竞争力的核心技术的表征,代表产业内核心技术的发展动向[22]。因此,部分学者设计专利指标从海量专利文献中识别出核心专利,将其作为该领域的关键核心技术。对相关文献进行调研后发现,基于专利指标的关键核心技术识别方法可细分为三种:基于单一指标方法的识别、基于组合指标的识别方法以及基于指标体系的识别方法。
2.2.1单一指标
部分学者通过统计专利文献的被引频次、同族专利数量、权利要求数量、分类号数量等单一的外部计量特征来识别某技术领域的核心专利。例如,陈旭认为同族专利数量反映了专利申请者对相关技术的重视程度,因此利用同族专利数可以筛选领域核心技术[23]。Berger等发现核心专利的权利要求数多于其他专利,可以利用权利要求数来识别核心专利[24]。
基于单一指标的识别方法使用专利的某一外部计量特征进行核心专利的识别,外部计量特征容易获取,简单直接,易于评价。该方法的缺点是单一指标的识别结果较为片面,可能会忽略其他因素的影响,导致结果不够全面、准确。同时,如果选择的指标不合适可能会导致结果不够准确,甚至产生误导。
2.2.2组合指标
为了克服单一指标的片面性,部分学者结合多个指标进行关键核心技术的识别。詹文青等结合专利自引频次、他引频次以及同族专利等指标识别自动驾驶领域的核心技术[25]。马瑞敏等利用四年内被引频次、同族专利数、权利要求数等多个指标识别OLED领域的核心技术[26]。Wang等结合专利被引频次、同族专利数量、专利覆盖范围、权利要求数量以及专利诉讼数量五个指标识别风力发电领域的核心技术[27]。
相比单一指标,组合指标可以综合考虑多个指标,能够更全面地识别领域的关键核心技术,避免单一指标可能存在的局限性,从而在一定程度上提高识别结果的准确性。组合指标可以根据不同的技术领域和技术的发展变化进行调整和更新,具有一定的灵活性。该方法的局限在于没有考虑各个指标的权重,仅将各指标的识别结果取并集,导致最终识别结果较为粗糙。同时,组合指标的选择需要根据专业知识和判断,因此可能会受到个人主观因素的影响,导致结果不够客观和准确。
2.2.3指标体系
为了更加准确地识别领域关键核心技术,部分学者从专利的技术特征、经济特征、法律特征以及受重视程度等维度设计指标体系,利用主观赋权法或客观赋权法对各指标赋予不同的权重,从多个维度评估技术创新的水平,以识别技术领域的关键核心技术。陈旭等从战略安全性、前沿技术性以及经济价值性三个维度设计指标体系筛选得到了集成电路产业的关键核心技术[28]。江瑶等从前沿技术性、复杂创新性以及国家战略性三个维度设计指标体系,利用熵权法对各指标赋予权重,识别出人工智能产业的关键核心技术[29]。杨大飞等依据核心技术的三个属性(创新力、发展力和控制力)设计专利指标体系,利用最优组合赋权法对指标赋予权重,识别OLED平板显示产业的核心技术[30]。杨武等建立核心技术识别指标体系并确定指标权重,构建得到核心技术评价指数,依据指数值对专利类型进行划分,识别得到5G移动通信产业的核心技术[31]。Wang等从基本特征、核心特征以及战略特征三个维度设计指标体系,利用熵权法对不同指标赋予权重,识别出信息技术产业的关键核心技术,并对世界主要国家的竞争态势进行了评价[32]。
此外,已有实际典型案例利用专利指标体系对高价值专利进行评选,例如中国专利奖。该奖项设专利奖项和外观设计奖项两类,分别从发明、实用新型专利和外观设计专利中评选产生,两类奖项的评选均设置了相应的评价指标体系,其中,专利奖项的指标体系包括专利质量、技术先进性、运用及保护措施和成效、社会效益及发展前景四种,指标权重分别为25%、25%、35%、15%[33]。参照2018年《科技日报》中提出的“35项亟待攻克的关键核心技术”、我国“十四五”规划以及国家自然科学基金“十四五”发展规划中所列举的关键核心技术,第二十四届中国专利奖获奖项目涵括了芯片、元器件、网络通信、操作系统、激光雷达、锂电池隔膜等在内的多项关键核心技术[34-38]。从中国专利奖的评审方法及获奖的技术内容来看,该奖项的关注点通常是在核心领域具有重要意义与影响力的技术,并与关键核心技术存在重合。这一案例也表明了基于专利指标体系的关键核心技术识别方法已在实际问题中得到了较好应用。
基于指标体系的识别方法从不同维度设计指标体系识别技术领域的关键核心技术,同时利用层次分析法、熵权法或专家咨询等方法对各指标赋予不同权重,考虑了不同指标的重要程度,具有较强的科学性。该方法的局限是评价指标的普适性和全面性有待进一步完善;同时部分研究中指标的权重设置主观性较强,需要依赖专家的专业背景和知识,从而降低了识别结果的准确性和客观性。
2.3 基于专利关系网络的关键核心技术识别
随着网络科学的发展,部分学者开始引入复杂网络分析的思想,以专利文献为数据源,基于专利文献间的引用关系、专利分类号的共现关系、技术交叉影响矩阵构建专利关系网络,结合社会网络分析法识别领域中的关键核心技术。常见的专利关系网络包括专利引文网络、专利共类网络、技术交叉影响网络以及投入产出网络等。
2.3.1专利引文网络
基于专利引文网络的识别方法利用专利文献间的引用关系构建引文网络,结合社会网络分析指标从引文网络中识别代表该技术领域核心技术的关键节点。常见的引文网络包括直接引用网络、共被引网络以及引文耦合网络。
a.直接引用网络。专利文献通过引证与被引证的关系形成引文链,多条引文链交叉融合得到引用网络,反映了技术演进的路径和方向[39]。因此,部分学者利用专利文献间的直接引用关系构建专利引用网络,结合社会网络分析指标或主路径分析识别网络中的重要节点,将其定义为关键核心技术。戚筠等在专利引用网络的基础上结合小世界网络特性和主路径分析法识别石墨烯领域的关键核心技术[40]。Lai等在专利引用网络的基础上,结合专利指标、中心性指标以及主路径分析,识别薄膜太阳能领域的关键核心技术[41]。Lee等依据1985-2012年间USPTO中的专利数据构建引文网络,利用PageRank算法识别关键核心技术[42]。
b.共被引网络。1973年,美国情报学家Small和苏联情报学家Irina Marshakova同时首次提出了文献共被引的概念[43, 44]。如果两篇或多篇文献同时被后来的一篇或多篇文献引证,则称这两篇或多篇文献具有共被引关系。部分学者基于专利文献间的共同引用关系构建共被引网络,结合专利指标和社会网络分析指标识别网络中的关键节点,从而发现技术领域中的关键核心技术。刘红光等对国际燃料电池汽车领域的高被引专利进行共被引分析,结合同族专利以及专利寿命等指标识别该领域的关键核心技术[45]。Yang等构建专利共被引网络,结合社会网络分析法识别极紫外光刻机领域的核心技术[46]。
c.引文耦合网络。1963年美国科学家Kessler首次提出了文献耦合的概念[47]。如果A和B两篇文献共同引证了一篇或多篇参考文献,则A和B两篇文献具有耦合关系。Noh等结合引文耦合网络和文本挖掘方法识别电信领域的核心技术[48]。Huang等结合文献耦合和共被引分析法识别光伏领域的核心技术[49]。
基于专利引文网络的识别方法原理简单,专利文献间的引用关系容易获取,且当前社会网络分析理论较为成熟,可以对其引用关系进行可视化分析,可解释性较强。但该方法仅依靠专利文献的外部引用特征,未深入到专利文献内容层面,无法判断作者的引用动机、引用强度等更复杂的引用机理。同时,专利文献间引用关系的时滞性导致引文网络不能及时反映技术领域的最新动态,从而降低识别结果的准确性。
2.3.2专利共类网络
同一领域的专利文献往往会涉及相同或相近的技术领域,因此其分类号往往会存在共现现象,即相同或相近的分类号会同时出现在专利文献中。通过分析专利分类号的共现现象,可以找到代表该领域核心技术的关键分类号。基于专利共类网络方法的主要思路是利用专利分类号的共现关系构建专利共类网络,结合社会网络分析指标从专利共类网络中识别关键节点,将其作为关键核心技术。常见的专利共类网络包括国际专利分类号(以下简称“IPC分类号”)共现网络和德温特手工代码共现网络两种。
a.国际专利分类号共现网络。毛荐其等首先利用专利共类分析法识别光刻技术领域的核心技术和潜力技术,然后借助结构洞理论从中识别出该领域的关键核心技术[50]。Tang等在IPC共现网络的基础上结合信息熵对核心技术进行识别[51]。Park等在IPC共现网络的基础上利用中心性指标识别建筑信息建模领域的关键核心技术[52]。Long等基于我国地铁领域的专利数据构建了国际专利分类信息共现网络,利用加权节点重要度共现关联矩阵分析网络中节点的重要程度,进而识别出中国地铁领域的关键核心技术[53, 54]。
b.德温特手工代码共现网络。张迎新等构建德温特手工代码共现网络识别五轴联动数控机床领域的核心技术[55]。侯剑华等基于专利家族的视角,构建德温特手工代码共现网络,识别太阳能光伏电池领域的核心技术及其演进路径[56]。Zhang等通过构建德温特手工代码共现网络,识别数字程控交换机领域的核心技术[57]。
基于专利共类网络的方法在专利分类号共现网络的基础上,借助社会网络分析方法识别关键技术领域。该方法可操作性强,简单易行,对专业知识的掌握程度要求相对较低。不足之处在于该方法仅利用了专利分类号这一外部特征来表征领域中的关键核心技术,未深入到专利文献内容层面,识别结果粒度较粗,且分类号数量和分类粒度的选择会影响结果的准确性。对于新兴技术领域,由于分类号的数量较少,分类号间的共现关系不显著,可能无法准确识别其关键核心技术。
2.3.3技术交叉影响
技术交叉影响分析的概念最早是由Choi等学者于2007年提出的,其核心思想是计算多个不同技术领域间的交叉影响系数,在此基础上构建技术领域的技术交叉影响矩阵,从中选择对其他技术领域具有较大影响的技术作为关键核心技术。
赵璞等利用关联规则挖掘共现频次较高的技术领域,然后计算不同技术领域的交叉影响系数,构建交叉影响系数矩阵,识别太阳能光伏领域的关键核心技术[58]。Kim等通过对专利数据共分类信息进行关联规则挖掘计算支持度、提升度和置信度,构建强度、关联度和交叉影响视角的技术关联矩阵,结合网络分析方法比较不同技术的重要程度,最后得到领域关键核心技术[59, 60]。Lee等将网络层次分析法(ANP)应用于技术网络,对技术的极限中心性进行测度,表示技术对其他技术影响的重要性,以此来识别技术网络中的核心技术[61]。
基于技术交叉影响的识别方法从关键核心技术的概念和特征出发,从技术影响力的角度识别关键核心技术,可以充分结合技术交叉影响的测度结果,较好地反映技术之间的相互关联程度,使得结果更具有可解释性和实用性。该方法的不足是将专利分类号作为技术领域的表征,未能充分利用专利文献的语义信息,识别结果粒度较粗。同时,技术交叉影响的测度方式也有待进一步完善。
2.3.4投入产出网络
投入产出分析法是经济学领域的常用方法,常被用于分析经济系统各部分之间的投入产出关系。部分学者借鉴投入产出分析法的基本思想,将专利引用看作投入,将专利发表看作产出,利用专利的引用关系构建技术投入产出矩阵,结合技术领域间的影响力指标识别出在技术体系中占据重要地位的技术节点,进而确定关键核心技术。王智琦等利用投入产出分析法,计算混合动力汽车的主要技术子领域的影响力系数,从而识别该领域的关键核心技术[62]。姜照华等利用投入产出分析法,在专利引用矩阵的基础上计算传送带行业不同技术子领域间的影响力系数,从而识别该领域的关键核心技术[63]。Xu等结合频率模式增长算法和投入产出分析法,识别我国新能源汽车领域的关键核心技术[64]。
基于投入产出网络的方法在不同技术子领域间专利文献引用矩阵的基础上,利用技术影响力系数衡量不同技术子领域在引用网络中的技术影响力,从而识别关键核心技术。该方法原理简单,专利引用数据易获取,可操作性强。不足之处在于该方法在分析过程中需要人工进行干预和判断,存在一定的主观性。同时,仅通过专利引用数量来衡量领域的技术影响力大小,测度维度较为单一,难以全面客观地解释领域技术影响力。
2.4 基于文本挖掘的关键核心技术识别
文本挖掘是指从大量非结构化文本中分析、提取重要的语义内容信息,并将其整理、组织、加工成有价值的知识的过程。随着大数据和人工智能技术的发展,学者们开始尝试利用自然语言处理和文本挖掘技术,从专利文献、科技论文的文本内容中抽取关键词、主题词或语义单元,进而识别领域关键核心技术。经文献调研后发现,基于文本挖掘的关键核心技术识别方法大致可分为三种:共词分析、主题模型以及SAO语义网络。
2.4.1共词分析
基于共词分析识别关键核心技术的核心思想是从专利文献中抽取关键词或主题词,构建关键词或主题词共现网络,通过聚类分析或社会网络分析指标发现网络中节点之间的内在联系,进而识别领域中的关键核心技术。詹爱岚利用RAKE算法从专利文献的摘要中抽取关键词,构建关键词共现网络,从中识别移动通信产业的关键核心技术[65]。楼旭明等绘制专利关键词共现网络,结合专利技术领域分析识别无人机领域的核心技术[66]。Xu等通过获取论文、技术报告等多种数据资源,从中提取关键词,建立超网络模型,利用改进的SuperedgeRank算法识别核心技术[67]。
基于共词分析的方法从专利文献中提取高频关键词或主题词构建共现网络,通过聚类分析识别领域关键核心技术,相比基于专利外部特征的方法具有一定的优势。该方法的局限是仅从共现频次角度进行统计分析,无法体现关键词间深层次的语义关联;仅关键词难以充分全面地揭示领域技术内容,需要结合其他方法进行综合分析。
2.4.2主题模型
主题模型是一种基于无监督学习的方法在海量文献中挖掘潜在主题的统计模型。针对共词分析的方法难以全面揭示专利文献内容的弊端,学者们开始尝试使用主题模型进行关键核心技术识别。经文献调研后发现,基于主题模型的识别方法主要分为两种:一种是使用传统的LDA模型识别领域关键核心技术主题;另一种是对传统LDA模型进行改进,以弥补传统LDA模型在主题解释性、主题歧义等方面的缺陷。
a.传统的LDA模型。李维思等从产业链角度出发,基于关键核心技术的特征采集多源数据,利用LDA模型识别人工智能领域的关键核心技术[68]。杨恒等通过构建核心专利识别指标体系得到人工智能领域的核心专利,然后利用LDA模型和Word2Vec词向量模型识别该领域的核心专利技术主题[69]。Chun等利用LDA模型和网络分析法识别智能农场技术领域的关键核心技术[70]。
b.改进的LDA模型。王秀红等将BERT模型和LDA模型进行结合,使用BERT-LDA模型识别农业机器人领域的关键技术,提高了识别结果的主题连贯性[71]。刘自强等使用语义增强的主题模型Chunk-LDAvis识别纳米农业领域的技术主题,利用社会网络分析法得到该领域的关键核心技术主题[72]。伊惠芳等将IPC分类号与传统的LDA模型进行结合,提出了IPC语境增强的LDA模型,识别石墨烯领域的关键核心技术主题[73]。Su等获取碳中和领域的论文数据,采用BERT-LDA模型和K-means聚类实现技术主题的识别与聚类可视化,结合专家知识和粒度分析当前的关键技术主题[74]。
基于主题模型的方法无需人工标注语料,便可以挖掘出专利文献中的潜在主题,同时能够处理大规模的专利数据,具有高效性和可扩展性。该方法的局限在于得到的技术主题含义较为宽泛,可解释性较低,在没有上下文的情况下较难准确理解技术主题的含义;某些技术主题存在多义性,从而导致识别结果具有歧义。
2.4.3SAO语义网络
基于SAO语义网络识别关键核心技术的主要思路是从文献的标题、摘要等文本内容中抽取主体、动作和客体三个要素,得到SAO三元组,在此基础上构建知识网络或技术树,结合社会网络分析指标识别领域关键核心技术。
任海英等从专利文献中抽取SAO结构,构建领域知识网络,结合K-核分析法和主路径分析法从知识网络中识别核心技术链,以量子计算领域进行实证研究[75]。Yang等从专利文献中提取SAO结构,结合“相似性指标”识别石墨烯领域的核心技术[76]。Choi等从专利文献中抽取SAO结构,在此基础上构建技术树,识别质子交换燃料电池领域的核心技术[77]。Lin等从专利文献中抽取SAO结构,构建复杂网络,结合结构洞和中心性指标识别技术领域的核心技术[78]。
基于SAO语义网络的方法充分利用了文献的内容信息,根据词间语义关系和社会网络分析法从语义层面挖掘关键核心技术主题,识别结果较为准确。该方法的局限性在于抽取的三元组中可能会存在同义词或近义词的情况,对识别结果造成影响。同时识别结果的可读性相对较差,需要进一步的人工理解和解释。
3 关键核心技术识别方法述评
当前,学者们对关键核心技术的识别方法进行了积极探索,取得了丰硕的研究成果。本文对相关文献进行系统梳理后,将关键核心技术的识别方法归纳为四种:基于专家经验的方法、基于专利指标的方法、基于专利关系网络的方法以及基于文本挖掘的方法。本文从主要思路、优势和局限三个方面对上述四种方法进行了对比分析,如表3所示。
通过对关键核心技术的概念、特征以及主要识别方法进行归纳总结,本文认为现有研究存在以下几点局限:
a.关键核心技术的概念尚未达成共识。鉴于专业领域和研究目的存在差别,学者们对关键核心技术的定义存在一定的差异。目前学术界主要从技术体系、国际竞争、产业链等视角对关键核心技术进行界定,但尚未就关键核心技术的概念达成共识。这导致了学者在构建指标体系时存在较大差异,难以形成统一标准,建立全面、科学的评价体系,从而无法实现对不同领域关键核心技术的系统性评估。同时,缺乏科学性判定标准也导致在关键核心技术识别过程中存在主观性、片面性和不确定性,难以进行客观、全面的关键核心技术识别。
b.用于识别关键核心技术的数据源较为单一。现有研究主要以专利文献和科技论文为数据源进行关键核心技术的识别,而与科技发展具有密切关系的基金项目、科技政策、行业报告以及市场信息等数据尚未得到充分利用。由于现有研究的数据来源较为单一,识别结果可能会受到数据的局限,未能全面反映某些领域的关键核心技术,对识别结果的准确性和全面性产生一定的影响。同时,虽然部分学者基于多源数据融合来识别关键核心技术,但是融合层次大多局限于数据级层面,即将不同数据源的原始数据进行简单的合并,较少有研究深入到特征层面。虽然数据级层面的多源数据融合在一定程度上可以提供更全面的数据视角,但对于挖掘潜在的关键核心技术仍然有一定局限性。
c.关键核心技术识别方法的自动化程度较低。部分关键核心技术识别方法在指标权重的设置、技术领域划分、技术主题含义确定、结果的有效性和准确性验证等方面需要人工干预,导致识别方法的自动化程度较低,尤其在处理大规模文本数据时,识别过程可能会非常繁琐,会耗费大量时间和资源。尽管已有学者尝试使用文本挖掘方法来提高关键核心技术识别的自动化程度,但目前仍未达到完全自动化的阶段,识别过程仍需依赖专家的背景知识和经验,导致识别结主观性较强,识别效率低下、成本较高。
d.关键核心技术识别结果粒度较粗。一方面,关键核心技术的概念定义尚不明确,导致在识别时难以准确定义关键核心技术的范围和层次。另一方面,现有的识别方法通常只能对技术进行较为宏观的识别和分析,无法深入挖掘技术的内在结构。目前大多数研究的识别结果停留在以专利分类号为表征的技术领域层面,识别结果粒度较粗。虽然基于文本挖掘的方法能够深入到文本内容,从技术主题层面表示关键核心技术,但技术主题间缺乏语义关联,导致识别结果的可解释性较低。
4 总结与展望
关键核心技术是国之重器,准确、有效地识别关键核心技术对我国政府、管理机构以及研发人员具有重要意义。在国家层面,识别关键核心技术有助于了解我国在相关领域的技术实力和竞争优势,为未来科技政策和战略规划的制定提供重要依据。在管理机构层面,识别关键核心技术有助于管理机构确定优先发展的产业方向,制定相应的产业发展规划,推动产业结构优化升级。在研发人员层面,识别关键核心技术有助于研发人员聚焦于重要的研究领域,明确科研方向和目标,使其研究更加具有针对性和实践意义。鉴于此,本文首先对关键核心技术的概念和特征进行了界定;然后系统梳理了现有的关键核心技术识别方法,将其总结为四类:基于专家经验的方法、基于专利指标的方法、基于专利关系网络的方法以及基于文本挖掘的方法;最后对比了各种方法的优劣,提出了现有研究存在的主要问题。
针对目前关键核心技术识别研究现状以及存在的问题,本文对未来的研究方向提出以下几点思考:
a.加强关键核心技术的基础理论研究。目前学术界对关键核心技术的概念、特征以及影响因素等理论问题进行了积极探索,但还未达成共识。未来研究应进一步加强关键核心技术基本理论的探讨,加强学术界间及其与产业界的交流合作,努力就其基本理论问题达成共识,明确定义关键核心技术的范围和概念,并建立相应的标准和评估方法,为后续关键核心技术的识别提供理论基础与方法基础。
b. 融合多源数据进行关键核心技术的识别。专利文献、科技论文、基金项目、科技政策以及行业报告等数据源在内容、用途、可信度、时效性、覆盖范围、可获取性、数据质量等方面存在区别。因此,未来研究应充分利用专利文献、科技论文、基金项目、行业报告、科技政策以及市场信息等与科技发展密切相关的多种数据源,从特征层面融合多源数据进行关键核心技术的识别。首先,可以从每种数据源中抽取有意义的特征,例如,从专利文献中抽取技术关键词、专利分类号、引用信息等特征;从科技论文中抽取标题、摘要、关键词、作者等特征;从基金项目中抽取项目名称、研究目标、资助机构等特征。然后,采用加权平均、特征连接、特征相似度匹配等方法将不同数据源中抽取的特征进行融合,建立全面、多元的数据体系,在此基础上建立不同数据源间的相关信息的链接关系。最后,利用数据挖掘方法从融合后的数据体系中识别关键核心技术,提高识别结果的精度、广度和深度,从而为技术创新和产业发展提供更科学的决策依据。
c.利用人工智能技术提高识别方法的自动化程度。近期人工智能技术的最新进展主要得益于大规模数据集和类ChatGPT等生成式语言模型的使用。人工智能技术的发展为关键核心技术识别过程的智能化和自动化提供了技术支撑。针对现有研究中存在的关键核心技术识别方法自动化程度低的不足,未来研究可以考虑建立不同技术领域大规模、高质量的训练数据集,涵盖专利文献、科技论文、基金项目、科技报告等多源数据,同时使用数据增强技术增加数据的多样性。其次,在大规模数据集的基础上训练类ChatGPT等生成式语言模型,学习丰富的语义和知识。同时,利用大型语言模型的In Context Learning能力,捕捉上下文之间的关系,结合Prompt工程通过对话的方式,提升自动化识别的灵活性和适应性,使得模型能够根据具体的需求进行定制化的技术识别,提高关键核心技术识别的效率,降低人工参与的程度,缩短识别周期。
d.进一步细化关键核心技术的识别粒度。针对现有研究中存在的关键核心技术识别结果粒度较粗的问题,未来需要细化关键核心技术识别的粒度,采用更先进的自然语言处理技术,例如预训练语言模型BERT、GPT等,在大规模文本语料上进行训练,更准确地理解关键词或主题词之间的语义关系。单纯依靠词汇本身的含义可能导致识别结果的准确性较低,因此,在进行关键核心技术识别时,应该将关键词与其周围上下文进行综合考虑。例如,采用上下文感知的词嵌入技术或者上下文注意力机制,更好地理解关键词或主题词在特定语境中的含义。同时,引入语义关联度度量方法,加强关键词或主题词在语义层面的关联,提高识别结果的粒度和解释性,使识别结果更具有实际应用价值,为技术创新和战略决策提供更加准确、全面的决策支撑和信息参考。