基于知识图谱的高价值专利技术创新演化研究

2024-06-03曹茹烨曹树金

现代情报 2024年6期

关键词：知识图谱

曹茹烨　曹树金

关键词：高价值专利；技术创新演化；知识图谱；脑机接口

ＤＯＩ：１０．３９６９／ｊ．ｉｓｓｎ．１００８－０８２１．２０２４．０６．００１

〔中图分类号〕Ｇ２５５５３〔文献标识码〕Ａ〔文章编号〕１００８－０８２１（２０２４）０６－０００３－１５

随着新一轮科技革命的加速推进，科技创新已经成为影响国家竞争力和世界发展格局的关键变量。

党的二十大报告强调，要加快实施创新驱动发展战略，集聚力量进行原创性引领性科技攻关，坚决打赢关键核心技术攻坚战［１］。攻克关键核心技术领域难题，首先需要把握技术的演进特征和发展规律［２］。鉴于高价值性是关键核心技术的主要特征［３］，而专利又是科技创新的重要载体，精准识别高价值专利，分析技术创新演化态势，对国家科技战略布局、科技机构和企业的创新发展规划，以及科研人员理解技术核心要素并发现创新规律和创新机会具有重要意义。

“ 十四五” 规划中首次将“每万人口高价值发明专利拥有量” 纳入经济社会发展的主要指标［４］，培育高价值专利、提升创新质量越来越成为国家科技创新体系的重要一环。目前，对高价值专利的研究主要集中在高价值专利的识别、价值评估、专利挖掘以及技术扩散分析等方面，少有针对高价值专利的技术创新演化研究，较多的是在不区分专利价值高低的基础上对专利技术的演化分析，用于技术预测、优势技术或颠覆性技术识别。从方法上看，多从技术主题视角，采用文本挖掘和社会网络分析法实现。然而，专利尤其是高价值专利的技术创新价值体现在多个维度，蕴藏在包含复杂语义关系的专利文本内容中。若要对技术研判或未来技术研发提供更具体、明确的落点，就需要对专利文本进行更加细粒度的揭示，进而从多维度、多视角挖掘高价值专利的技术演化规律。据此，本研究拟解决的科学问题是如何挖掘一个领域内高价值专利的多面的、细粒度的、具体的技术创新点并发现其演化规律，从而为科技创新主体提供多维和具体的参考？具体包括３个子研究问题：一是如何设计一套新颖且合理的指标体系来评估和识别高价值专利？二是如何提取高价值专利文本中的细粒度技术要素并对其进行语义化组织，以便从多维视角理解专利技术的本质和特征？三是如何基于多维技术要素及其关联关系，从更加细微且多面而非仅仅是粗浅的主题角度来分析高价值专利的技术创新演化现象？

为解决以上问题，本研究将以“脑机接口” 领域为例，从优化部分指标测算方法及指标组合的角度设计能够反映技术价值、专利权利和市场前景的指标体系以识别高价值专利，并利用知识图谱对高价值专利进行细粒度的技术要素提取和关联关系揭示，在此基础上从多角度分析技术创新演化的趋势，旨在促进关键技术领域的创新发展。

１相关研究

１.１高价值专利识别相关研究

现有研究多从技术、法律和市场３个角度评估专利价值以识别高价值专利，具体包括单一维度的纵深化评估和多维度的综合评估。比如根据ＴＲＩＺ的功能分析，从技术价值视角识别高价值专利［５］；或者基于技术的转移转化对专利价值进行评估［６］；但更多的是构建高价值专利识别的多维指标体系，如，付振康等［７］综合了能够反映技术价值的技术生命周期、引证数等指标，反映法律维度的权利要求数、审查周期等指标，以及反映市场价值的ＰＣＴ申请等指标筛选高价值专利。宋凯等［８］从保护范围、研发水平、市场前景和主体特征４个维度构建了一套专利价值评估的指标体系。从高价值专利识别的方法来看，常见的有基于指标权重的综合评价法，如层次分析法和熵权法的结合［９］、多目标决策分析中的ＴＯＰＳＩＳ方法［１０］以及Ｃｒｉｔｉｃ赋权法的应用［１１］。近年来，较多研究使用机器学习和深度学习的方法，将高价值专利识别问题转化为分类问题。王思培等［１２］基于随机森林算法，将反映专利价值的多维指标作为输入变量，高价值专利类别作为分类变量，构建潜在高价值专利的预测模型。ＬｉｕＷＤ等［１３］提出了基于多任务学习的高价值专利识别模型。ＷｏｏＨ等［１４］采用贝叶斯结构方程模型，从技术性、权利性和可用性３个维度对专利价值进行评估建模和分类识别。此外，还有研究将综合评价法与机器学习方法结合识别高价值专利，如基于機器学习改进的ＡＨＰＳｏｒｔ Ⅱ方法［１５］。

１.２基于专利分析的技术创新演化相关研究

基于专利的技术创新演化研究主要集中在两个方面，一是技术主题的演化分析；二是技术创新网络的演化分析。关于技术主题创新演化，较多学者采用主题识别、机器学习的方法进行分析。如基于Ｗｏｒｄ２Ｖｅｃ词向量模型和ＬＤＡ主题模型的干细胞治疗技术在“科学发现—技术创新—技术应用” 全生命周期的演化脉络与特征研究［１６］；基于专利数据，引入技术主题时序共现网络和主题引用网络的技术主题演化趋势分析［１７］；利用专利摘要，结合ＬＤＡ和隐马尔科夫模型分析３Ｄ打印技术主题的分布和演化模式［１８］；以及融合ＳＡＯ三元组抽取、主题识别与相似度计算分析石墨烯超级电容器领域技术主题的创新演化路径［１９］等。关于技术创新网络的演化，现有研究多利用网络分析法，对基于专利的技术创新合作网络或引文网络的演化路径进行探索。如ＨｓｕＣＷ等［２０］基于专利引用关系所产生的社会网络来讨论生物质发酵产氢技术的演化；束超慧等［２１］以专利申请人作为网络节点构建颠覆性技术创新网络，从而分析了智能语音技术专利合作创新网络的演化过程。赵靓等［２２］利用基于专利分类代码构建的专利共现网络分析了军事智能技术演化趋势。

１.３基于科技文献的知识图谱构建与应用研究

知识图谱是谷歌在２０１２年提出的概念，本质是一种语义网络，被广泛用于智能语义搜索、智能问答和信息推荐等领域。近年来，诸多学者将其引入科技领域的知识组织和知识发现研究，探索基于科技文献（主要为专利、科技论文）的领域知识图谱构建方法，以及在此基础上的技术创新识别与创新知识检索、新兴技术预测、技术推荐等现实应用。在面向科技文献的知识图谱构建中，有研究基于数据增强方法构建了新能源汽车电池技术领域的知识图谱［２３］，融合联合抽取模型ＳｐＥＲＴ以及关系抽取模型Ａｇｇｃｎ构建了绿色合作领域的专利知识图谱［２４］，以及基于图嵌入算法构建非全氟化质子交换膜领域专利知识图谱等［２５］。在知识图谱的应用中，曹树金等［２６］基于所构建的专利文献创新知识图谱分析了其在创新知识检索及专利文献创新点对比中的应用；ＤｅｎｇＷＷ等［２７］提出了一种在专利知识图谱的基础上对专利和公司进行加权图分析的方法，用于向企业推荐专利；ＤｏｅｒｐｉｎｇｈａｕｓＪ等［２８］基于ＰｕｂＭｅｄ数据库中的生物医学论文数据构建了大型的生物医学领域知图谱，用于上下文挖掘、基于图的知识查询以及知识发现；还有将所构建的知识图谱用于产业新兴技术预测［２９］、专利布局意图挖掘中［２５］。此外，也有研究构建了技术演化图谱，用于识别优势专利的技术研发方向［３０］。

综上所述，现有研究已有相对成熟的高价值专利评估和筛选的方法，然而测度技术价值的指标较少深入到专利文本的潜在语义层面，尤其是不易测度的主题新颖度之类的指标。已有研究表明，主题新颖性与专利质量［３１］及专利影响力［３２－３３］有较大关系。因此，本研究将重点聚焦于专利技术主题新颖性，结合反映技术价值的其他指标，以及专利权利和市场前景来识别高价值专利。鉴于已有的主题新颖度测度方法较多以专利技术出现时间远近为依据，并未从主题本身考虑，本研究将提出一种新的测度方法加以优化；另一方面，从专利文本内容层面开展的技术创新演化研究多从主题角度切入，分析的粒度较粗，维度较单一。而将知识图谱用于科技文献挖掘的相关研究为该问题的解决提供了新的思路和理论依据。基于此，本文将结合知识图谱的优势，对高价值专利的技术演化趋势进行更加具体和多角度的分析，为科技创新的各类主体提供更明确的参考。

２研究设计

２.１研究思路

本研究总体思路如图１所示。主要分为４个阶段：数据收集与预处理、高价值专利识别、高价值专利知识图谱构建、高价值专利的技术创新演化分析。首先，在数据集的选取上，鉴于脑机接口是新一代人机交互和人机混合智能的关键核心技术，被美国商务部列为１４项出口管制技术之一［３４］。因此，本研究采集了“脑机接口” 领域的专利文献作为样本，经过预处理后形成语料集；其次，在高价值专利识别过程中，重点考虑技术主题的新颖性，借助ＫｅｙＢＥＲＴ模型从专利标题和摘要中抽取关键词，采用一种新的方法设计主题新颖性测度的指标，该方法主要通过与申请年以前的专利技术进行对比，而非仅依据申请年远近来判断新颖性，如此能够评估在专利申请的当下所体现的价值，以便识别出在技术发展的各个不同阶段具有高新颖性的专利。与此同时，结合技术维度的其他指标以及反映专利权利和市场前景的指标，利用Ｃｒｉｔｉｃ权重法综合评估专利价值，从而筛选出高价值专利。然后，针对识别出的高价值专利构建知识图谱，具体包括实体及关系类型定义、数据标注、采用ＣａｓＲｅｌ联合抽取模型进行训练、利用训练好的模型对未标注语料进行知识抽取、知识融合与消歧，并利用Ｎｅｏ４ｊ图数据库实现知识图谱的存储与可视化；最后，基于所构建的知识图谱进行技术创新演化分析，分析的维度依据知识图谱中所涉及的不同类型的实体及关系。

２.２专利价值评估指标设计与综合评价

明确高价值专利的内涵是识别高价值专利的前提。对于高价值专利的内涵存在多种说法，尚未形成统一的定义。国家知识产权局曾对高价值发明专利的范围进行了说明［３５］，在此基础上综合学者们的不同观点，发现领域内普遍认为高价值专利应具有较高的技术创新性、较稳定的专利权利、较高的市场应用价值几大特征［７，３６－３７］。因此，根据相关研究中所涉及的多种指标，从中归纳出３个重要维度作为本研究指标设计的基准，即技术价值、专利权利和市场前景。技术维度的指标主要包括技术主题新颖性、技术覆盖范围和技术投入。关于技术新颖性有多种度量方法，比如采用专利授权的时间度量，即时间越近新颖度越高［１１，２９］；也有以新词的早期出现率低于１５％作为度量依据；以主题词组合在专利申请年之前的所有专利中出现的频次来度量技术新颖性［３８］；以及通过与历史主题的相似度计算进行度量［３９］等。可见，技术新颖度大都反映在时间维度的对比中。鉴于关键词是判断文献主题的重要依据［４０］，本研究设计两个指标来反映技术主题的新颖性，即关键词早期出现率Ｘ１与关键词相似度Ｘ２。关键词通过ＫｅｙＢＥＲＴ从专利标题和摘要中抽取。Ｘ１计算方法如式（１）：对于某一专利，第ｉ个关键词在其申请年之前出现的专利总数ｎｉ与申请年之前所有专利总数Ｎ的比值设为Ｋ，参考Ｐｏｒ?ｔｅｒＡＬ等［４１］的经验，当Ｋ≤０１５时认为该词具有新颖性，记为１，该专利的总新颖度得分为所有关键词新颖性计数的总和Ｓ。指标Ｘ２的计算方式为：将抽取出的专利关键词组合与申请年之前的每份专利的关键词组合进行相似度计算，按照相似度递减排列，获得与该专利关键词组合相似度最高的前１５％个专利，以其相似度得分的平均值作为Ｘ２的值。根据付振康等［７］和张彪等［１１］的研究，技术覆盖范围可由ＩＰＣ小类的个数（Ｘ３）来反映，技术投入可由发明人数量（Ｘ４）反映。综合宋凯等［８］和王思培等［３７］提出的专利价值评估指标，专利权利维度主要由权利要求数（Ｘ５）来测度，而市场前景维度则由简单同族数量（Ｘ６）测度。

在对各项指标进行测度后，采用Ｃｒｉｔｉｃ赋权法确定指标权重。Ｃｒｉｔｉｃ赋权法利用指标间的冲突性和信息量大小来确定指标权重值，是一种利用数据自身的客观属性进行科学评价的方法。最后将专利价值得分降序排列，选取高于平均值的专利作为高价值专利。

在构建了此套高价值专利识别的指标体系之后，为了验证其合理性、科学性和适用性，首先邀请科学评价领域的两名专家对指标本身进行定性评估；其次，由于本研究对评价指标的优化主要体现在专利技术主题新颖性的测度上，为了验证该方法相较于根据时间远近评价的方法更为合理，随机选取了脑机接口领域若干篇专利文献，利用该方法计算反映主题新颖性的两项指标值，即上述的Ｘ１和Ｘ２，结果发现有部分近些年（２０２０年以后）申请的专利新颖性并不高，如“基于脑机接口的设备控制方法、装置ＸＸＸ” “一种ＸＸＸ的半侵入式脑机接口模块”。经领域专家判断这些专利技术的新颖性的确相对较低，若仅用时间远近判断并不合理，由此也验证了本研究所提方法的優越性；最后，将所设计的整套指标体系分别用于脑机接口和教育机器人领域的高价值专利识别，并由各自领域的专家对筛选出的高价值专利文献进行了评估，结果较好。

２.３高价值专利知识图谱构建

以高价值专利的摘要作为知识图谱构建的语料。首先，需要对摘要文本进行分析，归纳出实体及关系类型。此过程主要依据已有研究中关于专利特征的总结以及专利摘要构成要素的概括，并根据特定领域专利文献自身的特点进行设计；其次，知识图谱构建最重要的就是知识抽取环节，针对非结构化文本的知识抽取一般涉及实体识别与关系抽取。本研究将采用ＣａｓＲｅｌ联合抽取模型同时进行以上两种抽取任务。ＣａｓＲｅｌ联合抽取模型是吉林大学人工智能学院的ＷｅｉＺＰ等［４２］提出的模型，主要解决三元组重叠的问题，即一个句子中的多个三元组共用同一实体。该模型的本质是基于参数共享的联合实体关系抽取方法，一般又被称为层叠指针网络。模型架构如图２所示，包括编码端和解码端，其中编码端是基于ＢＥＲＴ的编码层，解码端包括头实体识别层和关系与尾实体联合识别层。在进行实体关系联合抽取时主要涉及两个步骤：一是对句子中所有可能的主语进行识别；二是在每个关系类别下再去抽取与主语（即头实体）对应的尾实体。鉴于本研究所涉及的专利文本涵盖复杂的语义关系，存在较多三元组重叠的问题，选用ＣａｓＲｅｌ联合抽取模型较为合适。确定采用的知识抽取模型之后，对专利摘要进行分句，提取部分语料进行人工标注与训练，并利用训练好的模型对未标注的语料进行三元组抽取。在完成知识抽取工作以后，参照领域专业词典进行实体对齐、消歧与知识融合。最后，利用Ｐｙｔｈｏｎ中的Ｐａｎｄａｓ、Ｐｙ２ｎｅｏ等工具包将所有的实体关系数据导入至Ｎｅｏ４ｊ图数据库中，形成高价值专利知识图谱。

２.４高价值专利的技术创新演化分析

高价值专利的技术创新演化分析基于所构建的知识图谱。首先需要确定技术创新演化分析的维度，鉴于知识图谱对高价值专利进行了更加细粒度的揭示，涵盖技术的多个方面（如应用领域、性能优势、方法基础等）。因此，技术创新演化分析的维度可根据知识图谱中涉及的各个实体及关系类型确定，同时也可涉及粗粒度的主题分析；其次，在每个分析维度下，提取不同时间段的高价值专利文本子图，总结每个阶段的技术创新特征。进而揭示随着时间推移，在技术创新的各个维度上，哪些内容逐渐缩减，哪些内容被持续关注，以及某个时间段新出现的内容有哪些，以便更加具体地反映高价值专利的技术创新演化态势。基于知识图谱而非简单的技术实体识别来开展技术创新演化分析的优势在于：专利摘要中的技术实体所属类型依关系而定，如一个系统设备或器件可能是专利本身也可能是专利的组件，一种方法可能是发明专利本身也可能是专利所依赖的技术，抽取三元组而非单个实体有助于明确区分这些技术实体。此外，知识图谱还可用于考察具有关联关系的技术组合的演化现象。

３实证研究

３.１数据采集与预处理

选取“脑机接口” 领域的专利文献作为分析样本，以ｉｎｃｏＰａｔ全球专利数据库作为数据源。首先，参考已有相关研究制定检索策略：ＴＩＡＢＣ＝（脑机接口ＯＲ脑－机接口ＯＲ脑机交互ＯＲ脑－机交互ＯＲ神经控制接口ＯＲ直接神经接口）ＯＲ（（“ｂｒａｉｎｃｏｍｐｕｔｅｒ” ＯＲ “ ｂｒａｉｎ－ｃｏｍｐｕｔｅｒ” ＯＲ “ ｂｒａｉｎｍａ?ｃｈｉｎｅ” ＯＲ “ｂｒａｉｎ－ｍａｃｈｉｎｅ” ＯＲ “ｎｅｕｒａｌｃｏｎｔｒｏｌ” ＯＲ“ｍｉｎｄｍａｃｈｉｎｅ” ＯＲ “ｄｉｒｅｃｔｎｅｕｒａｌ”）ＡＮＤ（ｉｎｔｅｒ?ｆａｃｅ? ＯＲｃｏｍｍｕｎｉｃａｔ?）），专利类型限定为发明专利和实用新型专利，检索日期为２０２３年５月３日，共获得相关专利文献４０６０篇。之后将本研究所需的专利题名、摘要、ＩＰＣ分类号、申请日、权利要求数、公开号等字段信息导出作为初始语料集。在数据预处理阶段，对数据进行清洗和去噪，去除重复专利。少数专利的摘要字段缺失，对此采用简单同族专利的摘要替代，并利用翻译软件对部分仅有外文摘要的专利进行处理，统一为中文摘要。经过预处理之后共获得３９２７篇专利文献，以此作为最终的语料集。

形成语料集后，因分词处理需要加载专业领域词典，但目前并没有“脑机接口” 领域的专门词典。“脑机接口” 具有交叉学科研究的特性，涉及生物医学工程、电子、材料、信息技术等多个学科。因此，本研究获取了“脑机接口” 研究论文中的关键词，结合神经病学、人工智能以及微电子等领域的现有词典，人工构建了“脑机接口” 领域词典，共包括５５８６个词。

３.２ “脑机接口”领域高价值专利识别

３.２.１技术主题新颖性指标测度

根据本研究設计的高价值专利评估指标体系，专利技术主题新颖性需要计算关键词的早期出现率与关键词相似度。由于专利文本缺少作者标注的关键词集，本文采用ＫｅｙＢＥＲＴ模型从标题和摘要中进行提取。ＫｅｙＢＥＲＴ是一种易用的关键词提取模型，原理是利用ＢＥＲＴ嵌入来创建与文档最为相似的关键短语。在关键词提取过程中，将专利的标题和摘要拼接为ＴＩＡＢ字段，利用加载了自定义词典的Ｊｉｅｂａ进行分词处理，词嵌入模型选择“ｐａｒａ?ｐｈｒａｓｅ－ｍｕｌｔｉｌｉｎｇｕａｌ－ＭｉｎｉＬＭ－Ｌ１２－ｖ２”，超参数设置为ｕｓｅ＿ｍｍｒ＝Ｔｒｕｅ，ｄｉｖｅｒｓｉｔｙ＝０４，ｔｏｐ＿ｎ＝６，即每个专利抽取６个关键词，抽取结果示例如表１。提取关键词之后，按照式（１）计算指标Ｘ１（关键词早期出现频率）的得分值。指标Ｘ２采用余弦相似度计算，词向量模型同上。需要特别说明的是，本研究对技术主题新颖性的度量是与先前专利对比实现的，而获取的专利数据集最早年份为１９８６年，最早的专利没有对比项，鉴于２００３年以前的专利数不足３０篇，因此在进行专利价值评估时仅计算２００３年以后的专利。

３.２.２专利价值综合评估

除技术主题新颖性指标以外，技术覆盖范围、技术投入、专利权利和市场前景维度的指标均可从ｉｎｃｏＰａｔ数据库中直接获取。之后，利用Ｃｒｉｔｉｃ赋权法对６类指标进行加权，在计算综合得分时采用百分制。表２呈现了部分专利６个指标的初始分值和专利价值的综合得分。按照综合得分值降序排列，筛选出高于平均值的专利，即高价值专利共２５００个。

３.３ “脑机接口”领域高价值专利知识图谱构建

３.３.１确定实体及关系类型

有研究总结了专利摘要包括的一般内容，主要有技术的新颖性、技术功效、用途、详细描述等，涉及对技术结构、应用领域、性能提升情况、关键组成部件等技术特征的概括说明［４３－４４］。本研究以此作为依据，结合“脑机接口” 领域专利摘要中涉及的专业术语及语义关系对需要抽取的实体与关系类型进行定义，考虑到后续技术创新演化分析需要时间要素，因此将专利申请年作为了实体类型之一。共归纳出１２类实体和１２类关系，具体如表３所示。这些实体及关系类型是“脑机接口” 领域的专利摘要中普遍存在的，而非所有的。

３.３.２数据标注与知识抽取

训练ＣａｓＲｅｌ深度学习模型需要先对原始的部分数据进行标注，利用训练好的模型抽取未标注数据中的实体及关系。本研究在识别出２５００篇高价值专利之后，对其摘要进行分句，清洗重复句后共获得２８９００多条句子。从中选取２０００条数据进行人工标注，标注工作由１名情报学博士生和１名医学信息学博士生完成，之后邀请领域专家核对。需要特殊说明的是，实体关系类型“专利本身—申请于—申请年” 不需要预先标注和抽取，因为申请年字段可从专利数据库中直接导出。最后，人工标注的数据以Ｊｓｏｎ格式存储，具体如表４所示。

模型训练的实验环境配置为：在ＧｏｏｇｌｅＣｏｌａｂ平台上配置Ｔｏｒｃｈ２０１＋ｃｕ１１８、Ｔｅｎｓｏｒｆｌｏｗ４１８０、ｆａｓｔＮＬＰ０７、Ｐｙｔｈｏｎ３１０环境。训练时，将标注好的数据以６ ∶２ ∶２的比例划分为训练集、验证集和测试集，实验参数设置为：ｍａｘ＿ｅｐｏｃｈ＝５０、ｂａｔｃｈ＿ｓｉｚｅ＝４、ｌｅａｒｎｉｎｇ＿ｒａｔｅ＝１ｅ－５、ｍａｘ＿ｌｅｎ＝２００。模型训练的最优结果为Ｆ１值达到０８１、准确率为０８１、召回率为０８０。最后，用训练好的模型抽取未标注的句子中的三元组，并进行人工校对。

３.３.３知识融合与存储

利用ＣａｓＲｅｌ深度学习模型抽取完三元组之后，需要对实体进行对齐，参考专业词典将同一实体的多种表述（如“ＥＥＧ信号” 与“脑电信号”）进行统一。基于表３定义的实体关系类型，共获得１０３５８个三元组。之后，将融合后的三元组存储到Ｎｅｏ４ｊ图数据库中。需要特殊说明的是， “专利本身” 这个类型的实体指代的是整个专利，从句子中抽取三元组时，该实体一般为“本发明” “本申请” “本实用新型” 等。如果直接导入图数据库会导致无法区分每个专利，如果用标题和摘要作为节点内容过长，因此这里采用序号指代不同的专利。图３是所构建的高价值专利知识图谱的局部示意图。

３.４ “脑机接口”领域高价值专利的技术创新演化

本研究识别出的“脑机接口” 领域高价值专利的申请年分布在２００３—２０２３年。脑机接口技术形成于２０世纪７０年代，１９９９年和２００２年两次ＢＣＩ国际会议为脑机接口技术的发展指明了方向。２０００年以后脑机接口进入技术爆发阶段，２１世纪前十年发展成为一个研究领域，涌现出多种新型的脑机接口实验范式。２０１０年以后脑机接口研究的规模急剧扩大并渗透至其他领域［４５］。２０１６年该领域又取得了几项重大突破，出现了第一个有触觉的可灵活控制机械手臂的人脑控机器人［４６］，瘫痪患者用ＢＣＩ＋ＶＲ实现行走［４７］，脑机接口技术迎来新的发展高潮。根据其发展历程及关键转折点，在技术创新演化分析时划分为３个阶段，分别是２００３—２００９年、２０１０—２０１６年、２０１７—２０２３年。技术创新演化分析的维度从粗粒度到细粒度，包括主题维度、专利本质维度、应用领域维度、方法／技术维度、解决问题维度以及其他维度（性能优势、硬件（组件）维度等）。

３.４.１ “脑机接口” 领域高价值专利的“技术主题” 创新演化

在构建的“脑机接口” 领域高价值专利知识图谱中，序号指代的是专利本身。针对专利本身可以先从粗粒度的技术主题角度分析演化趋势。本研究利用Ｂｅｒｔｏｐｉｃ主題模型，基于高价值专利的标题和摘要对３个时间段的专利主题进行识别，并利用余弦相似度计算相邻时间段的主题间的相似度，绘制技术主题演化的桑基图，如图４所示。该图中，相邻主题间连线越粗，主题相似度越高。从图中可以看出，随着时间的推移“脑机接口” 领域的技术主题越来越多样化。而关于“脑机接口改进与优化” “脑电信号处理方法” “脑机接口在辅助运动与康复中的应用” “用户神经状态监测” 等的研发始终是领域关注的重点。在２０１０年以前脑机接口领域重点关注基础原理以及技术框架研究，集中于脑机接口装置和脑波信号基本处理技术等主题。２０１０—２０１６年间，技术研究更加深入并逐渐开始涉及临床应用，脑机接口系统优化、脑机接口技术在诊疗与康复干预中的应用，以及对多类脑电信号的深度处理等主题成为重点。２０１７年以来，人工智能、虚拟现实、增强现实等技术的发展为脑机接口技术的进步注入了新的动能，基于机器学习、智能算法、无人机、ＶＲ等的脑机接口技术研发、实际应用与产业化等相关主题的研究激增，主题更加多样化并呈现跨领域特性，如脑机接口与无人机设备的结合、脑信号用于认知任务等。

３.４.２ “脑机接口” 领域高价值专利的“专利本质” 创新演化

本研究中的“专利本质” 是指专利的实质，具体体现为系统、方法或装置。该维度的技术创新演化分析主要是为了了解在不同阶段“脑机接口”领域研发的重点对象是什么，随着时间推移呈现何种发展态势。分析过程中，利用ｎｅｏ４ｊ的查询语言进行条件查询。比如，构建查询语句：ｍａｔｃｈ（ｎ：‘专利序号）－［ｒ：‘申请于］－＞（ｐ：‘申请年），（ｎ）－［ｓ：‘是］－＞（ｍ：‘系统／方法／装置）ｗｈｅｒｅｐ．ｎａｍｅ＝ ‘２０１０ｏｒｐ．ｎａｍｅ＝ ‘２０１１ｏｒｐ．ｎａｍｅ＝‘２０１２ｏｒｐ．ｎａｍｅ＝‘２０１３ｏｒｐ．ｎａｍｅ＝‘２０１４ｏｒｐ．ｎａｍｅ＝‘２０１５ｏｒｐ．ｎａｍｅ＝‘２０１６ｒｅｔｕｒｎｎ，ｓ，ｍ，可获取第二个阶段专利本质的实体及关系，图５为局部示意图。

在知识图谱中检索３個阶段的“系统／方法／装置” 类型的实体之后，分别进行人工归纳，总结出每个时间段主要的“专利本质”，演化路线如图６所示。从图６可以看出，２０１０年以前“脑机接口” 领域的研发重点是脑机接口的装置、控制系统与方法、脑波信号检测和处理的系统与方法；随着各项技术的发展，研发对象趋向多样化和细分化，脑机接口系统的类型逐渐增多，且不仅局限于脑机接口系统本身的开发，还涉及应用脑机接口技术的各领域系统的研发，如智能家居的控制系统。近年来， “脑机接口” 领域的研发对象更是拓展至无人机模拟训练系统、车辆控制方法和系统等。从方法研究来看，早期注重对脑机接口控制和实现方法的探索，之后越来越侧重于脑机接口的应用与优化方法。

３.４.３ “脑机接口” 领域高价值专利的“应用领域” 创新演化

基于所构建的知识图谱，可通过条件查询分别获取３个阶段的“专利本身—应用于—应用领域”三元组。比如，构建查询：ｍａｔｃｈ（ｎ：‘专利序号）－［ｒ：‘申请于］－＞（ｐ：‘申请年），（ｎ）－［ｓ：‘应用于］－＞（ｍ：‘应用领域）ｗｈｅｒｅｐ．ｎａｍｅ＝‘２０１７ｏｒｐ．ｎａｍｅ＝ ‘２０１８ｏｒｐ．ｎａｍｅ＝ ‘２０１９ｏｒｐ．ｎａｍｅ＝‘２０２０ｏｒｐ．ｎａｍｅ＝‘２０２１ｏｒｐ．ｎａｍｅ＝‘２０２２ｏｒｐ．ｎａｍｅ＝‘２０２３ｒｅｔｕｒｎｎ，ｓ，ｍ，返回结果（局部）如图７所示。

在获取３个阶段“应用领域” 类型的实体之后，分别进行分类、归纳，总结出每个时间段脑机接口技术的主要应用领域，结果如表５所示。

从表５可以看出， “脑机接口” 技术的应用范围不断扩大，从前期主要用于医疗领域的患者状态检测、康复训练、辅助交流，到中期用于外部设备控制、娱乐和辅助睡眠、交通领域等生活场景中，再到近年来延伸至航空航天模拟训练、教育、科研、ＡＲ／ＶＲ设备应用等更广泛的领域中。说明“脑机接口” 作为前沿科技交叉融合领域，应用前景非常广阔。

３.４.４ “脑机接口” 领域高价值专利其他维度的创新演化

将“脑机接口” 领域高价值专利在“方法／技术” “解决问题” “性能／优势” “组件” 等维度的技术创新演化总结为图８。从“方法／技术” 维度来看，主要呈现“传统生物信号处理方法—机器学习方法与虚拟现实技术—深度学习方法与增强现实及混合现实技术” 的发展趋势；从“方法／技术—处理—生物信号” 关系类型来看，随着技术方法种类的增多和智能化，所处理的生物信号更加精细和多样，如瞬态ＥＥＧ信号、多通道运动想象脑电信号、脑电肌电双模态信号等；从“解决问题” 维度来看，前期较为关注功能性问题，到后来重视技术问题、效果和效率问题，而近年来“人机交互体验” 问题逐渐成为重点；从“性能／优势” 维度来看，简单、可靠、方便使用一直是专利研发追求的目标，中期开始从使用者角度改进脑机接口的性能（比如减少受试者疲劳），近年来又逐渐兼顾医护人员的体验，以及除了功能和操作性能以外的趣味性，逐渐体现人文关怀的特点；从组件构成来看，设备更加多样化、便携化，除了脑电采集设备以外，越来越多地涉及一些外控外联设备。

４研究结论

本研究以“脑机接口” 领域的专利文献为例，构建了反映专利价值的多维指标体系以识别高价值专利，进而构建“脑机接口” 领域的高价值专利知识图谱，在此基础上从技术主题、本质、应用领域、方法、解决问题、性能优势、组件等维度分析了技术创新演化态势。研究主要得出以下结论：

设计的高价值专利筛选指标具有侧重性与合理性，通过实证检验与专家评价验证了技术新颖性指标计算方法的优越性以及整套评价指标体系的可用性，使后续的高价值专利技术创新演化分析具有可靠性。

知识图谱能够深度、直观、细粒度地揭示专利文献中的技术特征，从而为技术创新演化分析提供了更多维的视角，使得分析的层次更加深入，有助于为研发者、政策制定者、科技战略制定者提供更具体的参考。

基于研究结论，本文提出以下建议：在现有的专利数据库中，参考本研究设计的高价值专利评估体系及知识图谱构建方法，嵌入高价值专利自动识别、知识问答和创新情报推送的功能模块。一方面，提供基于知识图谱的智能检索或问答服务，根据用户需求为其返回各个时期特定领域的高价值专利；另一方面，基于知识图谱为用户提供多维度的技术创新演化、专利技术的对比分析、创新情报咨询等各项服务。

本文的创新之处与研究贡献主要体现如下：首先在高价值专利识别的指标设计中，提出了一种测度专利技术主题新颖性的新方法，并与反映专利市场价值和法律价值的其他指标进行组合，形成了多维度的评估指标体系；其次，利用知识图谱提供了更加精细的、多点的、具体的专利技术创新演化分析视角，而非局限于粗粒度的主题分析，能够为研究者提供更加丰富的参考。本研究存在的不足主要体现在：用于识别高价值专利的指标仍有补充的空间，并且仅采用了一个领域的专利文献进行实验，数据的范围和规模都有待扩展。未来将进一步丰富高价值专利筛选的指标体系，选取更多领域、更大规模的数据进行分析，使该方法具有更广泛的适用性。

（责任编辑：郭沫含）