APP下载

国际高价值专利:概念内涵、主题范畴、多维价值指标与评估预测方法综述

2024-12-31陈玉胡泽周西姬

现代情报 2024年8期
关键词:专利价值评估

关键词: LDA 主题模型; 扎根理论; 高价值专利; 热点主题; 专利评估; 专利价值预测

DOI:10.3969/j.issn.1008-0821.2024.08.014

〔中图分类号〕G255.53 〔文献标识码〕A 〔文章编号〕1008-0821 (2024) 08-0153-18

据世界知识产权组织(WIPO)2022 年的年度报告显示, 2007—2020年, 全球专利申请总量从最初的187 万件增长至328 万件, 专利授权量更是实现了两倍以上的增长。至2021 年, 世界各地创新者共提交340 万件专利申请, 同比增长3.6%, 全球有效专利数量在2021 年增长了4.2%, 达到约1 650万件。然而专利申请与授权数量的激增必然会导致专利质量人工审核和评估的困难, 进而导致专利质量的下降。因此, 从海量专利中自动识别高价值专利具有重要的理论与实践意义, 有效的专利评估和高价值专利识别可以为企业专利申请、技术布局、技术投资与并购决策提供知识与情报服务, 有助于企业降低专利申请及维护成本、最大化专利商业利润, 是企业快速捕捉最先进技术趋势、开发创新产品, 形成以高价值专利为核心的专利组合培育体系, 巩固企业核心竞争力的关键。同样, 政府可以制定其科技政策, 以增加国家竞争力, 刺激经济增长。

专利多维价值和质量评估[1-2] 、高价值专利识别与预测[3-4] 、新兴技术和颠覆性技术预测[5-6] 、领域技术热点与前沿主题分析[7] 等高价值专利相关研究问题已经成为学术界和实践者关注的焦点话题。国内外学者对于高价值专利的研究已经进入成熟阶段, 大量研究人员持续不断地关注高价值专利识别与预测研究过程中的新问题、新理论和新方法,涌现出大量相关研究文献[8-10] 。尽管部分学者已经对高价值专利研究热点与前沿进行了可视化图谱分析和归纳总结[11-13] , 然而针对国际高价值专利研究的热点主题范畴识别与扎根理论研究论文极少。基于此, 本文基于Web of Science 数据, 融合LDA主题模型和扎根理论方法对国际高价值专利研究进行领域热点主题的自动识别, 并利用扎根理论对研究主题范畴进行三级编码, 总结归纳国际高价值专利研究领域的热点主题范畴并进行综述, 为高价值专利的识别与预测研究实践提供参考借鉴。

1数据与方法

1.1 国际高价值专利研究文献数据与发展态势

本文为了对国际高价值专利进行分析, 运用专业检索式TI = (highly cited patent) OR TI = (highvalue patent) OR TI = (high-value patent) OR TI =(high quality patent) OR TI = (high-quality patent)OR TI=(promising patent) OR TI=(core patent) ORTI=(important patent) OR TI=(patent value) OR TI=(patent quality)检索Web of Science 数据库, 时间截至2022 年, 共检索到765篇期刊文献。

根据国际高价值专利的研究发展态势, 将国际高价值专利研究划分为3 个阶段。第一个阶段是1906—2005 年, 该阶段是国际专利价值研究的起步阶段。2005年国际专利申请数量已经达到13 万件,但是研究人员还未意识到专利质量的重要性, 年发文量均小于10 篇, 仅仅从专利的经济价值、法律价值进行探讨, 主要研究专利保护权的私人价值。2006—2017 年, 专利价值分析进入成长期。每年申请的专利数量大幅度上涨, 仅2017 年国际专利申请数量就已经达到24 万多件, 约是2005年申请数量的两倍。此时注意到由于专利数量激增导致的专利质量下降问题, 进而开始对专利质量的影响因素、专利价值评价指标、专利价值评估等展开研究, 研究方法也从主观评价逐渐向机器学习转换, 文献数量呈渐进式增长趋势。2018—2022年, 专利价值的研究进入成熟期。国际专利申请数量高达135万件,专利数据库规模日益扩大, 亟需从海量专利数据中筛选高价值专利。而且前期对专利质量以及专利价值的研究为该阶段的研究进展奠定了基础, 使得越来越多的研究人员投入高价值专利的研究中。故高价值专利研究发文数量稳步上涨, 发文数量高达313篇, 研究领域开始逐渐转向对高价值专利的研究。

1.2 研究框架与方法

1.2.1 研究框架

本文从国际高价值专利研究文献数据入手, 首先展示了国际高价值专利研究的发展态势及研究进展, 然后综合使用LDA 主题模型和TF-IDF 算法识别出国际高价值专利研究的热点主题, 并借助扎根理论对国际高价值专利研究热点主题进行三级编码,归纳总结国际高价值专利研究的热点主题范畴并进行扎根理论综述, 论文整体研究框架如图2 所示。

1.2.2研究方法

1) 数据预处理方法

采用Web of Science 数据库中的国际高价值专利研究论文数据, 通过专业检索式检索到765 篇论文, 使用Python 工具进行数据预处理。首先, 调用Pandas 包对数据中摘要列为空的行进行删除, 保证后期数据的完整性, 处理后文献总数为682 篇; 其次, 提取标题以及摘要列, 调用正则表达式、Jieba数据包对提取的数据进行规范化、去停用词操作。停用词表根据文本内容进行构建, 包含无意义的连接词、介词、感叹词、人称代词以及名词缩写等;最后, 对清洗后的数据构建词袋: 使用Sklearn 中的CountVectorizer 将单词转化为频次数组, 再使用Toarray 方法完成特征维度的构建。

2) TF-IDF算法

TF-IDF 算法: 词频—逆文本频率, 是一种能够准确提取文本关键词的算法。该方法经常被用于数据挖掘、文本处理、信息检索等领域。TF-IDF 算法的内涵如下:

TF(Term Frequency)指的是某个词项在一个文档中出现的次数。其反映出该词项在该文档中的重要性, 出现的次数越多则该词项在该文档中越重要。但是, TF 无法反映出该词项在整个语料库中的重要性。其计算公式如式(1) 所示:

IDF(Inverse Document Frequency)指的是逆文档频率, 是指在语料库中出现过某个词项的文档数的倒数。当一个词项在很多文档中都出现, 则IDF 值较低, 说明该词项并不特别突出。反之, 当一个词项只在很少的文档中出现, 则IDF 值较高, 说明该词项比较重要。计算公式如式(2)、式(3) 所示:

综上所述, TF-IDF 算法把一个词项在文档中出现的频率和该词项在整个语料库中出现的文档频率的倒数相乘, 得到该词项对于该文档的重要性评分。因其可以对获取到的所有文献进行词频权重分析, 并提取其中权重较高的特征词, 进而可以过滤掉文本中常见但没有实际意义的词语, 保留对文本具有影响力的词语, 所以TF-IDF 算法比普通的词频统计法得到的结果更加准确、客观。

3) LDA主题模型

潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)是Blei D M 等[14] 提出的一种对文本主题进行建模挖掘的概率主题模型。其由三层贝叶斯组成,分别是文档层、主题层、特征词层, 具有清晰的层次架构[15] , 其结构如图3 所示。LDA 主题模型能够利用无监督学习技术将大量文本数据转化为一组主题, 并确定每个文档在这些主题中的分布情况。其基本思想是假设每个文档包含一组潜在的主题,且每个主题都由一组单词构成。同时, 假设一篇文档中的单词由这些主题以一定的概率组合而成, 进而通过统计单词在不同主题中出现的概率来确定文档的主题分布情况。通常被用来识别大量文档集或语料库中潜在的主题信息, 可以对文本数据进行有效降维和挖掘潜藏主题信息[16] 。LDA 的概率模型如图4所示。

图4 中K 代表主题数量, M 是语料集中文档的数量, N指第m 篇文档的总词汇量, α 是主题的先验概率, θ 代表第m 篇文档主题多项式概率分布, β 是词汇的先验概率, φ 代表第k 个主题的词汇多项式概率分布, zm,n 代表第m 篇文档的第n个词的主题, wm,n代表第m 篇文档的第n 个词。

LDA 主题模型生成文本的过程: ①从狄利克雷分布α 中取样生成文档m 的主题分布θ ; ②从主题的多项式分布中取样生成文档m 第n 个词的主题zm,n ; ③从狄利克雷分布β 中取样生成主题对应的词项分布φ ; ④从词项的多项式分布中取样最终生成词语wm,n

4) 主题强度

主题强度是描述主题在一定时段内受关注程度的指标, 在某个时段内包含该主题的文档数目越多,则其主题强度越大, 越有可能认为其是热点主题[17] 。基于LDA 主题建模分析的高价值专利文档—主题概率矩阵, 获得每篇文档属于每个主题的概率, 将所有的主题概率进行加总求平均值, 作为反映主题强度大小的指标。

5) 扎根理论

扎根理论是由社会学家Glaser B 和Strauss A 于1967 年在专著《扎根理论之发现: 质化研究的策略》中提出的一种自下而上的建构方法, 其主要研究原理是研究者直接带着研究问题从原始资料中归纳出概念和命题, 进而上升到理论。主要研究程序包括开放式编码、主轴式编码、选择式编码、理论建设这4 个步骤, 循序渐进地对资料集进行概念归纳。扎根理论的三级编码步骤如表1 所示。

2高价值专利相关概念

2.1专利价值与专利质量

专利价值的概念最早起源于Sanders B S 等[21]在1958年开展的一项问卷调查, 其向1220项专利转让人发送问卷调查表, 研究发现75%的专利具有经济价值, 而且每项专利的净收益相当可观。在此基础之上, 专利价值受到广泛关注, 研究者开始加入到专利价值研究领域中。但是专利价值的衡量具有很大的难度, 研究表明专利价值分布具有严重的偏差, 有很长的右尾, 即大多数的专利没有价值或价值很小[22] 。专利价值最初的衡量方法依赖于专利续期数据, 支付续展费以保持专利“生命力”的义务意味着专利持有人将专利保护延长一年的成本很高[23] 。因此, 大多数专利在法定有效期结束前不会续期, 例如, Schankerman M 等[24] 在德国、法国和英国颁发的专利中研究发现, 只有大约10%的专利在整个法定有效期内“有效”。Wolber W G[25]认为, 专利价值可能是申请专利给企业带来的利润以及国家知识产权利益, 还有就是专利知识产权到期后产生的社会利益。Trajtenberg M[26] 将专利发明的价值进行了界定, 认为专利价值包含私人价值和社会价值, 私人价值是指为其所有者增加的财产收入, 而社会价值是专利为社会创造的价值。早期专利价值主要指专利的垄断性和创造性给专利授权人带来的经济价值。随着技术创新地位的提高, 专利多维价值开始受到学者关注和研究, Wang B 等[27]将专利价值概括为三大类: 专利战略价值、专利保护价值和专利应用价值。综上所述, 专利多维价值主要包含技术、法律、市场、战略、经济价值这五大类。

专利质量的概念由世界知识产权组织(WIPO)专利法常设委员会于2017 年明确界定, 认为专利质量一方面是指专利的文件质量用于阐述创新发明技术的创新性和应用价值; 另一方面是指专利的授权质量, 主要用以检验专利申请、授予、公开等过程[28] 。专利价值和专利质量是密切相关的, 专利质量是指专利文件技术水平的高低、技术先进性和可实施性, 而专利价值则是指该专利对于持有人或市场的商业、技术或法律价值。专利质量高的专利往往具有更高的专利价值, 因为它们比其他专利更具有技术先进性、可实现性和商业价值, 对于公司的收入和市场地位会产生更积极的影响。一般来说,优质的专利具有更高的专利价值, 而低质量的专利则可能不具备商业化的应用前景, 因此其专利价值也低。综上, 专利质量是保证专利价值的基础。

2.2 高价值专利内涵

高价值专利是指具有高度创新性或技术含量、有利于推动科技进步、在经济上具有重要价值并能够在国际范围内有效维护权利的专利。它们通常是在市场或产业竞争中起到重要作用的专利, 因此也被称为“核心专利” 或“战略专利”。专利的高价值主要体现在以下3 个方面: 技术先进性[29] 、法律权利要求[30] 和市场竞争力[31] 。孙智等[32] 认为,高价值专利主要指技术创新水平高、法律权利稳定、市场前景良好的专利。李睿等[33] 认为, 高价值专利应该反映企业的战略布局, 是使企业拥有高产品竞争力、市场份额和利润创造力的专利。对于高价值专利, 其技术、法律、市场价值相互影响, 技术价值是市场价值的重要基础, 法律价值是市场价格的必要保障, 从而通过良好的市场机会最终体现为高市场价值[10] 。因此, 高价值专利是指具有高技术、法律和市场价值。

高价值专利的特点主要包括4 个方面: 第一,高价值专利具有创新性, 通常涉及前沿技术或者新颖的发明创造。这些发明具有代表性, 符合国际上的技术发展趋势, 并且在该领域具有显著的技术优势。第二, 高价值专利具有专业性, 需要经过专业的审查、验证和认证。这些专利应具有独特性、非显而易见性以及实用性等特征, 符合国际上的法律规定。第三, 高价值专利具有经济性, 在经济上具有战略意义, 能够有效地促进产业和市场的发展。它们往往涉及高附加值的产品和服务, 具有较高的商业利润和价值。第四, 高价值专利具有维护性,其在国际范围内能够得到有效的维护和保护。这些专利应该在技术含量、专利文本和权利保护等方面具有强大的法律支撑, 并且能够在国际专利争议中获得胜诉。总之, 国际高价值专利不仅是科技创新的重要成果, 也是国际产业竞争的重要资产。这些专利在保护知识产权、促进科技进步、推动经济发展等方面具有重要作用, 因此被视为企业实施技术战略的关键之一。同时, 也进一步说明了高价值专利具有高技术、法律、市场价值。

3国际高价值专利研究热点主题识别

3.1最佳主题数

目前较为常见的主题确定方法有主题困惑度(Perplexity)和主题一致性(Coherence)方法。主题困惑度是用来衡量主题模型对于新文本的预测效果, 即对于从未见过的文本数据进行主题预测时的准确性和复杂度。因此, 主题困惑度指标更重要的是用于比较不同LDA 模型或不同LDA 参数下, 同一个数据集的好坏。相比之下, 主题一致性指标是用于衡量主题模型内部的一致性和解释性, 它通过计算主题下相关词语之间的相似性来评估主题的质量。因此, 主题一致性指标更注重“解释性”, 能够解释哪些主题更有意义, 更容易理解, 并且也可以帮助对模型中每个主题的识别和标注, 该方法更多地考虑了主题上下文之间的语义关系。基于此,本文使用主题一致性(Coherence)方法确定主题数量。如图5 给出了设定不同主题数量与Coherence大小的关系, 当聚类主题数为7 时一致性最高, 即将主题数量设定为7。同时调用Ldamodel 函数进行主题挖掘, 并进行参数设置: 主题数为11, 迭代次数100, 主题词上限为10。然后使用pyLDAvis将主题识别结果进行可视化, 如图6 展示了主题数量为7 时的聚类效果。

3.2主题识别

使用LDA 主题识别方法, 识别出国际高价值专利研究文献的主题范畴, 采用Gensim 包对文献摘要以及标题数据进行聚类, 构建主题模型。此外,为了剔除文档中无意义但占比较大的词项, 文章引用IF-IDF 算法提取关键词, 使得构建的主题模型更加精确。如表2 所示,LDA 主题模型提取的主题词, 依据主题词以及对专利文献的总体贡献, 对主题进行总结归纳, 得到国际高价值专利的研究主题主要包括以下7 个方面: 专利组合能力、专利价值评估、临床药物市场应用、核心专利价值预测、医学健康评估、专利法律价值以及药品许可标准。但是仅仅依靠LDA 主题模型提取出的主题无法判断哪些是热点主题, 因此需要引入专利主题强度识别热点主题。

3.3热点主题识别

根据LDA 主题模型形成的“文档—主题” 概率分布得到文档属于各个主题的概率, 用以计算主题强度, 根据式(4) 计算得到每个主题的主题强度, 并且使用式(5) 计算主题阈值, 用以识别热点主题。热点主题识别结果如表3 所示。根据表3可知, Topic3 和Topic1 是高价值专利研究中的热点主题, 分别为专利价值评估和核心专利价值预测。专利价值评估是国际高价值专利研究的高频热点,主要包括专利多维价值指标体系的构建、专利价值的评估方法以及专利质量的影响因素这3 个不同层次的研究分析。核心专利价值预测是近几年的研究热点, 因专利数量的激增, 亟需从海量专利中识别有价值的专利, 来帮助预测新兴技术进而推动科技高质量发展。

4国际高价值专利研究热点主题综述

4.1扎根理论三级编码

为了更加深入地分析国际高价值专利研究主题范畴, 本文通过LDA 主题分析模型进行主题挖掘,将主题词进行整合、凝聚后, 再次选取相关主题样本数据, 运用扎根理论搭建理论框架, 全面解读国际高价值专利的热点主题范畴及进展。通过NVivo工具对LDA 主题模型提取出来的国际高价值专利研究热点主题进行三级编码。选取进行扎根编码的样本数据导入到NVivo 中, 对样本数据进行自动编码,但是由于编码后主题数量较多, 需要对主题进行筛选, 找到研究所需主题, 再对筛选后的主题进行下一步的处理, 即选择每个主题的代表性语句。完成对主题的开放式编码后, 需要对主题的主轴式编码和核心式编码进行完善, 因为自动编码还存在着一定的语义缺失。通过人工对编码进行重命名, 达到最优的编码效果。

4.2专利价值评估

如表3 所示, LDA 主题模型提取出来两大类研究热点主题: 专利价值评估和核心专利价值预测,选取具有代表性的论文进行扎根分析。针对第一个热点主题专利价值评估, 从专利多维价值评价指标、专利价值评估方法以及专利质量影响因素3 个方面进行扎根综述。

4.2.1专利多维价值评价指标

专利数据库的规模越来越大, 且专利价值分布具有长尾特征, 属于典型的马太效应, 即只有极少部分的专利给专利权人带来高额回报[22] 。因此, 亟需对专利多维价值进行识别, 对专利多维价值评价指标的扎根结果如表4 所示。专利多维价值评价指标是对专利进行价值评估的基础, 只有构建合适的多维价值评价指标体系, 才能够有效地评估专利价值。

由表4 可知, 当前专利多维价值评价指标主要涉及专利的法律价值、技术价值以及竞争价值。其中, 对于专利的法律价值: 专利家族规模与专利的存续时间高度相关, 高额的专利申请和维护费阻碍了公司的多个国家申请和更新专利, 因此拥有较多的专利家族数量通常表明该项技术发明不仅具有较为广泛的应用领域, 而且在技术上具有一定的创新性和领先性[45] 。此外, 专利家族的规模与专利保护权呈正相关, 专利家族的规模越大, 专利权和侵权诉讼的法律保护就越强[35];专利权力要求是衡量专利法律价值的基本单位, 其包括对发明的法律定义,给予了受法律保护的专利所有权[49];在反对和撤销程序中得到支持的专利尤其有价值, 平均8%的欧洲专利局专利遭到反对,14%的专利被撤销。Merges RP 等[50] 认为, 欧洲专利局的反对制度似乎比美国专利商标局的复审程序更频繁地使用, 因此在淘汰薄弱专利方面可能更有效。

对于专利技术价值: 专利第一次被引速度表明了专利的创新性。研究表明, 专利第一次被引用的速度越快, 专利的价值越高[51];IPC 分类号体现了专利的技术领域, 展现了专利技术特征的多样性。因此, 一项专利的IPC 数量, 表明该专利的技术多样性以及重要性[39];专利说明书的撰写质量与专利申请人的起草风格以及申请策略紧密相关。专利说明书是申请人在申请专利时必须提交的文件, 其中包含完整的发明技术说明、权利要求范围等信息,展示了专利最有价值的部分, 因此专利说明书的长度以及质量会影响专利价值; 对于专利续期指标,只有保证专利在经济上有利可图的情况下, 理性所有者才会更新专利[52], 所以专利续期指标能够有效地评估专利的技术价值; 参考文献的质量以及数量在一定程度上影响了专利的质量, 专利的发明通常是在前人的基础上进行的, 可见参考文献的数量是影响专利价值的一个重要因素。

专利竞争价值的评价指标有专利引证指标以及团队规模。其中, 引证指标是专利评价最常用的指标, 其通过检索专利被他人引用的次数来评价专利价值, 特别是其在技术领域中的影响[53] 。石静等[54]研究发现, 专利的引用数据特征对科学指数的采纳有显著影响。专利被引的次数越多, 表明研究者对该专利的认可程度越高, 进而专利在市场上的竞争力越高; 对于团队规模, 专利发明人的数量体现了专利的创新性, 专利发明人的数量越多, 组织内的水平就越高, 专利研究和开发的知识基础就越夯实,因此专利具有更大的竞争潜力[55] 。已有研究表明,技术团队的知识多样性可以显著提升技术团队的创新绩效[56] 。较多的专利权人在一定程度上表明专利具有较好的投资、维护和运营状态, 有利于专利价值的持续实现。综上所述, 专利价值评价指标涉及多个维度, 因此在对专利价值进行评估时, 应综合考虑多维度的专利价值评价指标。这些指标涉及专利的市场价值、法律价值、技术价值3 个方面, 可以根据研究方向有针对性地选择专利价值评价指标。

4.2.2专利价值评估方法

为了从海量专利中识别有价值的专利, 研究者提出了许多用于评估专利价值的方法, 具体的方法如表5 所示。

根据表5 可知, 当前国际用于专利价值评估的方法有很多种, 传统的研究方法包括两种: 第一种是最初对专利价值进行研究的经济学方法, 运用经济学理论, 从市场需求、市场竞争、专利转让等角度出发, 利用经济学模型对专利进行价值评估。主要代表有实物期权法、成本法、市场法、收益法。成本法是用重置成本减去损耗来评估专利价值, 该方法往往会低估专利价值; 市场法是利用同类专利技术的市场价值来评估专利价值的方法, 但是受限于专利之间的不可比性; 收益法则将评估对象的预期收益折现为专利价值, 但是需要估算折算率等参数, 估算容易出现偏差[59] 。实物期权法是以金融市场中期权的特性来反映进行生产决策时的灵活性,该方法能够较好地考虑市场的动态性和专利决策的选择权价值, 预测结果更为合理准确, 但是计算公式复杂, 参数估计偏主观性[69] 。后期大多数采用另一种研究方法即专家评估法, 例如, 层次分析法、模糊综合评价法、德尔菲法等方法, 该方法基于专家经验, 根据专利评价指标对专利进行价值评估,具有较强的主观性。层次分析法的基本思想认为,复杂问题是由多个因素组成的, 通过两两比较的方法来确定各组成因素的重要性, 然后基于专家的判断来进行权重的赋值[70] 。模糊综合评价法是基于层次分析法来确定专利价值指标的权重, 然后构建综合模糊评价模型来评价专利价值的方法[71] 。随着对专利价值研究的发展, 研究者大多将研究方法进行两两结合来评估专利价值。

目前, 对专利价值进行评估的主流方法分别是机器学习方法、自然语言处理方法、社会网络分析方法, 这些方法分别从不同的角度入手对专利价值进行评估。最为流行的是机器学习、支持向量机、神经网络、CART 模型和深度学习等机器学习方法,此类方法可以通过训练模型, 从海量专利数据库中识别有价值的专利, 并且能够实现对专利的自动分类[72] 。Ercan S 等[61] 利用机器学习将专利类型自动划分为接受或拒绝, 帮助申请人增加专利授予的可能性。目前的研究热点是通过机器学习方法实现自动评估专利价值, Trappey A J C 等[64] 通过自动选择专利的价值指标, 利用深度神经网络对专利价值进行评估, 解决了基于专家选择专利价值评价指标的主观性。第二种是基于文本挖掘和奇异值分解的自然语言处理方法, 该方法通过挖掘专利文本的语义对专利价值进行评估, 主要应用的领域有图书情报领域。第三种就是基于引文分析方法的社会网络分析方法, 其运用社会网络分析技术, 从专利引用关系网络中提取专利之间的联系, 分析技术领域中的技术交叉和专利密度等指标, 辅助专利价值评估。专利引文网络又可以分为直接引用网络、间接引用网络、耦合引用网络和共引用网络等类型, 目前研究者更倾向于使用综合专利引文网络来评估专利价值, 可以更加全面地梳理专利之间的网络信息流[67] 。经研究发现, 专利价值评估的研究方法已经从过去依靠专家经验的主观性评价方法转向了基于机器学习、文本挖掘以及专利引用网络等方法的自动评估。这些新方法具有更高的识别效率和准确性。

4.2.3专利质量影响因素

专利价值和专利质量之间的关系是密不可分的,专利的质量从根本上决定了专利价值, 但是由于专利申请数量的激增导致审核人员工作堆积, 使得授予专利的质量有所下降。因此, 研究人员逐渐开始研究专利质量的影响因素, 本文从专利质量影响因素入手, 寻找提高专利质量的政策, 帮助提高专利价值。对于专利质量影响因素的扎根结果如表6 所示。

根据表6 可以得出专利质量的影响因素主要包括5 个方面: 第一个影响因素是政策方面, 不同国家(地区)对于申请专利的政策不同, 进而存在着不同的专利审查标准和程序, 这会影响专利的质量和审查结果。同时, 专利促进政策会促进专利申请和批准数量的扩大, 但这会对专利质量产生负面影响[74] 。第二个方面是法律方面, 专利权人获得更广泛的专利权利保护, 有利于提高专利的质量。Fleisher B M 等[81] 认为, 加强知识产权保护对中国全要素生产率(TFP)的增长做出了重大贡献。第三个方面是技术方面, 专利技术水平的高低是专利质量的最直接决定因素, 一方面专利技术水平可以反映出其研究团队的研发能力, 能够确保专利的质量;另一方面技术水平高的专利能够经得起审查, 具有较高的市场价值。专利技术涉及的技术领域展现了专利的创新性, 创新性越高, 专利质量越高[82] 。第4 个方面是人员和组织, 专利申请人或发明人的商业背景、专业领域、知识背景和创新思维能力, 这些因素既影响专利的质量, 也可以评估该专利的商业潜力。同时, 发明人数量与专利价值呈正相关,发明人数量代表了知识的多样性[83] 。此外, 研究团队对于创新和合作的态度也会一定程度地影响专利的质量, 研究人员可以通过合作来获取组织内部无法获取的资源, 进而探索新的机会和解决方案,反过来促进技术上有价值的创新的发展[84] 。第五个方面是经济方面, 专利申请和授予的费用, 专利持有人的经济实力以及专利的商业利用价值等经济因素也对专利的质量产生影响。研究表明, 专利补贴申请费与专利质量呈负相关, 专利补贴费会降低专利的质量。Prud’homme D[85] 认为, 无论是专利申请补贴、货币激励、出口补贴, 还是针对高科技企业的其他优惠待遇, 各种促进专利的法律和政策都不会达到预期效果, 反而可能带来负面后果, 限制专利质量的进一步提高。政府资助政策主要对科研人员收入增加产生影响, 但对科研活动的影响有限。政府资助政策导致了专利申请数量的增加, 但会对专利质量产生负面影响[86] 。

综上所述, 专利质量的影响因素具有多样性,因此在衡量专利质量时应从多方面进行考虑, 不能片面评判。以上陈述的5 个方面又可以从微观和宏观两个视角进行考虑。从微观视角出发, 专利质量的主要影响因素是研发人员的个人能力及其技术水平。从宏观视角考虑专利质量影响因素有国家政策、对专利保护的相关法律法规, 以及政府对于专利申请和授予的经济支持。基于此, 为了提高专利质量,相关部门需要加强对专利知识产权的保护, 适当降低专利补贴费用, 鼓励合作创新。通过提高专利质量, 既可以减少专利申请数量, 缓解审核人员的工作压力, 又可以提高专利的法律价值、技术价值。

4.3核心专利价值预测

当前国内的研究重点已经转移到高价值专利识别与预测领域, 相对而言, 国外对于高价值专利的识别和预测研究起步较晚, 发展较慢。从海量专利中识别出高价值专利有助于新兴技术领域的预测,具有重大的实际意义。一方面, 面对爆发式增长的专利申请与授权量, 新时代知识产权形势下的高价值专利识别与预测研究, 能够促进组织迅速形成以高价值专利为核心的专利价值组合培育体系, 巩固与提升组织的核心竞争力; 另一方面, 研究成果能够有效促进和指导国家知识产权管理与服务部门的精品专利识别应用与推广实践, 极大程度提升专利审查与保护制度的精准监管和有效实施。而且尽早挖掘海量专利申请中的高价值创新发明, 能够充分发挥潜在高价值专利成果的技术价值和科技发展驱动作用。本文对于核心专利价值预测从核心专利特征研究以及核心专利识别方法两方面进行扎根综述。

4.3.1 核心专利特征研究

当前对于核心专利的概念并没有统一的描述,研究者根据构建的核心专利特征识别特定领域内的核心专利, 进而帮助识别新兴技术领域, 对重要技术进行链路预测[87] 。国际对于核心专利特征研究的扎根结果如表7 所示。

国际领域内对核心专利的特征分析主要从专利的新颖性和重要性两个方面展开研究。专利的新颖性主要度量指标有参考文献数量、技术生命周期以及主题活跃度。参考文献数量是反映一项专利新颖性的最佳指标: 如果一项专利的参考文献列表较短[38] , 且主要由科技文献组成, 则其是一项新技术的可能性更大[94] ; 技术生命周期则能够直观反映一项技术的发展脉络。在起步阶段, 技术成分表现不强。在成长阶段, 其在第一阶段遇到的问题已经得到有效解决, 研究进入快速增长, 此时, 专利的创新性得到有效体现[89] ; 主题活跃度是指通过对专利进行文本分析, 挖掘其潜在技术主题, 如果一项技术在现有研究中未被提及或者很少提及, 则该项专利在技术领域内是新颖的[90] 。

专利的重要性主要衡量指标有专利的共现强度、引用次数、PageRank 以及中心性度量。专利的共现强度, 是指利用专利主题共现或者关键词共现等构建共现网络, 进而计算专利的共现强度。共现强度越大, 专利集群占比越多, 在技术领域中重要性越高[91] ; 引用次数是衡量一项专利重要性的最直接指标, 一项专利如果被高度引用, 表明其对于后期技术研发起到奠基作用, 所蕴含的经济价值越高,越有可能成为核心专利[95] ; PageRank 算法最初是由Google 用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度。在专利分析中, 利用PageRank 算法构建网络节点中的PageRank 值字典,可以用于判断节点重要性[96] ; 中心性度量包括专利的中介中心性、度数中心性、接近中心性等指标,常用于识别专利在网络中的地位、对其他节点信息传播的控制能力以及节点信息的传递能力[97] 。Pag⁃eRank 和中心性度量两个指标主要用于衡量专利的影响力, 影响力越大, 专利重要性越高, 成为核心专利的可能性越大。综上, 对于核心专利的特征研究主要侧重于专利的新颖性和重要性两个方面。因技术更新迭代速度较快, 故在识别核心专利时需要考虑其新颖性, 仅考虑专利的重要性可能使识别出的专利不具有时效性。

4.3.2核心专利识别方法

随着机器学习、自然语言处理技术以及社会网络分析方法的成熟, 核心专利识别方法朝着多样化和智能化方向发展。目前, 核心专利识别方法如表8所示。

由表8 可知, 目前国际核心专利识别热点研究方法有机器学习方法、文本挖掘方法以及引文网络分析方法。识别核心专利的机器学习方法主要有支持向量机、关联规则、链路预测、k-means 聚类、神经网络等。利用机器学习技术对大量专利文献数据进行分析, 从中发现高价值专利的规律和特征,但是该方法需要建立高质量的训练集和特征工程,以获得准确的分类和预测结果。Bass S 等[44] 使用朴素贝叶斯、逻辑回归、C4.5、RIPPER、随机森林、MetaCost 与C4. 5、MetaCost 与RIPPER 和MetaCost与随机森林等一系列机器学习技术来寻找最具信息量的因素, 进而区分高价值和低价值专利。

大数据和人工智能快速发展背景下[108] , 文本挖掘技术已经成为当前核心专利识别的重要技术,主要通过对专利文献中的摘要、关键词等内容进行语义分析和文本特征提取, 以识别核心专利。主流的研究方法有基于关键词、主题模型或主体抽取的文本挖掘方法。与传统的数据挖掘分析侧重于结构化数据不同, 文本挖掘分析强调使用大量非结构化文本数据来揭示有意义的知识模式或分类[109] 。ParkH 等[102] 使用TRIZ 演化趋势和基于SAO 的文本挖掘技术来识别未来有前景的技术转移专利。Zhu H等[101] 对专利标题和摘要采用词嵌入技术进行分割和向量化, 然后基于对称层次卷积神经网络对专利进行自动分类。赵雪峰等[110] 利用LSTM-Seq-BERT模型分析专利申请文件, 提高了高价值专利的识别精度。吴柯烨等[111] 将文本挖掘和图神经网络链路预测方法相结合识别技术机会。此外, 有研究者基于文本挖掘构建专利领域的知识图谱, 利用图谱的特性进行高价值专利的识别和预测。知识图谱可以解决专利语义问题和专利信息的互联问题, 提高专利间的链接和可见性。

根据专利之间的引用特征, 构建专利引文网络,用以识别核心专利, 也是目前比较流行的研究方法。该方法可以有效获取特定技术领域内核心专利, 有利于提升技术主题识别的效率和准确性。专利引文网络可以更好地理解一项技术的发展和扩散过程。采用关键节点、核心网络和网络拓扑分析对专利引用网络进行描述, 可以深入了解技术领域、机构和国家(地区)之间的知识转移过程[110] 。李姝影等[105]使用专利引文网络的专利引文强度指标来筛选核心专利数据集, 用以抽取技术特征词, 提高了技术主题识别的效率和准确性。同时, 还存在另外一种观点, Yoon J 等[113] 和Aharonson B S 等[114] 认为, 离群专利技术飞跃的可能性更大, 更有可能是潜在高价值专利, 其专利价值更值得研究。

目前, 国外对于高价值专利的研究主要停留在专利价值的评估阶段, 对于高价值专利的识别和预测研究相对较少。相对而言, 国内对于高价值专利的研究已经进入成熟阶段, 尤其是国家“十四五”规划首次将高价值专利纳入经济发展主要目标的政策出台之后, 大量的学者涌入高价值专利研究领域。国际学者对于高价值专利的研究方法已经进入了成熟阶段, 主要盛行的是使用机器学习、文本挖掘和引文网络的方法, 其中不乏有学者将多种研究方法相结合用以提高识别效率。但是对于专利的研究大多局限于专利摘要和关键词, 只有少数研究采用专利全文内容。因此, 基于专利全文的高价值专利挖掘研究存在较大的发展空间, 需要在今后的研究中进一步完善。同时, 国内外学者也倾向于通过对专利多维价值指标的测度和分析来预测新兴技术领域[104,115] , 有助于企业把握新兴技术发展动态并做出投资决策。

5 结论与展望

高价值专利的识别与预测对技术研发有重要实践意义, 本文结合LDA 主题识别方法和扎根理论对WoS 数据库中的国际高价值专利文献进行了主题范畴的识别与热点研究主题的扎根综述, 归纳出目前国际高价值专利的研究热点主题方向。有助于研究者了解高价值专利概念内涵以及目前国际高价值专利研究热点主题范畴、高价值专利多维价值指标体系、高价值专利识别与预测方法, 进而帮助研究人员快速梳理国际高价值专利研究进展和未来发展方向。

本文采用LDA 主题识别方法挖掘高价值专利文献的热点主题, 结果显示: 目前, 国际高价值专利的研究主题主要集中在专利组合能力、专利价值评估、临床药物市场应用、核心专利价值预测、医学健康评估、专利法律价值和药物许可标准这7 个主题范畴。其中, 临床药物市场应用、医学健康评估以及药物许可标准这3 个主题范畴的高价值专利研究旨在通过技术预测、专利价值识别等方法, 识别生物医药领域的潜在颠覆性技术[93] 。本文利用专利主题强度识别出国际高价值专利研究热点主题为: 专利价值评估和核心专利价值预测这两大类主题。为了对国际高价值专利进行深度剖析, 基于扎根理论对WoS 数据库中的专利文献进行三级编码,进而归纳出目前国际高价值专利的研究热点主题方向。研究发现: ①当前对于专利价值评估主题的研究主要集中在专利多维价值评价指标、专利价值评估方法以及专利质量影响因素这3 个方面。专利价值评价指标主要聚焦法律价值、技术价值以及竞争价值等重要专利价值维度, 对市场价值和经济价值维度的考虑较少。专利质量受政策、法律、技术、经济、人员和组织等多方面综合影响, 需要从不同的角度综合衡量; ②核心专利价值预测的主要研究包括核心专利特征研究与核心专利识别方法。

根据对国际高价值专利的梳理研究发现, 现有研究中存在以下问题: ①专利价值指标的选取受专家主观意向的影响, 现有研究是在研究人员提出的专利多维价值指标体系的基础上实现对高价值专利的评估筛选, 评价指标需要专家的人工筛选; ②传统的专利价值评估方法易受主观因素的影响且识别精度较差; 基于引文网络分析专利价值需要考虑专利的引用时滞, 缺乏时效性; 自然语言处理方法在对文本进行处理时大多仅考虑了专利文本的摘要与标题, 缺乏对专利全文的深度分析; 机器学习方法可以有效实现专利的自动分类, 是目前专利价值评估的主流方法, 但是该方法忽略了专利多维价值指标之间的关联性; ③核心专利特征研究缺乏对核心专利的概念进行规范, 学术界对其概念界限模糊;主要涉及专利的新颖性以及重要性两方面的指标分析, 缺乏多维度、多指标识别体系。

未来研究思路: ①借助机器学习[116] 和自然语言处理等方法实现专利多维价值评估指标的自动测度和提取, 减少专家等主观因素的影响; ②高价值专利识别方法需要突破创新, 打破现有研究现状,可以综合多种方法实现高价值专利的有效识别与预测; ③融合多源数据识别高价值专利, 注意专利文本的完整性和专利文本的语义信息; ④规范核心专利与普通专利界限, 明确核心专利性质类别, 构建核心专利识别多维度指标体系。

猜你喜欢

专利价值评估
专利
发明与专利
一粒米的价值
“给”的价值
评估依据
立法后评估:且行且尽善
最终评估
专利
EMA完成对尼美舒利的评估
节能——环保——专利