专利引文分析应用研究综述

2019-11-23何春辉王孟然

图书情报研究 2019年4期

何春辉王孟然

（1.湘潭大学数学与计算科学学院湘潭 411105；2.长沙县印山学校长沙 410135）

专利引文数据有巨大的商业价值和科研价值，这些引文数据会成为揭示专利信息的有利依据[1-2]。在文献计量学中，通过分析文献的引文情况，可揭示科技体系的内在关联或结构关系[3]。专利文献是传承和保护个人、组织和公司权益的一种重要载体[4]。近年来，随着全球专利申请数量的迅速增长，引文分析已经成为了一种揭示专利知识的重要方法。专利引文分析主要有以下作用：（1）对技术进行评估和识别;（2）通过技术会聚、技术融合以及技术多元化进行分析，实现突破性技术预警和技术预测;（3）对专利进行分类和聚类;（4）对专利的排名以及影响力进行定量计算;（5）识别出潜在的竞争对手或合作伙伴;（6）揭示专利知识的演化过程与技术转移动向;（7）识别出技术主体及相关依赖关系。

专利引文分析在科研工作和知识经济中发挥着巨大的作用[5]。本文重点对专利引文分析应用研究的现状进行梳理，分析专利引文分析面临的挑战和应对策略，旨在为专利引文分析领域的相关研究人员提供参考。

1 引文分析与专利引文分析

引文分析一般是指文献间存在的各种引证关系。引文分析大致可分为初始形成期[6-7]、发展繁荣期[8-9]和深化拓张期[10]三个时期。

1.1 引文分析常用测度指标

据现有资料分析可知，期刊论文的引文信息，常用的测度指标有：自引率、影响因子、引证率、即时指标等[11]。专利引文除以上指标外，还可利用引文耦合和同被引等测度指标来进行度量[12]。

1.2 专利引文分析

Narin[13]创造性提出将文献计量学方法应用到专利研究领域，开辟了专利计量新领域。学者从引用动机、引用主体、引用目的、引用功能等方面对专利引用进行了分析[14]。

（1）引用动机分析。专利是受法律保护，享有一定地域和时间限制独占性权利的技术成果。专利引用是法律形态和社会形态高度调和的结果，因此，它们的引用动机是与期刊论文的引用存在一定的差异。

（2）引用主体分析。不像期刊文献引用主体较单一，专利文献的引用存在诸多主体：专利发明人、法律专家、专利申请人和专利审查员[15]。Li[16]分析了不同引用主体的引用动机来加以区别引用的真实性。也有部分学者对专利审查员引文产生过质疑，但张虎胆[17]通过深层分析，提出专利审查员引文不应该被当作引文噪音被剔除。

（3）引用目的分析。科学引文的实质是知识的继承和发展。而专利旨在通过获得独占性权利，享有垄断带来的竞争优势[18]。由于存在竞争性因素，专利发明者或申请者除了法律规定及特殊的需要外，会尽可能少地引用其他专利[19-20]。

（4）引用功能分析。对于专利发明人而言，其引用的功能主要是为说明技术的继承性与关联性[21]以及强调其他技术存在的缺陷，从而为新专利的新颖性和创造性方面提供依据。

审查员引用功能主要是通过引用为专利审核提供对比，确定技术的专利性[22]。

2 专利引文分析应用情况

专利是技术竞争的情报来源之一[23]。专利引文分析一直是专利文献计量学中的重要内容，随着专利数量的不断增长，专利引文分析在专利信息分析中的应用也越来越广泛[24]。对于科学出版物来说，来自专利的引文信息在学术研究的商业影响方面提供了有利的证据。有学者提出了基于Google 学术论文的一种半自动化提取和过滤专利引文的方法[25]。通过对国内外现有专利引文分析已取得的许多研究成果进行分析，发现这些研究热点大都围绕如下三个维度来展开：（1）专利分类和聚类;（2）专利估值和新兴技术以及核心专利的识别;（3）知识流动和技术转移。故本文将着重对这三个维度的应用情况做概述和分析。

2.1 专利引文分析应用于专利聚类和专利分类

专利聚类常用方法主要为层次聚类、改进的K-means、自组织映射等[26]。专利分类可大致分为寻找同族专利或相似专利以及专利识别等两个方面。专利分类的方法包括基于IPC 分类号和行业分类以及机器学习算法分类等。专利聚类和专利分类通常还依靠专利间的耦合引用、共引、同被引的关系构建专利间的相似度从而对专利进行分类和聚类[27]。

2.1.1 专利引文分析应用于专利聚类同被引与引用耦合是两种常用的聚类方法。李睿[28]从聚类的可操作性、结果的准确性等几个方面对该类方法进行对比分析，发现后者在揭示专利的相似性方面更具优势，前者则更适用于揭示技术的演化规律。在新兴技术聚类方面，Holman[29]依据新兴技术和专利文献的相关特征，建立了新兴技术聚类模型及相关度量指标，Patrick[30]利用该模型对专利系统展开了新兴技术识别的实证研究。洪勇[31]综合比较了相关方法，指出专利耦合分析能实时地体现出企业的技术相似性，并对专利耦合强度计算方法进行了改进，能有效区分耦合强度的差异。Érdi[32]提出了利用引用向量作为预测器来对新兴的新技术或新分类进行预测，并利用可视化将聚类结果进行了树形图展示。张海超[33]选取中文专利数据样本,抽取专利权利要求书形成训练语料,并利用Doc2Vec 深度神经网络算法,计算权利要求书文本之间的相似度，得出与涉案专利相似性较高的专利。

2.1.2 专利引文分析应用于专利分类专利是竞争力的主要体现方式之一。Leydesdorff[34]通过专利引文信息、IPC 分类号等构建了专利相似度测量模型，并以部分美国授权专利数据为样本进行实证分析，发现该方法对专利相似度量效果较好。Criscuolo[35]利用欧洲专利局和美国专利商标局授权的专利数据库为数据源进行了实证分析，找出了相关专利的同族专利。黎欢[36]提出通过对专利引文中分类号相近的专利文献进行深度挖掘，可以找出潜在的竞争者与合作者。Wu[37]则提出专利可以被用来分析并识别出技术策略和潜在的竞争对手。

2.2 专利引文分析应用于专利估值和新兴技术

识别随着全球专利数量不断的增长，对于大多数企业而言，能准确识别出领域中的核心专利和新兴技术有重要的意义[38]。有研究表明，专利的引用与其价值之间并非线性关系，而是类似于S曲线。不少学者认为，利用专利引文信息作为研究路径，同样可以识别出该领域的核心专利和新兴技术，还可以对某一个领域里的专利排名情况进行定量的计算。Wu[39]指出快速寻找核心专利对于企业开展技术竞争情报工作至关重要。马永涛[40]总结了核心专利的主要特征，通过文献调研，对比分析和分类统计等方法，归纳出目前常用的识别核心专利的方法可分为专家智慧法、指标分析法，并指出最主要的识别指标有专利被引频次、同族专利数量等。Breitzman[30]依据专利引文数据提出了一种新兴的模型来识别下一代热点专利。此外，还首次实现了大规模数据集的测试，实验结果表明，该模型可能是下一代新兴技术识别的有用工具。袁润[41]进一步完善了核心专利的识别方法，构建了核心专利识别框架图，对新能源领域中的风能产业核心专利和新兴技术进行了识别。Cho[42]从国家战略角度出发提出有效识别核心专利和新兴技术对制定相关政策有至关重要的作用。Li[43]借助引用频次与关系网络的排名信息来建立专利重要度排名算法，研究结果表明他所建立的排名算法能够用来区分引用次数相同的专利排名。Harhoff D[44]通过对美国和德国专利进行分析与研究，得出了专利的引用频次可以用来评估专利价值的结论。张欣[45]提出了改进的PTR 算法不仅能将领域内重要的核心专利识别出来，相较原始的PageRank 算法，改进的PTR 算法具有更高的区分度。亢川博[46]引入了专利的个体价值、网络价值及综合价值的概念，提出了"核心专利的综合价值是由专利的个体价值和网络价值的综合体现"的研究理论。Érdi[32]通过专利引文网络对新兴技术的聚类结构给出了预测方法。Kyebambe[47]提出了对新兴技术识别具有代表性的特征项，He[48]在这些特征基础上对专利引文数据进行了索引和聚类预处理，并结合深度学习算法构建了新兴技术识别模型。

2.3 专利引文分析应用于知识流动

知识扩散这一主题目前已成为研究热点。从引文分析的角度来分析，知识扩散是指知识的传承[49]。知识扩散也被称为“知识交流”[50]或“知识流动”[51-52]或“知识转移”[53]或“知识溢出”[54]， Roach[55]发掘出专利引证关系反映了国家或企业间知识流动的轨迹。Huang[56]提出在一定前提条件下可把文献引用抽象为知识流动的形式，还明确指出文献引用应属于知识生产、传播和应用的过程。Ribeiro[57]借助全球创新网络新方法，显示了“科学技术”跨越国界在全球范围进行交互的足迹。通过现有文献分析可知，基于引文分析的知识扩散研究主要包括：（1）知识扩散的特征;（2）知识扩散的测度指标;（3）知识扩散模型的构建[58]。此外，常用知识扩散测度指标见表1。

表1 常用知识扩散测度指标及定义

以专利为单元的知识扩散常见的有“技术扩散”研究。技术扩散是一项技术从首次商业化应用，经过大力推广、普遍采用阶段，直至最后因落后而被淘汰的过程[59]。Choe[60]揭示了专利引用情况是研究技术溢出的重要途径。杨中楷[61]使用专利引文网络分析方法，得出欧美国家和中、日、韩等国家正处于知识活动网络的中心位置。Yoshikane[62]分析了基于不同分类号下专利引用的情况，也就是通常说的引用领域的多样性。该方法揭示了不同领域发明之间的演化规律，这些模式可以合理解释网络的形成、发展、老化的规律，以及知识的累积传播过程[63]。肖彬[64]基于专利引文网络构建了动态技术轨道识别与评价模型，并定量分析了动态技术轨道上各项关键技术的影响力和创新性。贵淑婷[65]基于专利引文网络构建了技术扩散速度测度模型,该模型可以对技术扩散速度进行有效的量化测算。张云[66]以WoS 数据库中专利文献集合为分析对象,借助于HistCite,进行了专利引文分析研究的主题演进探索。韩芳[67]量化研究了一些在过去仅仅被定性研究的结论。杨雨华[68]基于专利引用关系形成的引用网络，结合路径发现方法勾勒出企业技术发展图谱。

3 专利引文分析应用面临的挑战及应对策略

3.1 专利引文分析应用面临的挑战

专利引文分析应用研究已成为专利研究的主要方向之一，但目前专利引文分析应用过程中仍面临着重大挑战[9]。通过整理相关研究资料，发现专利引文分析应用研究，目前正面临着以下挑战：（1）专利引文分析应用研究方法还不够丰富，这会导致在某些特定领域应用中缺少理论方法的支撑；（2）专利引文分析应用中缺乏完整的评测体系，这常常会出现在应用中缺乏度量某一方法是否有效的评测指标；（3）中文专利引文数据库中未涵盖引用主体信息，这对专利引文分析应用造成了极大的阻碍，使得许多应用研究缺乏相关数据支撑；（4）专利引文分析应用研究存在领域差异，这不利于专利引文分析应用的进一步推广；（5）专利引文分析应用研究中存在语种壁垒，许多方法都有语种依赖性，在跨语种的情况下效果较差；（6）专利引文分析应用中存在技术主体和领域名称不一致的现象，这会影响分析结果的准确性；（7）中文专利引文方面存在很多漏引和不规范引用的情况，这会导致丢失引文信息或者引入引文噪声。因此实际中应以谨慎态度对待专利引文分析应用研究结果，在充分了解其优缺点的基础上做出理性参考。

3.2 专利引文分析应用挑战应对策略

对于挑战（1），建议专利引文分析应用领域的研究人员大量开展和尝试更多领域的应用研究，从而进一步丰富引文分析应用研究的理论方法。对于挑战（2），可以考虑建立多指标专利引文数据库并提出新的度量指标来量化被引关系。对于挑战（3），考虑到中文语言的特殊性，个人觉得有必要建立中文专利引文数据库并制定相关引文规范。对于挑战（4），建议建立统一的特征表示方法来弥补领域差异。对于挑战（5），建议加快构建全球统一的专利引文分析应用研究模型和方法以应对跨语种的障碍。对于挑战（6），建议相关部门进一步规范引用主体名称和领域名称的命名规则；此外应积极研发高质量的数据自动修正软件来提高修正效率和准确率。对于挑战（7），积极倡导国内专利发明人或申请人像欧美等发达国家学习，力争合理、准确的对相关专利进行施引。综上所述，个人以为专利引文分析虽然有很好的发展前景和应用价值。但考虑到许多挑战还未得到有效的解决，因此我们不应盲目乐观。呼吁领域内相关专家学者积极克服难题，早日为专利引文分析大规模实际应用提供切实有效的技术支持和解决方案。其他方面的应对策略还有待进一步发掘和深入研究探讨。

4 总结与预测

综合本文的研究，国内外专利引文分析应用研究现状可总结如下：国外部分发达国家已实现了专利引文分析数据的自动化处理，可通过计算机应用系统完成专利引文分析应用任务；但国内研究正处于快速发展阶段，许多理论方法还需逐步完善。随着大型专利引文数据库的不断完善，专利引文分析应用可结合深度学习、知识图谱、数据挖掘等技术来进一步提高引文分析应用系统的准确率。此外，利用新兴技术来识别和分析专利发展演化过程以及结合功能强大的可视化工具来展示专利引文分析应用成果将会成为未来的研究热点和演化趋势。