产业领域细分视角下核心专利识别研究
——以太赫兹产业领域为例
2022-08-09丁坤明张洁逸丁晟春
丁坤明,张洁逸,丁晟春*
(1.泰州市姜堰区科学技术局,江苏 泰州 225500;2.南京理工大学,江苏 南京 210094)
0 引言
专利是技术创新的载体,而核心专利代表着产业领域内最关键的技术。维持并提高产业竞争优势的关键在于是否掌握以核心专利为导向的产业核心技术。2006年《国家知识产权战略纲要》中指出:通过在生物医药、信息、新材料和先进制造等技术领域超前部署,掌握一批核心技术的专利来支撑我国高技术产业与新兴产业的发展[1]。因此,利用专利数据在海量专利中识别出核心专利,了解产业领域技术发展规律与趋势,寻找技术发展空位[2],对于创新主体提升核心竞争力至关重要。据世界知识产权组织统计,专利文献可以代表大部分的技术研究,且有相当部分发明专利所代表的核心技术只存在于专利文献中。产业领域往往由多个不同的细分领域组成,同一细分领域内的专利技术相似度高,不同细分领域间的专利技术相似度低[3]。但目前很少有学者遵循“同类评价”的原则,从产业领域细分视角进行核心专利的识别,因此本文从产业领域细分视角构建了基于熵权TOPSIS法的核心专利识别模型,能够更细粒度地识别出产业领域核心专利,为核心专利的识别提供新思路。
1 相关研究
国外学者很少使用核心专利这一概念,他们主要针对专利价值或质量评估开展研究。国内学者对核心专利的定义较多:韩志华[4]认为核心专利是指在某一技术领域中处于关键地位,对技术发展有着重大影响且具有高经济价值的专利。范月蕾等[5]认为核心专利具有先进的和不可替代的技术水平,具有持续的技术影响力,且能带来可观市场价值与经济收益。马永涛等[6]认为核心专利因其原理设计、实施过程科学优化以及技术领域涉及广而无法被绕开,且具有巨大经济效益和战略意义。谢萍[7]认为同时具备技术、经济、法律特性的才是核心专利。
目前,针对核心专利识别主要采用3种指标识别法。(1)单一指标识别法,即使用单个指标进行核心专利识别。Harhoff等[8]发现专利被引频次可以作为识别核心专利的指标,专利被引频次越高,专利价值也就越高。权利要求数量能够同时反映专利的技术保护范围和技术创新水平[9],是识别核心专利的有效指标。Lanjouw等[10]认为同族专利数也能反映专利技术的重要性。(2)指标组合识别法,即将多种单一指标识别方法简单加以组合得到最终的核心专利。沈君等[11]对频数、中介中心性、Burst指数和Σ指数4个指标进行分析,识别移动通信技术领域不同时段的关键技术。孙涛涛等[12]分别基于被引频次、权利要求数和同族专利数综合识别核心专利。(3)指标体系识别法,即构建多级指标体系并确定各级指标权重。罗天雨[13]基于专利特征建立核心专利判别指标体系,将专家打分和层次分析法结合对指标进行赋权。袁润等[14]基于粗糙集理论通过计算核心专利综合指数(CICP)来识别通信领域核心专利。
对指标赋权相关研究,如李治东等[15]基于熵权层次分析法对核心专利识别模型的指标进行赋值。刘嘉龙等[16]基于熵权法与灰色关联分析法对产业领域前沿专利指标体系赋权。王天歌等[17]基于TOPSIS方法确定核心专利识别指标权重。
本文将核心专利定义为:在特定时间阶段和技术领域内,占据难以规避且不可替代的关键地位,并具有较高技术价值和经济价值的原创性专利。本文从领域细分视角构建基于专利特征的指标识别法,并用熵权TOPSIS法进行专利评价,从而识别出核心专利。
2 研究设计与方法
2.1 研究框架
本文具体研究框架如图1所示。首先,基于太赫兹领域专利数据,进行相关专利数据项的提取,并根据K-means算法进行产业领域细分。其次,从专利的技术特征(技术宽度、科学关联度、被引频次)、经济特征(同族专利数、权利要求数)、法律特征(专利状态)6个指标,构建核心专利识别指标体系。最后,基于熵权TOPSIS法识别方法,对识别出的前沿专利技术进行分析。
图1 研究框架
2.2 基于K-Means算法的产业领域细分
本文采用K-Means算法对产业领域专利的文本内容(标题和摘要)进行聚类分析,通过人工识别和命名聚类结果实现对产业领域的细分。
K-Means算法是一种基于质心的聚类模型。K-Means算法将具有N个样本的数据集X划分成K个不相交的分离聚类Ck,每个聚类均可以被聚类的质心μk描述,从而最小化惯量或聚类内平方和。
2.3 核心专利识别指标体系的构建
专利本身蕴含技术、经济和法律3种特征[16]。专利是发明创造中技术信息的有效载体,专利的IPC分类号、引证和被引证等内容反映了其技术特征。专利的经济特征主要通过专利家族数量和权利要求数量体现技术的市场占有能力。专利的法律特征可以由专利状态体现,授权后的专利可能会因为种种原因失效,从而不再受到法律保护。本文基于专利特征构建核心专利识别指标体系,如表1所示。
表1 核心专利识别指标体系
2.4 基于熵权TOPSIS法识别核心专利
熵权TOPSIS法是对传统TOPSIS法的改进,该方法同时结合熵权法的客观赋权与TOPSIS法的多属性决策排序的优势,帮助决策者进行科学评价。熵权TOPSIS法的计算步骤如下:
(1)构建判断矩阵。设有p个评价指标;q个待评价对象;Xij是第i个评价指标下第j个待评价对象的值。
(1)
(2)指标归一化处理。本文选取的核心专利识别指标都是正向指标(越大越好),所以进行以下处理来解决指标的量纲及其单位不统一问题。
(2)
归一化处理后的结果:
(3)
(3)第i项评价指标中第j个待评价对象所占比重(Pij)。
(4)
(4)第i项评价指标的熵值(ei)。
j=1,2,…,q)
(5)
(5)基于熵权法确定指标权重(wi)。
(6)
(6)构建评价矩阵(V)。
(7)
(7)根据指标最值确定正负理想解。
(8)
(9)
(8)计算待评价对象到正、负理想解的欧氏距离。
(10)
(11)
(9)计算待评价对象与理想解的相对接近度(Cj)。Cj的值越大,则待评价对象越优。
(12)
(10)核心专利的划分。根据步骤(9)的排序结果,选取排名靠前的专利为核心专利,具体数量根据实际需求而定。
3 实证分析
3.1 太赫兹产业领域专利数据获取与处理
太赫兹(Terahertz,THz)科学作为一门跨学科的新兴交叉学科,衔接了经典宏观电磁波理论与微观量子理论。太赫兹由于其比微波高1~4个数量的带宽特性和比光波高的能量转换效率,在超高速率空间通信、医学成像、物质太赫兹光谱特征分析、材料检测等领域具有重要的研究价值和广泛的应用前景。
本文制定德温特专利数据库的太赫兹产业领域专利检索式:TID=(“terahertz”) OR TIT=(“terahertz”) OR ABD=(“terahertz”),检索了1984—2021年全球范围内太赫兹领域的专利,清洗去重后得到太赫兹领域的专利记录共8 856条。
3.2 太赫兹产业领域细分
本文通过Python编程实现K-Means算法对专利文本内容(标题和摘要)的聚类分析,从而进行太赫兹产业领域的细分。采用手肘法获取最佳聚类簇数,从图2可以看出:在K=5时,折线发生明显的转折;当K>5时,SSE变化幅度明显放缓。拐点处的位置为K=5,即最佳聚类簇数为5。
图2 手肘法折线图
对聚类结果进行分析,通过人工识别命名得到5个太赫兹细分领域,如表2所示。
表2 太赫兹细分领域聚类结果
图3为太赫兹不同细分领域下的专利申请数量,其中,太赫兹探测领域的专利申请数量最多,约占总申请量的39%;太赫兹器件领域的专利申请数量最少,只有707件。
图3 太赫兹不同细分领域的专利申请数量
3.3 太赫兹细分领域核心专利识别与分析
首先,利用熵权法确定太赫兹各细分领域核心专利识别指标的权重;其次,进行TOPSIS分析;最后对太赫兹细分领域评价排序前10的核心专利进行分析。
表3为对太赫兹细分领域核心专利识别指标权重进行计算后的结果,可以发现,器件领域技术宽度的权重值最高,被引频次和同族专利数的权重值较高,权利要求数的权重值最低。成像领域技术宽度、被引频次和同族专利数的权重值较高,权利要求数的权重值最低。通信领域技术宽度的权重值最高,同族专利数和专利状态的权重值较高,权利要求数的权重值最低。探测领域技术宽度和同族专利数的权重值最高,权利要求数的权重值最低。材料领域技术宽度、被引频次和同族专利数的权重值最高,权利要求数的权重值最低。
表4为进行TOPSIS分析加权评价后排序前10的核心专利信息。其中,器件领域排名第一的核心专利是英国科技集团于1998年申请的专利WO1998053351A2,主要研究一种光学装置及其制造方法,可用作例如波分复用器、单频激光器或化学传感器的组件。成像领域排名第一的核心专利是美国加州理工学院于2013年申请的专利US20140118529A1,主要研究一种傅里叶气相色谱成像(FPI)设备,可用于半导体晶片检查和医学显微成像。通信领域排名第一和第三的核心专利都由美国德州仪器公司于2015年申请,主要研究的是太赫兹通信系统中的组成部件。探测领域排名第一的核心专利是美国法如科技公司于2013年申请的专利US20140063489A1,主要研究一种用于光学扫描和测量环境的激光扫描仪。材料领域排名第一的核心专利是日本京都第一科学株式会社和日本山形大学于2015年共同申请的专利EP2960239A1,主要研究用于光源装置和太赫兹生成装置的噻唑鎓衍生物和非线性光学材料。
表4 太赫兹细分领域的核心专利信息(Top10)
4 结语
本文首先从领域细分视角构建基于熵权TOPSIS法的核心专利识别模型,识别出产业全领域和细分领域的核心专利;对全球太赫兹产业领域1984—2021年的专利数据进行实证研究,得出结论如下:
(1)基于K-Means算法的产业领域细分方法,能有效对产业领域内专利进行技术的划分。通过对专利文本(标题和摘要)的聚类分析将太赫兹产业领域细分为器件、成像、通信、探测、材料共5个细分领域,这切合目前太赫兹产业领域的范畴。
(2)构建的包括技术特征(技术宽度、科学关联度、被引频次)、经济特征(同族专利数、权利要求数)、法律特征(专利状态)6个指标的核心专利识别体系,能够从专利本身价值以及产业赋予专利的价值两个维度来确定专利的核心性。
(3)实证发现全球太赫兹产业领域核心专利的专利权人大多属于太赫兹产业领域的龙头企业,涉及的主要细分领域基本涵盖了太赫兹领域目前的热点技术,这也进一步验证了本文提出的核心专利识别模型的有效性。
本文研究仍然存在以下局限性:(1)本文基于专利技术、经济和法律特征构建核心专利指标识别体系,但无法定量确保每个指标都能准确表征核心专利。为了明确各指标对核心专利识别的效果,后续可以组织领域专家学者识别一批核心专利作为范本,为相关核心专利识别指标的研究提供借鉴。(2)本文基于熵权TOPSIS法进行产业领域核心专利识别,将熵权法的客观赋权与TOPSIS法的多属性决策排序相结合对专利进行打分,主要采用的是客观评价法,后续可以与专家的主观评议结合起来,进一步提高识别结果的准确性。