APP下载

基于权利要求语义分析的专利价值评估及应用研究
——以区块链技术为例

2020-08-18李士龙魏鹏涛

世界科技研究与发展 2020年2期
关键词:区块专利数量

李士龙 魏鹏涛

(北京工业大学经济与管理学院,北京100124)

今年正值《国家知识产权战略纲要》实施第十二周年,这期间中国在保护知识产权、促进创新能力上有了较大的进步,根据联合国世界知识产权组织(World Intellectual Property Organization,WIPO)发布的《2019年全球创新指数报告》显示,中国排名升至全球第14位,在中等收入经济体中连续7年在创新质量上居首。专利作为国家保护发明人知识产权的有效手段,如何科学准确地对专利价值进行评估,一方面可以帮助企业确立技术竞争优势,进行战略部署和指导并购策略,另一方面对于我国提高专利质量和提升专利经济效益,加速从当前“知识产权大国”迈向“知识产权强国”至关重要。

目前评价专利价值的方法主要集中于从技术价值、市场价值和法律价值三个方面构建评价指标体系[1],国内外有学者在从不同的角度对评价指标体系做了探索,如专利特征[2]、商业化潜力[3]、专利文献的引用数量和专利的被引次数[4]、专利权人实力和专利技术的角度[5]、权利要求数、专利家族深度[6]。由于对于专利价值的定义标准不同,构建评价体系指标的选取就有所不同,这使得此类方法具有较强的主观性。

为了客观地评估专利价值,部分学者从专利保护范围的角度展开研究。专利申请的目的是保护专利人对其发明创造的独占权,专利保护范围越广,被侵权的可能就越大,对于申请人来说,专利保护范围应当尽可能广泛,但与此同时,专利申请的成本就越高,且越不容易通过审查[7]。所以专利保护范围对专利价值至关重要,已有文献用经验数据证实了专利保护范围与专利价值之间的正相关关系[8]。对专利保护范围的衡量也有几种不同的方法,如独立权利要求的长度和数量[9]、首项权利要求的字数(首项权利要求的字数越长,定语越多,范围越小)[10]、国际专利分类(International Patent Classification,IPC)[8]等等。

上述文献都能在一定程度上度量专利保护范围,但是专利的具体保护范围和法律依据是通过权利要求确立的,虽然也有部分文献借助语义分析的方法研究专利文本,如借助“主语-行为-宾语”(Subject-Action-Object,SAO)结构的主题模型识别新兴技术[11]、借助文档主题生成模型(Latent Dirichlet Allocation,LDA)对专利主题进行分类[12]等,但很少有文献从专利权利要求的内容出发,借助语义分析的方法,对专利保护范围进行衡量,并进行相关专利价值分析和应用研究。本文将以专利的权利要求为研究对象,通过语义分析,测算专利保护范围,分析法律层面上的专利价值,提出相应的对策建议。

1 研究设计

为了从权利要求文本出发,通过语义分析方法衡量专利保护范围,进而对专利价值进行测算,对专利进行价值分析。本文提出如下方法,具体步骤见图1。分为四个部分,第一步要提取待研究技术领域的权利要求文本,结合相应的检索策略,从专利数据库中导出待处理的文本;第二步,计算专利价值,专利的法律价值体现在保护范围,而权利要求文本是权利保护范围的法律依据,借助语义分析的方法,对权利要求中所界定的专利保护范围进行测算,并将其进行标准化处理,使其具备可比性,能够客观地衡量不同专利的专利价值;第三步,专利主题分类,在专利价值指标测算完成之后,需要对专利进行价值分析和研究,而一般情况下,同一技术领域的专利数量太多,专利的内容各不相同,不利于客观规律的把握和相关研究的开展,所以需要一种科学有效的分类方法,对文本内容进行分类分析,对此引入LDA主题模型对专利文本进行主题抽取,得到专利的主题分类;第四步,借助测算的专利价值指标和专利主题分类进行主题-价值分析和研究。接下来对各部分内容进行详细说明。

1.1 专利权利要求提取

本文选择美国专利局(The United States Patent and Trademark Office,USPTO)进行专利检索,原因有以下两点:1)美国是全球最大的专利市场,提交给美国专利局的大部分专利也在其他国家提交;2)美国专利局数据库组织良好,历史信息可以追溯到1976年。为此,本文通过USPTO专利数据库检索相关领域专利,从而获取专利所对应的权利要求范围。

1.2 专利保护范围测算

专利的价值在于排他性,这种排他性是通过专利保护范围体现的,专利的具体保护范围是通过权利要求进行声明的,如图2,其权利要求文本由若干项权利要求构成,按照从属关系分为独立权利要求(如 Claim 1、Claim 13、Claim 19)、单项从属权利要求(Claim 3、Claim4等)和多项从属权利(Claim 31)要求,其中独立权利要求的数量越多,保护的范围就越广[9],而从属权利要求包含引用部分和限定部分,限定部分越多,保护范围就越窄[13](如一种太阳能热水器和一种管道防冻式太阳能热水器)。基于此,本节对专利价值的测算将借助语义分析方法,对权利要求文本进行分解,描述权利要求的引用关系树,并计算依赖度,得到可比的专利保护范围指数,进而衡量专利价值。该方法由权利要求文本分解、权利要求树的合成以及权利要求依赖度三个步骤组成。

图1 方法流程图Fig.1 Method Flow Chart

1.2.1 权利要求文本分解

一项专利的权利要求文本包含若干项权利要求,图2显示了其基本结构,首先需要按项进行抽取,可以看出每项权利要求的起始位置都是数字字加“.”作为该项序号,两个序号之间的部分为一项专利要求的文本信息,利用这个书写规则,对文本进行分割,抽取每项权利要求。其中,有部分权利要求在审查过程中被修改,即在文本中该项内容为“(Canceled)”,有时此类文本序号会根据上下文合并,使得排序序号规则发生改变,例如“6.-12.”,在处理的过程中要考虑到此类特殊情况,并将其清洗。

图2 专利号US20190238340A1的权利要求文本(部分内容省略)[14]Fig.2 The Claim of Patent US20190238340A1(Partially Omitted)[14]

1.2.2 权利要求引用关系树合成

根据处理好的各项权利要求文本合成引用关系树,需要识别各项文本的类别及引用关系。

首先识别文本类型,有以下三种情况:

1)单项从属权利要求,即该项文本中引用了其他权利要求,引用次数有且仅有1次。在具体识别时,当出现“according to claim”加数字序号等文本组合时,即代表该项权利要求存在引用,参考相关文献并结合实际情况对该类文本组合进行归纳总结[13],利用图3中的正则表达式进行识别,并记录所引用权利要求的序号。

2)多项从属权利要求,即该项文本中引用了其他权利要求,与单项从属权利要求的不同点在于,引用次数大于1次。Wittfoth认为多项从属权利要求对专利保护范围的贡献程度跟独立从属权利要求相似[15]。《专利审理指南(2012)》(Office Patent Trial Practice Guide)规定从属权利要求在引用时要服从“多项不引”原则,在分析引用关系时,将多项从属权利要求与独立从属权利要求都归于0级。

3)独立权利要求,即该项文本中未出现引用其他权利要求的情况。

其次,确定各项权利要求之间的引用关系。根据权利要求的“前向引用”原则,按照序号,从小到大向后查找引用关系,按照引用的先后次序,将分为一级、二级权利要求,以图2中的权利要求为例,得到如下引用关系和引用关系层级。

图3 引用关系识别的正则表达式Fig.3 Regular Expressions for Reference Recognition

图4 专利号US20190238340A1的权利要求引用关系Fig.4 Patent US20190238340A1 Claims Reference Relationship

表1 专利号US20190238340A1的权利要求引用关系层级Tab.1 Patent US20190238340A1 Claims Reference Relationship Level

1.2.3 权利要求依赖度计算

在得到各项权利要求引用关系之后,接下来将计算权利要求的依赖度。从属权利要求越多、引用层级越多,专利保护范围就越窄,参考Wittfoth的方法,用依赖度衡量专利保护范围,并进行标准化处理,计算专利价值。具体计算公式如下:

其中,D表示依赖度,Cn表示第n级从属权利要求,Count(Cn)表示 n级权利要求的个数,Count(C)表示总数。该公式表明,引用层级越多,赋权越大,依赖度就越大,专利保护范围就越窄。

以图4中的专利US20190238340A1为例,其依赖度D=1.0625,对于一个有三层级引用关系的权利要求,Patent1是最小专利保护范围的权利要求引用结构,其依赖度为Dmin=(0×1+1×1+2×1)/3=1,Patent2是最大专利保护范围的权利要求引用结构,其依赖度为Dmax=(0×3)/3=0。

由于专利的法律价值在于其专利保护范围,而专利保护范围是由专利的权利要求文本作为法律依据进行确定的,所以衡量专利保护范围就可以对专利的专利价值进行测算。上述依赖度虽然可以测算某专利的专利保护范围的大小,但其存在一个缺点,对于不同权利要求项数的专利无法进行对比,为了比较不同权利要求数量的专利之间的专利价值,本文参考了Wittfoth的方法,用如下公式进行标准化处理,得到专利价值指标V。

借助专利价值V,可以计算不同权利要求引用结构的专利价值,在充分考虑了权利要求数量和引用层级对专利保护范围影响的前提下,使其具有可比性,为专利价值分析提供了客观方法。

1.3 LDA主题模型分析

在计算完某一领域内所有专利的专利价值之后,接下来要对其进行价值分析,而一个领域内的专利往往数量较多,且技术主题各有不同,这就需要对专利进行分类,来更加直观和科学地进行专利价值分析。而LDA主题模型是一种用来识别大规模文档中主题信息的机器学习方法,能够识别文本的主题,实现专利主题提取的功能。该方法有三层架构,包括词、主题和文档[16]。具体算法步骤如下:

1)文本预处理。在之前语义分析的基础上,对权利要求文本进行处理、清洗,主要包括统一单复数、去除标点符号、数词和停用词等。

2)确定主题数。采用困惑度指数(Perplexity)确定最优的主题数[17]。

3)提取主题和特征词。使用模型计算“文档—主题”矩阵、“主题—词”矩阵,获得特征词以及文档在各主题上的概率分布,选择概率值较大的前10个特征词,结合相关技术资料进行主题标注。

4)结合专利价值进行主题分析。对不同主题的专利进行价值分析。

借助上述算法,可以有效的对某一技术领域内的专利按主题进行分类,从主题的维度进行专利价值分析,可以更好的把握专利的价值分布和主题-价值分析。

2 实证分析

本文以区块链技术(Blockchain technology)为例,借助权利要求语义分析的研究方法,分析区块链专利现阶段研究方向以及专利价值分布。区块链技术是一项在科学研究、科技创新、供应链金融科技以及投资应用方面具有远大前景的技术之一[18],2019年10月,习近平总书记在中央政治局第十八次集体学习时强调,“把区块链作为核心技术自主创新重要突破口,加快推动区块链技术和产业创新发展”,借助专利价值分析,研究区块链技术现阶段的发展状况,对中国区块链技术创新和商业应用有一定的现实意义。

2.1 数据来源及说明

首先确定待检索专利的检索表达式。通过查阅文献与研究成果[19],尝试利用关键词匹配方法进行检索,结合检索准确性原则,将 TS=(“blockchain”)作为检索策略的表达式,检索日期为2019年10月,从USPTO数据库中共导出1693项专利。

从申请专利数量来看,区块链技术更多集中于拥有区块链技术数量最多的前十大专利权人,表2说明,IBM持有的区块链专利数量最多,占全部专利数量的11.28%,其次为阿里巴巴集团,持有101件专利,占整体的5.97%,从国别来看,美国企业的区块链专利申请数量较多,除此之外,还有中国、韩国、英国的企业排名靠前。

表2 前十大专利权人情况Tab.2 The Top Ten Patentees

2.2 区块链专利价值计算

根据上述权利要求文本处理方法,对权利要求进行分解并分析权利要求引用关系。图5绘制了专利权利要求数分布的直方图,横轴代表权利要求数的分布区间,纵轴代表区间包含的专利数量,根据图5可以看出,权利要求数小于等于20项的有1328个,占样本总数的78.4%,其中权利要求数为20项的专利最多,有833个,占样本总数的50%。根据美国专利局的收费标准,超过20项权利要求需要额外收取每项80美元的费用,这也在一定程度上说明,专利申请人为了使专利价值最大化,会在不超过额外收费标准的前提下尽可能多的增加权利要求的数量。

根据专利要求引用关系计算权利价值。图6显示了不同价值区间的专利数量分布情况,横轴为专利价值区间,纵轴为专利数量,图像表明,专利价值较为集中在[0.62,0.88]区间,由于前10%的专利最具影响力[20],且一个技术领域内的专利价值更多集中在前10%的专利中[10],选取专利价值前10%作为高价值专利,其专利价值大于0.88,数量为174件。

图5 权利要求数分布直方图Fig.5 Distribution Histogram of Claims

2.3 区块链专利价值应用研究

2.3.1 专利主题分类

在计算完区块链领域专利价值之后,接下来要对其进行价值分析,而一个领域内的专利往往数量较多,且技术主题各有不同,这就需要对专利进行分类,来更加直观和科学地进行专利价值分析。本节内容将借助LDA主题模型,对专利权利要求文本进行分析,结合区块链领域的相关资料,对专利按照技术领域进行主题分类。

图6 专利价值分布直方图Fig.6 Histogram of Patent Value Distribution

参考区块链现有资料和相关文献[21,22],根据技术层级确定区块链技术分布领域,主要分为协议层、扩展层与应用层(表3)。其中,协议层是区块链的底层技术,是一切的基础,负责通过数据存储以及网络构架实现去中心化交易、搭建通道、构建网络环境,其技术特征词主要涉及算法、数据领域;扩展层是使区块链向某些领域扩展的技术,其开发目的是使区块链更实用,目前较为普遍的方向主要是两个,一是利用区块链跨链、侧链、多链的技术特征,开发的智能合约技术,二是与交易清算系统结合,开发的交易支付技术;应用层是服务于具体应用场景的技术,目前主要集中于数字货币以及安全认证领域。

在使用LDA模型抽取主题之前,需要确定抽取的主题数量,如果主题数量太少会导致主题的辨识程度不高,为了解决这个问题,Blei和Jordan(2003)采用困惑度来确定模型的最优主题数[17],困惑度是用来评价语言模型预测结果优劣程度的指标,通过对比训练好的模型在测试集上的概率,判断模型的优劣程度,困惑度越小,概率越大,模型的预测结果越准确。对样本不同主题数下的困惑度进行计算并将结果通过折线图的形式呈现,如图7。图片显示,主题数为6时出现明显拐点,之后走势趋于平缓,结合区块链技术领域分布情况,确定最优主题数目为6。

表3 当前区块链技术领域Tab.3 Blockchain Technology Field

利用LDA对区块链专利权利要求进行主题抽取,将各个主题出现概率前十的特征词进行分析,并结合区块链技术当前发展情况对主题进行标注,结果如表4所示。经过LDA主题模型分析之后,将本文选取的区块链技术专利样本划分为了六大主题,接下来将结合专利价值进行区块链技术主题与专利价值组合分析。

图7 专利困惑度折线图Fig.7 Patent Confusion Line Graph

表4 区块链技术“主题—特征词”Tab.4 The Theme-Feature Words of Blockchain Technology

2.3.2 区块链技术主题与专利价值组合分析

通过LDA主题模型对区块链技术主题和专利价值进行组合分析,一方面可以了解不同技术主题下的专利价值分布情况;另一方面可以明确不同专利权人区块链技术的竞争地位,根据分析结果,从而为国家和企业层面就如何发展我国区块链技术提出相应的建议。

图8 不同技术主题的区块链专利数量与专利质量对比分布图Fig.8 Distribution Map of Patent Quantity and Quality of Blockchain in Different Technical Topics

根据图8,从专利数量来看,数据存储领域的专利数量最多,高达383件,安全认证领域专利数量最少,在智能合约、虚拟货币、交易支付和网络构架四个领域的专利数量比较接近;从专利价值来看,数据存储领域的专利价值最高,高达0.72,网络架构专利价值最低,在智能合约、虚拟货币、交易支付和安全认证的专利价值比较接近。从整体上来看,数据存储领域的专利数量和专利价值都高于其他领域,在网络构架领域的专利价值较低,相关企业还需进一步在这个领域提升专利价值。

为了进一步分析高价值专利主题分布,由于最具有价值的专利只占少数,在此对专利价值进行排序,观察前10%的高价值专利。图9显示了区块链技术高价值专利主题分布情况,结果表明,数据存储领域专利数量占高价值专利的比例最大,且与全样本进行对比,该比例有所上升,说明价值较高的专利更多集中在数据存储领域,而交易支付领域在价值较高的专利中的数量最少,且与全样本相比在高价值专利样本中比例有所下降。

图9 区块链专利主题分布Fig.9 Blockchain Patent Subject Distribution

图10为前十大专利权人的综合竞争地位分布图,由图可知,IBM的专利数量最多为191件,但是专利价值偏低,平均专利价值为0.69,Coin-Plug和英特尔的专利数量较少,但其专利平均价值最高为0.789和0.786,而阿里巴巴在区块链领域虽然专利数量排名第二,但是平均专利价值最低,为0.67。根据综合竞争地位分布图,可以将前十大专利权人分为三个组别:高价值组,有CoinPlug、英特尔、nChain、思科,其特点为专利数量较少,但专利价值较高;高数量组,有IBM、阿里巴巴,虽然专利数量较多,但是专利价值较低;均衡组,有埃森哲、万事达卡、美国银行、沃尔玛,其专利数量和专利价值均处于中等水平。

图10 前十大专利权人的综合竞争地位分布图Fig.10 Distribution Map of The Comprehensive Competitive Status of the Top Ten Patentees

3 结论与展望

本文提出了基于权利要求语义分析和LDA主题模型的专利价值测算方法及分析框架,以USPTO专利数据库中的区块链专利为研究对象,对高价值区块链专利分布情况、不同技术领域的专利价值分布和不同专利权人的综合竞争地位进行了分析,通过上述分析,可以得到如下结论,就我国如何发展和布局区块链技术提出相应的对策建议。

1)通过分析各个主题专利价值分布,发现数据存储领域的专利价值最高,专利数量最多,网络构架领域专利价值最小。由于区块链本质上是一个去中心化的数据库,而当前的热点技术无论是5G技术、物联网还是共享经济等,都离不开海量数据的传输与处理,这使得在当前信息时代下,数据存储技术成为研究和应用的核心,这与本文通过对区块链专利权利要求进行语义分析得出的结论一致,对于企业决策者来说,要重点关注区块链数据存储领域,加强区块链技术领域的研发投入,提升国际核心竞争力,全面推进研究成果转化为专利技术,把握技术发展前沿,占据创新制高点。

2)从国家分布来看,前十大专利权人属地主要集中在美国,有七家公司,其余三家分别属于中国、英国、韩国。通过分析不同专利权人的专利价值分布,可以将前十大专利权人分为三组:高价值组、高数量组、均衡组,其中专利数量较少的nChain、英特尔,其专利价值较高,而持有专利数量较多的IBM和阿里巴巴,其专利平均价值偏低。我国在加快推进区块链技术和产业创新发展的过程中,一方面要培育一批区块链骨干企业和研发机构,发挥引领和带头作用,掌握国际竞争话语权;另一方面要注重引导企业对于高价值专利的研发投入,从以量取胜向质量兼备转变。由于企业是市场竞争的直接参与者,国家层面要研究激励区块链企业的相关政策,以阿里巴巴等优质企业作为领头羊,培养区块链企业在国际上的竞争力,力争占领区块链技术的科技制高点。

本文提出的专利价值计算方法和分析框架,能客观有效地对一个领域的专利价值进行评估和分析,但是仍存在一定的不足之处,由于只对英文专利文献进行了分析,没有分析中文专利,使得分析样本不够全面,接下来需要对如何分析中文权利要求进行探索,丰富现有研究框架。

猜你喜欢

区块专利数量
专利
区块链:一个改变未来的幽灵
区块链:主要角色和衍生应用
发明与专利
统一数量再比较
区块链将给媒体业带来什么
区块链+媒体业的N种可能
头发的数量
我国博物馆数量达4510家