专利信息分析研究述评
2019-01-19程豪杰
程豪杰
(南京大学信息管理学院 南京 210023)
0 引言
专利是世界上最大的技术信息来源,广义的专利信息不仅包括专利文献信息,还包括各种专利活动信息,如诉讼,转让和许可[1]。根据《2017年世界知识产权指标》报告,全球专利等申请量持续增长。近年来,国内外专利信息分析引起了学界广泛关注,积累了大量的专利研究成果,对专利信息分析研究进行梳理显得十分必要。然而,目前只有少数学者从某一特定角度对专利信息分析进行综述。李华锋等梳理了国内外专利研究文献,发现专利信息分析方法的研究主要包括专利信息统计分析方法研究、专利信息机器学习分析方法研究和专利信息复杂网络分析方法研究[2]。魏晓峰则运用CiteSpace软件对国际专利信息领域的论文及其引文发表年份、期刊分布、学科领域等进行统计分析[3]。而文庭孝回顾了专利信息测量的研究,如专利信息测量研究的内容[4]。此外,张静等从构建数据库、设立技术唯一标识符等方面研究了PATSTA 数据库,并比较了其与主流商业专利数据库的异同,总结了PATSTA 数据库在数据集成方面的经验[5]。
为此,本文拟从专利信息分析系统、专利信息分析技术、专利信息分析方法以及专利信息分析应用四个方面全面评述现有文献,为准确把握并深入推进相关研究奠定基础。
1 专利信息分析系统研究
目前,学界对于专利信息分析系统的研究,主要是从信息系统设计角度展开的。翟东升等设计了一个专利信息分析的原型系统,旨在通过概念检索的方式扩大某一领域的专利检索词,提高检索性能[6]。王曰芬等提出了专利预警分析的操作流程和专利预警分析系统的总体结构、预警方案、设计专利预警信息分析系统的实施方案[7]。而文庭孝认为专利信息可视化分析系统的设计思路应着重于专利数据仓库的建立、专利数据处理、SSIS 包处理和数据检测[8]。
2 专利信息分析技术研究
专利信息研究离不开相关技术的支持[9],因此技术研究也成为国内外研究热点领域之一。马芳等将数据挖掘技术应用于专利信息分析,并利用聚类算法挖掘专利文献,利用关联规则挖掘用户感兴趣的知识,并将其转化为有效的竞争情报[10];在专利信息分析软件与系统设计方面,马建霞等介绍了五种典型专利信息分析软件,并比较了这些专利分析软件各项功能的优劣[11];在专利信息可视化方面,刘晓英将商业智能技术引入到专利信息可视化分析系统的设计中,克服了现有专利信息可视化分析系统的功能定位和开发技术等问题[12]。
专利信息分析研究工具,根据其功能和特征可大致分为专利统计分析工具、专利引证分析工具、专利聚类分析工具和专利地图分析工具四大类[4]。
在应用专利地图识别技术机会时应注意关键词确定的问题,由专家人工确定关键词极易造成关键词遗漏,未来研究需要借助新技术运用到专利地图绘制的过程中,实现专利地图绘制的智能化。
3 专利信息分析方法研究
现有文献发现,专利信息分析方法可分为定性分析方法和定量分析方法两类。
3.1 专利信息定性分析方法研究
如果专利内容是基于原理的,则这项技术还不成熟;如果专利内容主要基于用途的多样性,则意味着该技术已得到实际应用[13]。现有的专利信息定性分析方法包括技术形态分析方法,SAO 语义方法和专家评分方法。
3.1.1 专利技术形态分析方法 专利技术形态分析方法的核心内容是基于专利信息中挖掘出的关键词,将其作为技术形式的参数,形成形态分析的技术形式[14]。
2004年,Yoon 等首次提出通过专利文献共词分析得出的关键词表,构建技术形态,用于技术预测[15]。2005年,他们系统地介绍了形态分析方法,并选择“wide-viewing-angle”实证研究技术专利预测[16]。在此基础上,2007年,他们利用该系统完成了一项基于关键词共现的形态分析的实证研究[17]。2008年,Yoon 基于上述方法介绍了技术信息工具的开发和应用,并提出了一种利用聚类和网络分析构建技术词典的方法[18]。
目前,专利技术分析方法存在两个主要问题:首先,由于需要专家参与专利技术的建设,这种分析方法的成本和效率是有限的。并且由于专利技术的构建是基于专利信息中提取的关键词词汇,其与专家意见之间的匹配也存在问题。其次,在未来技术形式组合的优化方法中,专家构建的矛盾矩阵法可能存在专家知识背景的局限性,这种方法可能会排除某些表面冲突,这些表面冲突可能是重要技术突破的组合。因此,未来的研究可以使用文本挖掘方法从关键字聚类或文本分类的角度构建基于关键字的层次结构。并将其用于形态分析,以解决专家意见和关键词难以匹配的问题。另一方面,未来对技术形式最佳组合的研究也可以尝试新的方法,例如使用专利的时间序列数据,分析其规则和特点,并优化技术形态组合的方法。
3.1.2 专利信息分析SAO 语义法 基于SAO专利语义分析是识别新兴技术的有效工具。如Yoon 等利用SAO 三元组语义专利分析和离群点检测技术,探测技术机会信号,识别高新技术[19];Gerken 用SAO 三元组语义分析法分析了专利新颖性,并利用斯皮尔曼等级相关法,衡量新颖性措施间的相似性,以降低高新技术识别过程中的成本和不确定性[20]。
3.1.3 专利信息分析专家打分法 专利信息分析专家评分方法是选择关键指标,为每个指标设定不同的权重值,分析专利价值,评估定性指标的价值计算。Hou 等从技术、市场状态、法律和技术转移四个方面分析了各项指标的价值度,评估了专利价值[21]。
6月中下旬,针对实生核桃当年生新梢达不到嫁接粗度,即:核桃当年生新梢嫁接部位低于0.5 cm,达不到嫁接粗度时,即可选择在2-3年生枝条上进行方块芽接。将砧木上细弱新梢保留2片叶短截,剔除叶腋间的生长点,在2-3年生枝条光滑处切一个长度3 cm、宽度1.5 cm的方块形,上下左右均切一刀深达木质部,紧邻方块形切块一侧下方向下切长达1 cm的溢水缝,溢水缝连接在方块形芽接切口上。
专家打分法评价专利价值依靠领域专家的主观判断,因此,该方法高度依赖于技术领域的专家,自动化程度不高。未来,在评估专利价格体系时,还应结合定量指标,以获得专利的综合价值,为知识产权管理和专利运作提供参考。
3.2 专利信息定量分析方法研究
现有研究发现,专利信息定量分析方法主要包括时间序列法、回归法、聚类法、社会网络法、神经网络法等。
3.2.1 时间序列法 目前,专利信息分析时间序列法主要应用于技术成长S 曲线分析和专利产出预测两方面。技术成长S 曲线分析方面:利用反映技术成长的S 曲线分析专利数据,预测技术成熟度,帮助管理人员了解技术扩散的潜力[22];在专利产出预测中,常用的方法包括趋势外推[23],混沌时间序列指数[24],向量自回归模型[25]等,以提高预测精度,一方面可综合应用多种方法,通过比较平均误差、均方根误差等指标,选择最优方法,另一方面综合考虑诸如国内生产总值、研发支出、研发工程师数量等影响专利产出的因素,为相关预测设计计量经济模型。
由于政策干预及技术突破等因素也会影响预测精度,今后可结合马尔可夫链模型、贝叶斯网络、模糊数学等方法,综合考虑多种因素,提高预测精度。
3.2.2 回归法 回归分析法在专利信息分析中具体应用主要体现在专利产出的回归分析、专利引文数量的回归分析以及专利引证关系的回归分析。专利产出的回归分析方面:Levitas 等利用Logistic 回归分析法,分析了企业的技术价值、技术新颖性、行业波动三方面因素对企业失败几率的影响[26];Deyle 等分析了雇员专利申请数量、研发人员占比等指标间的关系,研究德国创新活动的区域分布[27]。专利引文数量的回归分析方面:Kang 等利用Tobit 回归分析,根据代表技术价值的前向引用、专利申请年份等指标,分析不同国家专利技术价值[28]。专利引证关系的回归分析方面:Alazzawi 利用负二项回归模型与最小二乘回归模型,调查了跨国公司的外国直接投资是否增加了国内外企业间知识交换的影响,研究发现外国直接投资对知识流动有强大的积极作用[29]。
3.2.3 聚类法 目前,专利信息分析聚类法主要用于对专利产出、关键词及引证关系进行分析。马军杰等使用模糊均值算法用表面相似度指数代替了距离,并将中国省级专利产出和输入的多指标面板数据聚类[30];Lee 等利用文本挖掘技术从专利说明书摘要中抽取关键词,利用期望最大化算法对相关技术进行聚类分析,发现在页岩气相关技术方面,美国的关键先进技术与水力压裂、水平钻井和光滑水域有关,而中国则关注支撑剂[31]。
3.2.4 神经网络法 神经网络在专利信息分析过程中,相关算法主要有以下两类。专利分类的神经网络分析方面:Li 等将知识转换、自然语言处理等技术与双层前馈人工神经网络算法相结合,按照TRIZ 理论中创新水平定义,对专利数据进行分类[32];专利指标评价预测的神经网络分析方面:Zhang 等以全球低级处方药销售公司专利数据及财务数据为对象,利用BP 神经网络模型探索专利H 指数、专利引用以及技术实力对企业业绩的非线性效应[33]。
3.2.5 社会网络法 社会网络分析可以应用以下两个方面。网络拓扑属性信息分析方面:学者们利用度数中心性[34]、路径长度[35]等表示现实相关技术信息流,研究专利引文网络中小世界现象的相关性,观察专利引用的增长模式并确定高度中介的关键专利;在专利合作网络方面,专利所有者和发明者是两种主要的合作类型,它们以专利许可和转让为补充,可以建立专利合作网络来揭示合作关系及其内容[36]。后者则主要针技术研发者,从技术研发者的绩效产出、网络角色、人力资源流动等角度展开[37]。
通过对国内外专利信息分析方法相关文献的梳理,发现专利信息分析方法的研究成果相当丰富。随着专利信息的持续增加,笔者认为今后专利信息分析方法研究还需关注互联网+、云计算环境下的专利信息大数据研究方法;随着本体技术的不断成熟,关注本体语义学在文本挖掘中的应用将成为专利信息语义分析的新趋势。此外,专利信息分析方法研究应积极吸收信息经济学、人工智能等领域的模型与算法思想,形成新的综合性专利信息分析方法,以提高数据处理能力。
4 专利信息分析应用研究
从应用领域来看,专利信息分析研究主要应用在专利数量、专利引用、专利关联的分析与应用三个方面。大部分关于专利数量分析的研究都从专利数量统计的角度分析了专利技术的分布情况,并结合时间因素、专利分类、专利技术主体和专利数量特征分析了某一技术领域或某一学科的专利技术研究和发展趋势[38];专利引用分析主要从国家、发明人、申请人和专利技术本身进行分析,以掌握专利技术的价值和传播途径[39];同时了解学术机构基础研究对产业技术发展的影响[40]。每个研究领域的应用都有一系列专利信息分析方法,可用于观察、判断和分析不同专利主体在不同领域、不同项目上的专利活动及其动向。
专利信息与产业发展关系密切,可以依据专利信息与产业技术发展态势的各种内在映射关系来分离出产业技术信息。相关研究如Sung 等通过分析美国在能源机构、医疗器械等领域的专利注册信息,研究了行业技术的趋势,并引入了一个用以比较不同产业技术发展趋势指数来揭示产业技术融合度的指标[41]。邱宏华等研究发现中国动漫产业的技术创新和专利保护是由国家政策推动的[42]。刘熙东等分析了生物农药领域的专利信息,发现中国是仅次于美国的第二大外国专利国家,但是中国的海外专利申请不足,申请人结构薄弱[43]。此外,洪帆从产业政策激励和市场需求的角度,从产业技术链、产业竞争格局、产业技术资源和产业环境四个维度,结合专利信息的分析和利用,构建了工业技术信息挖掘的内容框架[44]。
从研究主体来看,专利信息分析在政府、机构和个人等主体上具有广泛的应用:Lo 等用专利授予量、专利被引量、专利耦合等专利信息分析方法研究了韩国、日本和台湾的生产力分布[45];Chen 研究了专利分析与公司成长的关系[46];Mattes 等研究了专利与发明者测度,发现最常见的发明人是具有研究生资格的中年男性,女性仅占发明人的0.4%至3.5%,其中43%到68%的授权专利成为创新产品[47]。
一些技术/功效矩阵基于每个专利文献的数据索引,并且当面对具有大量专利申请的技术领域时,该索引方法在实现级别上存在困难。随着包括机器学习在内的人工智能已经成为许多“大数据”项目的重要支持,将人工智能应用于专利大数据挖掘,将是专利信息应用的重要方向。其次,大数据呈现松散、大型、多源和复杂的结构,这需要我们解决专利信息分析应用中的多源协同问题。此外,专利信息本身具有表达创新的滞后,隐藏关键技术的可能性,保护主题的有限性以及由于格式一致性而导致的技术信息的不完整性,这在一定程度上影响了专利信息分析的全面性。
5 结论
通过梳理已有研究,我们发现这些成果主要集中在专利信息分析系统研究、专利信息分析技术研究、专利信息分析方法研究以及专利信息分析应用研究四个方面。现有研究仍存在以下可以完善的地方:①目前已有的一些研究专利信息分析系统的文献集中于专利信息分析系统设计,较少研究专利信息分析系统规划、专利信息分析系统开发、专利信息分析系统实施等。②目前在应用专利地图识别技术机会的绘制过程中,一些使用TDA 和其他软件的工具被用作专利数据中的关键词,所选关键字的准确度可能不高;部分由专家人工确定关键词的研究容易造成关键词遗漏。③大数据呈现出的松散、量大、多源以及结构复杂等特征,目前研究还未解决多源数据协同的问题。
值得指出的是,该领域现存的问题给未来研究提供了契机,未来研究可以关注以下方面:①未来专利信息分析系统的研究可以扩展到专利信息分析系统规划、系统开发、系统实施等研究领域。②未来研究可尝试将机器学习、人工智能等技术运用到专利地图绘制的过程中,实现专利地图绘制的智能化。③在专利信息分析应用中解决多数据源协同的问题。④随着专利信息的持续增加,笔者认为今后专利信息分析方法研究还需关注互联网+、云计算环境下的专利信息大数据研究方法;随着本体技术的不断成熟,关注本体语义学在文本挖掘中的应用将成为专利信息语义分析的新趋势。此外,专利信息分析方法研究应积极吸收信息经济学、人工智能等领域的模型与算法思想,形成新的综合性专利信息分析方法,以提高数据处理能力。