专利技术信息挖掘研究进展*
2018-04-24文庭孝
赵 阳 文庭孝
(中南大学信息安全与大数据研究院 长沙 410083)
1 专利技术信息研究
随着知识经济和创新驱动的快速发展,作为知识产权核心的专利得到了高度重视。专利是一种集技术、法律和经济于一体的复合性、综合性信息资源,其中,技术信息是专利承载和反映的核心内容,是反映最新科技信息的新发明、新创造、新设计。
1.1 专利文献的技术属性
专利文献记载了人类取得的每一个技术进步,是一本活的技术百科全书。专利文献对技术信息的揭示完整而详细,主要体现在:申请人必须按照《专利法》在专利申请书中对发明创造做出清楚而完整的说明,且该说明以所属技术领域的人员能实现为标准。此外,为了满足专利申请对新颖性、创造性和实用性的审查要求,专利说明书一般都会对发明创造的技术方案进行完整而详尽的描述,并且参照现有技术指明其发明点所在、具体的实施方式以及有益的效果[1]。专利文献不仅详细说明技术内容,同时还会对技术领域的现存技术作简要介绍,因而专利文献提供了一个窥探特定技术发展历程的独特视角。
1.2 专利技术信息的内涵
专利技术信息是指某一技术领域内发明创造的内容,也是某一特定技术的发展趋势、技术解决方案、技术分布(领域、地域、主体)和技术主题等。因此,专利技术信息就是指揭示发明创造技术内容的相关信息,包括某一技术领域内新的发明创造、某一特定技术的发展历史、某一技术的关键解决方案、某项发明的技术领域、主题和发明的内容提要等[1]。
专利技术信息分为外部特征信息和内部特征信息。外部特征信息反映在专利文献扉页的著录项目中,如申请日、授权日、发明人、专利权人、地址、国家代码、国省代码、专利分类号、分类范畴、检索领域等;内部特征信息包含在专利文摘、权利要求项和技术说明书中,具体有发明名称、摘要、关键词、参考文献、专利权项、技术说明书、附图等。
1.3 专利技术信息挖掘及其作用
专利技术信息挖掘是指将个别或大量专利中潜在的技术信息,通过加工、组合、统计或数据文本处理的方式从专利文献中挖掘出来,形成为创新活动服务的情报和知识[2]。专利技术信息挖掘贯穿于创新活动的全过程,通过理解和跟踪创新流程[3],从技术趋势、技术分布和核心专利的挖掘入手,了解技术研发的进程,分析技术分布的态势以及掌握技术发展的趋势,从而为技术创新活动提供技术监测、竞争情报、技术评价和预测等决策信息,并在企业技术研发、专利布局、侵权维护等战略部署中发挥着重要作用。
2 基于专利检索的专利技术信息挖掘研究
2.1 专利检索类型
专利检索是根据一项或数项特征,从大量的专利文献或专利数据库中挑选符合特定要求的信息的过程。专利检索有专利技术信息检索、新颖性检索、专利法律状态检索和同族专利检索四种基本类型,由此还可以衍生出多种类型。其中专利技术信息检索和专利技术方案检索与专利技术信息挖掘密切相关[4]。
专利技术信息检索是指从任意一个主题对专利文献进行检索,其目的是找出相关的参考文献。专利技术信息检索的信息特征一般是:主题词、专利分类号等,有时辅以专利权人、发明人、申请日、授权日等检索条件。通过专利技术信息检索可以挖掘出技术领域内相关技术专利,初步了解技术现状和技术分布[4]。
专利技术方案检索是针对发明创造的技术方案,对包括专利文献在内的全世界范围内的各种公开出版物进行的检索,目的是要找出可进行新颖性和创造性对比的文件,确定专利技术方案是否具有新颖性和创造性[4]。因此,专利技术方案检索又被称为专利新颖性检索、专利性检索、专利对比文件检索。专利技术方案检索和专利技术信息检索一样,都是从技术主题出发进行检索,但是专利技术方案对检索精度要求更高。
2.2 专利检索策略
专利检索策略是为实现专利信息检索目标而制定的计划和方案,包括确定专利信息检索类型、选定检索系统、按照特定检索步骤、构建合理的检索提问式。专利技术信息检索通常以IPC分类号、专利名称、摘要、关键词、权利要求等作为主要检索入口,选择适当逻辑运算符和截词符等制定检索策略。为了评估蓝藻的现有技术及其应用情况,Sekar制定了相应的专利检索策略在美国的专利商标局专利数据库(USTPO)中进行专利技术信息检索[5]。常用的专利检索大多依赖专家提出的关键词或IPC制定检索策略,各有其优缺点,因而张晨提出了关键词与分类号相结合的检索方式,优化专利检索策略[6]。但基于关键词或IPC的专利检索不可避免的存在主观判断和信息遗漏等缺陷,为此,陈琼娣提出了基于词频分析的清洁技术专利检索策略[7]。
现有专利检索系统大多数是基于IPC分类建立的,但无法从创新的角度提供不同领域可借鉴的技术原理。也就是说,IPC是适用于审查的分类系统,而不是便于技术创新的分类系统。据此,李更提出了基于TRIZ创新流程与IPC相结合的检索系统,更易找到准确的专利技术信息[8]。刘彤认为,TRIZ理论通过对技术方案的分析,利用矛盾矩阵,形成一种有章可循的发明构想,可以帮助遴选高效的检索词,从而提高专利技术信息的有效利用[9]。
2.3 专利检索技术与方法
专利检索条目的抽取是专利技术检索成功的关键。由于输入的检索词可能属于不同的技术主题,无法表达准确的查询要求,专利检索方法也无法有效捕捉到用户的查询意图并获得良好的扩展条件,从而导致专利检索效率低下。因此,寻求有效的条件扩展和精度进而提升专利检索技术与方法就成为研究的重点。Mahdabi利用IPC描述作为扩展词典,提出了基于位置邻近的扩展检索方法,可以最大限度地降低扩展词歧义[10]。Wang则提出了一种基于语义查询的专利检索方法,实现专利技术信息的扩展检索[11]。Mahdabi则将引文信息引入相似专利检索,通过专利的引文链接扩展返回的专利文档[12]。在提高专利检索精度方面,最常使用的方法是向量空间模型(VSM),但在文字表述发生变化时该方法就会失效。因此,Lim[13]、陈芨熙[14]利用VSM和本体相结合的方式提高了专利技术检索精度,而Chen提出用基于IPC的索引词汇法来提高技术信息检索的准确性[15]。Lee通过改进检索技术,利用关键词加权分布和Top-k算法,在检索结果中直接显示与目标技术最相关和最重要的专利,实现相关技术的检索和自动排序[16]。Krestel提出了基于潜在主题的专利推荐方法,利用多项式回归对专利查询条件进行计算,从专利集合中选取Top-k个内容相关的专利进行排序[17]。
专利检索是挖掘专利技术信息的首要步骤,通过不断改进的检索策略、检索技术和检索方法,可以全面、准确检索实现专利技术信息,而对检索结果的技术相关性排序则更是扩大了专利检索在专利技术信息挖掘中的作用,使专利检索不单是获取相关技术的途径,也成为一种专利分析的辅助方法。
3 基于专利地图的专利技术信息挖掘研究
3.1 专利地图的类型
专利地图是由各种与专利相关的信息以统计分析方法加以缜密及精细地剖析而制成各种可解读的图表,使其具有类似地图的指向功能[18]。专利地图在专利技术信息挖掘中起到承上启下的作用,承上是指将检索到的专利信息经过整理、综合、归纳,以数据的形式归入图表中,对技术信息进行定量和定性分析;启下是指通过专利地图的分析,获得某一技术发展路线、水平、趋势等情报,为技术发展动向和技术创新角度提供情报。
专利地图一般可以分为专利管理地图、专利技术地图和专利权利地图三类[19]。其中,专利技术地图服务于技术研发,是挖掘专利技术发展动向,预测技术趋势的重要利器。专利技术地图是针对某个技术领域内的技术发展趋势、集中程度等方面的分析,主要有专利技术分布图、技术生命周期图、技术功效矩阵图、技术路线图、技术主体图等,目的是为了表达某一技术领域的技术总体态势、周期、热点、空白、演进和布局,从而挖掘专利技术信息。
3.2 专利地图的应用
专利地图是用于专利技术信息挖掘的常用工具,其中技术生命周期图、技术功效矩阵图、技术路线图、主要竞争对手及核心技术分布图在专利技术信息挖掘中应用比较广泛。
技术生命周期是技术成熟度的反映,包括导入期、成长期、成熟期和衰退期,一般通过计算专利指标、相对增长率和技术生命周期图法获得[20-21]。国内外学者大多使用某一技术在不同时期内专利申请量和专利申请人数的变化关系来绘制专利技术生命周期图,从而清楚地了解该技术发展状态[22-23]。由于技术生命周期只能反映专利技术的某一方面,因此还需要借助其他工具来配合进行全面的专利技术信息挖掘。Lo意识到了科学与技术的关系,利用专利授权量制作专利地图,探讨技术生命周期的变化[24]。冯立杰、钟华珂等结合专利申请情况、IPC和地区分布、专利权人等指标,利用技术生命周期图反映专利技术现状[25-26]。
专利技术功效矩阵图是通过对专利文献反映的技术主题内容和主要技术功能效果之间的特征研究,揭示技术和功效之间的关系[27],便于相关技术人员掌握技术布局情况,用于寻找技术空白点、技术研发热点,从而发现潜在的研发方向。目前,技术功效矩阵的构建主要还是以手工为主,已经无法适应专利技术信息挖掘的要求,因此国内外学者把目光聚焦于技术词与功效词的有效提取上。陈颖提出了一种基于特征度指标的矩阵构建词汇模型[28]。王丽利用主题自动标引生成技术功效图[29]。霍翠婷利用日本专利检索体系中的FI/Fterm分类标准进行自动标引,构建技术功能效图[30]。张博培、He依靠术语识别技术构建专利技术功效图,实现专利技术信息的半自动化挖掘[31-32]。
技术路线图是基于专利文献信息分析描绘某技术领域的主要技术发展路径和关键技术节点,从技术链的完整视野认知主流技术发展历程。余小萍认为技术路线图是应用简洁的图表、文字等形式描绘技术变化的步骤和技术环节之间的逻辑关系[33]。缪小明利用专利引文网络制作了核心技术发展路线图,并结合核心专利年代分布图、核心技术IPC分类图等完整描述了混合动力汽车技术路线[34]。还有一些学者提出了更加先进的专利技术路线图,如Kim在确定核心专利的引文网络中加入专利主题的语义分析,利用潜在狄利克雷分布识别技术分类,提高了专利技术路线图的精度[35]。Jeong通过GTM模型分析技术发展现状和空白,并利用贝叶斯模型预测技术领域的最大专利申请量和新专利节点近似出现的时间,克服了技术路线图只能提供发展趋势而不能提供技术机会出现时间的缺陷[36]。
主要竞争对手及核心技术分布图是针对某项技术,利用图表分析,识别竞争对手及其专利活动的分析工具。制作该专利地图时,需要多种信息的融合,包括技术领域和重点专利申请人排名、专利申请趋势、技术构成、地域构成、研发团队发展脉络等角度[37]。张红芹从市场、能力、时间三个维度构建专利地图确立主要竞争对手,进行核心专利挖掘[38]。王兴旺构建了基于专利地图的竞争对手分析模型,使用专利权人研发趋势图、研发重点分布图、专利权人关联图、专利引证图、专利权人引证排行表等综合确定竞争对手及其核心技术[39]。Trappey[40]和Chang[41]引入专利引文网络,使用专利受让人和专利权人网络来锁定主要竞争对手。
4 基于专利引文的专利技术信息挖掘研究
专利对其他专利的引用体现了技术发展的规律、继承和积累以及不同技术领域的交叉和渗透。与科技文献类似,专利间的引文关系实际上也是一种“引文链”或“引文网络”,能够反映蕴含在专利中的技术流动,揭示和挖掘专利技术相互联系的实质和内涵[42]。基于专利引文的专利技术信息挖掘关键在于分析专利引文量和引文指标,进一步结合时间序列的引文聚类分析,可用于确定某一技术领域内的核心技术,并通过引证路径追溯技术发展的历程,分析技术发展和技术关键节点[43]。
4.1 引文分析指标
专利引文分析指标可对单个专利或目标专利群进行专利价值、技术容量、技术原创性、技术应用广度等多个维度的挖掘。目前,国内外学者用于专利技术信息挖掘的专利引文分析指标有:反映专利技术重要程度的被引频次[44],反映主体技术实力的自引或他引率[45],反映某技术影响的当前影响指数[46],反映技术变化快慢的技术循环周期[47]和反映技术容量的吸收或扩散指数[48]等。吴菲菲以引文分析指标为基础,基于知识新颖性和领域交叉性,提出了锁定前沿技术的专利识别方法[49]。引文指标组合分析虽然可以挖掘技术强度、技术影响力和技术循环周期等,但不能体现专利“引文链”和“引文网络”的特性,存在局限性。
4.2 引文网络
具有直接引证关系的两篇或多篇专利必然存在某种技术联系,因此,可以利用专利群之间直接或间接的引证关系进行引文网络分析。国内外对专利引文网络的研究主要集中在引文轨迹、同被引和引文耦合三个方面。
引文轨迹通过将专利前后引证关系以引证链的形式完整展现出来,直观反映技术发展过程的关键节点,可以识别专利中包含技术的演进轨迹,确定基础技术、核心技术[50-53]。引文轨迹依据引文网络的整体结构识别专利价值,还可以挖掘出被引频次不高却在网络中占据重要位置的专利。Martinelli在引文网络分析中应用孟德尔基因遗传规律分解专利知识,通过计算专利持久性指数,成功地减少了需要考虑的节点和链路数量[54]。Kim建议通过专利引用网络与动态技术树组合应用,确定微观技术进化轨迹,并使用通用性、多样性和新颖性指标,发现可以成为下一代技术和衍生技术起点的关键技术[55]。
专利文献不只具有直接引用关系,也存在着同被引和耦合的现象,利用专利共引和耦合分析可以挖掘不同研究主体的技术关联关系和强度,揭示技术分布规律并预测研究主体的技术发展趋势等。明宇[56]、李蓓[57]、Sharma[58]、Yongdai[59]等根据专利共引网络中心度的大小确定核心专利。Rodriguez认为单独使用中心度确定核心专利具有缺陷,可以通过删除网络中的节点得到相似性矩阵,相似性矩阵中变化最大的节点即为最具影响力的专利[60]。许海云认为专利技术功效主题词与专利共现在核心专利挖掘方面具有优越性,技术功效词、技术主题词与专利引文网络结合可用于锁定核心专利[61]。在使用引文耦合挖掘技术趋势方面,高楠提出基于原始观测值和余弦距离相似度算法建立专利相似性矩阵,并利用引文耦合网络获得技术前沿[62]。You使用时间序列模型Bass和ARIMA模型评估由重要专利生成的二级引文耦合网络,用于技术发展趋势预测[63]。
5 基于专利网络的专利技术信息挖掘研究
专利网络分析以社会网络分析、社会计量学和图形理论为基础,是专利引文分析的拓展和衍生,成为揭示专利之间关系、内涵、联系强度的重要工具。应用社会网络进行专利技术信息挖掘的主要项目有专利权利人、发明人、关键词、技术分类和引文网络分析等,从专利合作、竞争等角度分析了技术发展现状和趋势。
5.1 专利合作网络
以专利权人和发明人构建专利合作网络,揭示了技术合作关系。国内外大量研究集中在企业合作研发、合作模式、技术集群、核心发明人和专利权人识别上[64]。刘彤、李红对专利合作网络的演化路径和动态特征进行了分析,用于识别网络中潜在的重要合作关系及其变化[65-66]。贡金涛则对风力发电技术领域的专利合作网络结构特征和中心度进行了测量,分析专利技术合作情况及核心人员分布[67]。Du使用迭代算法和潜在狄利克雷分布模型分析了具有高影响力发明人和发明团体的技术方向,用于在发明人异构网络中更加准确和快速地找到核心发明人及合作团体[68]。
5.2 专利关键词网络
专利关键词网络的核心思想是利用文本挖掘技术提取专利文本关键词,对关键词进行聚类、关联等分析,挖掘技术特点,并通过确定网络中空白点并分析周围专利,探寻技术空白点。Sungjoo提出了一种基于关键词网络的专利分析方法,用于技术现状和技术空白点分析,奠定了专利关键词网络发展的基础[69]。刘美佳从专利摘要中抽取RFID技术关键词,利用关键词聚类网络挖掘技术主题,借助战略坐标图展现技术主题[70]。Wu提出一种结合德尔菲和层次分析的关键词网络分析法,通过提取关键词并确定每个关键词的权重,建立相似矩阵以增加网络精确性[71]。由于技术总是处于不断演化过程中,用关键词网络无法准确发现技术变化状况,为此Kim假设关键词网络中存在核心节点,通过加入时间变量,分析关键词网络随时间推移的分解性,可以更为细致地观察技术分解的过程[72]。
专利关键词网络在揭示技术发展现状和预测技术发展趋势方面更具科学性,但也存在局限:第一,用于构建专利网络的关键词提取受文本挖掘技术限制,操作比较复杂;第二,使用文本挖掘和其他技术时不可避免会造成信息的丢失;第三,在挖掘技术空白点时,虽然可以根据关键词空白确定需要重点分析的专利,但却无法直接确定技术创新的具体内容。
5.3 专利技术共类网络
技术共类网络用于探索专利所属的技术领域和主题,揭示技术演进和创新体系,从技术网络结构中挖掘技术分布。技术共类主要通过IPC聚类和共词分析实现,其中,共词分析将主题词作为分析对象,以可视化的方式展示主题分布,研究主题间关系和主题聚类情况。贾佳将所有引证核心专利的专利依据IPC进行聚类,可以掌握间接相关的技术交叉[73]。Yan提出利用距离量化某一技术领域涉及IPC的场邻近度,从而比较技术的共生和共类[74]。Long以IPC建立地铁技术共类网络,通过改进节点重要性贡献度相关矩阵算法,计算出整个技术共类网络的关键技术[75]。Chun从医疗器械专利提取的IPC代码协方差和相关系数建立IPC聚类网络识别中心技术[76]。Han以IPC共类探索ICT领域的技术融合[77]。
德温特手工代码(MC)具有很强的一致性和专业性,适用于技术共类分析。赵润州利用BICOMB软件对提取的高频代码构建专利DC代码共类矩阵和MC代码共词矩阵,构建共词网络识别技术分布和热点[78]。汪莉抽取《德温特创新索引》20个DC技术大类专利进行技术共类分析,利用技术共类率和强度指标测度专利跨度[79]。
相对于专利引文,基于专利网络的技术信息挖掘更具优势:第一,专利网络不仅考虑存在引证关系的两个专利之间的联系,还从整体上把握各专利的关系,减少了信息遗漏;第二,专利网络使用可视化方式展示全局专利的布局,可以更直观地理解专利结构,更全面地预见技术发展;第三,专利网络采用多种算法,并且国内外学者还在不断探索更为适用的方法,因此产生了更具科学性、准确性的专利指标,可以为精准决策提供依据。
6 基于专利挖掘的专利技术信息挖掘研究
6.1 专利数据挖掘研究
传统的专利技术信息挖掘主要基于原文分析和数据统计,即通过专利文献上固有的信息识别专利文献,并对指标数据进行统计得到技术发展现状。但这种挖掘方法无法揭示专利文献中隐藏的技术信息,且面对大量专利数据时工作量繁重,分析浅显。利用数据挖掘技术,可以从海量的、无法通过人工统计的专利数据中挖掘出潜在的技术信息,还能通过算法构建潜在技术信息的关联并有效展示出来[80]。专利文献的数据挖掘主要是指使用数据挖掘原理和方法(统计分析、知识抽取、聚类、分类、关联等)直接处理专利外部特征信息(著录项或专利元数据),得到共引与共类统计、时间序列分析、网络拓扑结构呈现等结果[81],再结合组合理论、专利地图等技术,对专利技术信息进行情报分析,以可视化的形式展现出来[82]。
6.2 专利文本挖掘研究
专利文本挖掘即综合使用信息检索、数据挖掘、自然语言处理及机器学习等领域的知识和技术对非结构化的专利文本,如题名、摘要、权利要求等字段,进行专利特征抽取、主题标引、分类与聚类等挖掘研究,从而识别专利的技术主题,并挖掘出替代性或共性技术,是对专利数据挖掘的补充和扩展。
6.2.1 专利术语抽取
专利术语抽取是专利文本挖掘的首要步骤,国内外在专利术语抽取领域的研究主要集中在抽取方法[83-84]、错误来源分析[85]及生偏术语识别上[86-87]。杨双龙利用术语词性规则自动生成方法和候选术语的TermRank排序算法得到了最相关的专利技术术语[88]。
“主—谓—宾”(Subject-Action-Object,SAO)结构分析也是专利术语抽取研究的热点。SAO结构源自发明问题解决理论,是表示问题解决方式的基本功能函数单元[89]。一般从摘要或权利要求部分抽取术语,提升了基于引文或关键词分析的性能,可以更好地揭示技术主题之间的关系。李欣[90]、Choi[91]利用文本挖掘提取SAO结构,根据语义相似度对专利文本聚类,再结合不同分析方法挖掘对应技术信息。SAO结构分析信赖于专家,Yang提出了基于分析树自动识别和抽取最合理SAO结构的方式[92]。
6.2.2 专利文本分类
基于多种分类器选择和机器学习的文本挖掘旨在实现高效的专利文本分类[93]。屈鹏对专利文本分类的相关问题进行了研究,包括术语特征适用性、主权项字段分类、主题相似等,并交叉验证了朴素贝叶斯分类器、KNN、Racchio、SVM等分类器的效果[94]。基于文本挖掘的专利技术分类解决了利用IPC分类和专家分类容易出现偏差的缺点[95],Chen采用分步分层的方式将专利分类到IPC小组水平[96],Trappey使用向后传播神经网络进一步提高了专利文本分类精度[97]。
此外,将文本挖掘与TRIZ相结合的分类也得到发展。梁艳红[98]、鲁麒[99]分别以TRIZ发明原理作为分类标准和语料库,建立了专利特征表示模型,而Loh[100]、He[101]则从用户分类和技术分类角度推进专利知识发现研究。
6.2.3 专利技术主题识别
专利技术主题识别是专利技术检索、专利技术分类以及技术领域前沿挖掘等多种技术信息分析的基础。基于文本挖掘的专利技术主题识别方式包括主题词获取、计算知识单元关联强度和面向多元关系融合的主题分析[102]。侯婷依据技术主题在专利标题中的分布特点和长度特征,提出了主题度算法,将主题度大的确定为技术主题,相似度大的确定为主题词的替代词[103]。基于专利文本可视化的技术主题发现也是对大规模文本处理的常见模式,郝智勇利用潜在狄利克雷分布自动建立特征项与语义之间的映射,自动抽取专利技术主题[104]。Tseng提出了通过计算技术术语聚簇频率的方式获得高频技术主题[105]。专利技术主题的识别不仅可以有效挖掘技术分布现状,还能与其他分析方法相结合获取其他技术情报。王效岳改进了以专利引文为基础的技术路线图,使用文本挖掘技术锁定专利技术主题,再利用主题分类构建技术主题路线图,锁定潜在发展技术主题[106]。Kim结合专利申请时间构建技术主题网络,展示技术主题变化过程[107]。Chen按照时间窗口切割进行主题聚类,并计算不同技术主题之间关联,绘制出技术演化过程[108]。
6.2.4 替代性或共性技术挖掘
替代性或共性技术识别是企业进行技术战略布局的重要依据。目前,替代或共性技术的识别主要依靠定性分析[109],但较少利用专利内含的技术信息进行挖掘。黄鲁成综合使用文本挖掘、德温特手工代码共现、专利引用三个指标确立共性技术识别框架[110],娄岩从核心性和相似性两个视角,应用技术功效矩阵逐层递进识别替代技术[111]。
基于文本的专利技术信息挖掘是近年来研究的热点,其中专利技术术语抽取、专利文本自动分类、专利技术主题及结合其他专利分析方法(如专利地图、引文、网络)等成为研究的焦点。专利文本挖掘拓展了专利技术信息挖掘的研究视角,同时提高了专利技术信息挖掘的深度和精度。但专利文本挖掘本身存在局限:首先是需要较高的技术水平;其次是专利文本技术与法律用语并存,用词晦涩难懂,增大文本挖掘难度;再次是专利文本挖掘模型计算结果和专利研究对象之间是否保持合理的联系还需要进一步探讨。
7 结语
专利技术信息是企业和科研机构研发的基础,是行业和国家创新的源泉,因此专利技术信息挖掘价值显著、意义重大、倍受关注,成为专利检索、专利地图、专利引文、专利网络和专利挖掘等领域研究的焦点。但基于专利检索、专利地图、专利引文、专利网络和专利挖掘的专利技术信息挖掘各有其优缺点,在可操作性、科学性、应用性方面差异显著,如表1所示。
目前,国内外在专利技术信息挖掘研究方面取得了可喜的进展,并向更精确、更深入和更全面的方向发展,特别是结合大数据技术和各种算法进行海量专利技术信息的挖掘已经成为一种趋势。整体来看,当前基于多种方式的专利技术信息挖掘研究仍然以方法为主导,但事实上,基于问题驱动和实际应用场景的专利技术信息挖掘需求更为迫切。
表1 五种专利技术信息挖掘方式比较分析
(来稿时间:2017年9月)
参考文献:
1.李建蓉.专利信息与利用[M].北京:知识产权出版社,2006.
2. Tseng YH, Lin CJ, Lin YI. Text Mining Techniques for Patent Analysis[J]. INFORMATION PROCESSING &MANAGEMENT, 2007, 43(5):1216-1247.
3.潘君镇,刘剑锋,陈雅莉.浅谈如何进行专利挖掘[J].中国发明与专利,2016(12):51-53.
4.肖沪卫.专利战术情报方法与应用[M].上海:上海科学技术文献出版社,2015.
5. Soundarapandian S, Ponnaiah P. Strategic mining of cyanobacterial patents from the USPTO patent database and analysis of their scope and implications[J]. J Appl Phycol, 2006(19):277-292.
6.张晨.专利检索新策略——关键词与分类号相结合[J].科技情报开发与经济,2014(13):112-113.
7.陈琼娣.基于词频分析的清洁技术专利检索策略研究[J].情报杂志,2013(6):47-52.
8.李更,范文,赵今明.TRIZ创新流程与专利检索系统的结合探索[J].情报杂志,2013(2):79-81.
9.刘彤,刘以成,李俊.TRIZ理论在专利检索中的应用[J].中国科技信息,2014(1):163-165.
10. MAHDABI P, ANDERSSON L, Keikha M, et al.Automatic refinement o f patent queries using concept importance predictors[C]. Portland, USA, 2012:505-514.
11. Wang F, Lin LF, Yang S, et al. A Semantic Query Expansion-based Patent Retrieval Approach[J]. 2013 10TH INTERNATIONAL CONFERENCE ON FUZZY SYSTEMS AND KNOWLEDGE DISCOVERY (FSKD),2013:572-577.
12. Mahdabi P, Crestani F. The effect of citation analysis on query expansion for patent retrieval[J]. INFORMATION RETRIEVAL, 2014, 17(5-6SI):412-429.
13. Lim SS, Jung SW, Kwon HC. Improving Patent Retrieval System Using Ontology[M]. NEW YORK:IEEE, 2004:2646-2649.
14.陈芨熙,顾新建,陈国海,等.基于本体的专利检索技术[J].浙江大学学报(工学版),2009(12):2213-2217.
15. Chen YL, Chiu YT. An IPC-based vector space model for patent retrieval[J]. INFORMATION PROCESSING &MANAGEMENT, 2011, 47(3):309-322.
16. Lee W, Leung C, Song J J. Reducing Noises for Recall-Oriented Patent Retrieval[J]. 2014 IEEE FOURTH INTERNATIONAL CONFERENCE ON BIG DATA AND CLOUD COMPUTING (BDCLOUD),2014:579-586.
17. KRESTEL R, SMYTH P. Recommending patents based on latent topics[J].Recommender Systems, 2013:395-398.
18.左良军.基于专利地图理论的专利分析方法与应用探究[J].中国发明与专利,2017(4):29-33.
19.肖沪卫.专利地图方法与应用[M].上海:上海交通大学出版社,2011.
20.瞿丽曼.专利地图在企业技术研发中的应用[J].竞争情报,2009(4):44-56.
21. Wang XW. Summary Research on Energy-Efficient Technology for Multi-core Computing System Based on Scientometrics[M]. NEW YORK:SPRINGER, 2016:348, 983-989.
22. Fu BR, Hsu SW, Liu CH, et al. Statistical analysis of patent data relating to the organic Rankine cycle[J]. RENEWABLE& SUSTAINABLE ENERGY REVIEWS, 2014, 39:986-994.
23. Fu BR, Hsu SW, Liu CH. Trends in patent applications relating to organic Rankine cycle[M]. AMSTERDAM:ELSEVIER SCIENCE BV, 2014, 79:249-257.
24. Lo CH. An Extension Design By Applying Patent Map Analysis On Product Life Cycle[J]. PAKISTAN JOURNAL OF STATISTICS, 2013, 29(5):769-784.
25.冯立杰,王宇彬,王金凤,等.基于专利管理地图的我国三维打印技术发展研究[J].科技管理研究,2016(4):169-172.
26.钟华珂,冯立杰,王金凤,等.基于专利管理地图的我国煤层气开采技术发展研究[J].情报杂志,2012(9):21-24.
27.陈颖,张晓林.专利技术功效矩阵构建研究进展[J].现代图书情报技术,2011(11):1-8.
28.陈颖,张晓林.基于特征度和词汇模型的专利技术功效矩阵结构生成研究[J].现代图书情报技术,2012(2):53-59.
29.王丽,张冬荣,张晓辉,等.利用主题自动标引生成技术功效矩阵[J].现代图书情报技术,2013(5):80-86.
30.霍翠婷,蒋勇青,凌锋,等.日本FI/F-term分类体系在专利技术/功效矩阵中的应用研究[J].情报杂志,2013(11):140-144.
31.张博培.面向专利的术语识别与技术功效矩阵构建技术[D].北京:北京工业大学硕士论文,2015(3):64.
32. He Y, Li Y, Meng L. A New Method of Creating Patent Technology-Effect Matrix Based on Semantic Role Labeling[J].2015 International Conference on Identification, Information, and Knowledge in the Internet of Things (IIKI),2015:58-61.
33.余小萍,闰现洋.基于技术路线图的企业知识管理初探[J].情报杂志,2009, 28(7):96-101.
34.缪小明,汤松.基于专利地图的混合动力汽车技术路线研究[J].情报杂志,2013(5):73-76.
35. Kim M, Park Y, Yoon J. Generating patent development maps for technology monitoring using semantic patent-topic analysis[J].COMPUTERS & INDUSTRIAL ENGINEERING, 2016, 98:289-299.
36. Jeong Y, Lee K, Yoon B, et al. Development of a patent roadmap through the Generative Topographic Mapping and Bass diffusion model[J]. JOURNAL OF ENGINEERING AND TECHNOLOGY MANAGEMENT, 2015, 38:53-70.
37.詹斯特,赫西.竞争对手分析[M].北京:经济科学出版社,2004:100-113.
38.张红芹,鲍志彦.基于专利地图的竞争对手识别研究[J].情报科学,2011(12):1825-1829.
39.王兴旺,孙济庆.专利地图技术在竞争对手分析中的应用研究[J].中国科技论坛,2009(6):88-94.
40. Trappey A, Chen L, Chang J, et al. Strategic Development of LTE Mobile Communication Technology Based on Patent Map Analysis[M]. AMSTERDAM:IOS PRESS,2014, 1: 825-833.
41. Chang S, Trappey CV, Trappey A, et al. Forecasting Dental Implant Technologies Using Patent Analysis[M]. NEW YORK:IEEE, 2014:1483-1491.
42.滕立,黄兰青.国际专利引文研究的计量分析[J].情报工程,2016(2):18-25.
43.陈亮,张志强,尚玮姣.专利引文分析方法研究进展[J].现代图书情报技术,2013(Z1):75-81.
44.郗建红,彭爱东.专利被引频次与专利分类跨领域相关性研究——以中国在美国授权专利为例[J].情报杂志,2016(4):92-97.
45.洪勇,康宇航.基于专利引文的企业间技术溢出可视化研究[J].科研管理,2012(7):81-87.
46. Wang CC, Li YT, Chen DZ, et al. Uses Unexpired Patent to Re-evaluate Innovation Performance by h-index and h-core Indicators[M]. NEW YORK:IEEE, 2013:965-971.
47. Dalton DM, Burke TP, Kelly EG, et al. Quantitative Analysis of Technological Innovation in Knee Arthroplasty Using Patent and Publication Metrics to Identify Developments and Trends[J].JOURNAL OF ARTHROPLASTY, 2016, 31(6):1366-1372.
48. Kim DH, Lee BK, Sohn SY. Quantifying technologyindustry spillover effects based on patent citation network analysis of unmanned aerial vehicle (UAV)[J]. TECHNOLOGICAL FORECASTING AND SOCIAL CHANGE, 2016, 105:140-157.
49.吴菲菲,栾静静,黄鲁成,等.基于新颖性和领域交叉性的知识前沿性专利识别——以老年福祉技术为例[J].情报杂志,2016(5):85-90.
50.王健美,刘志芳,戴爱兵.纯电动汽车产业关键技术演进分析——专利引文分析视角[J].图书情报工作,2014(14):21-27.
51.范维熙,费钟琳.基于德温特专利引文网络的技术演进路径研究——以太阳能电池技术为例[J].情报杂志,2014(11):62-66.
52. Verspagen B. Mapping technological trajectories as patent citation networks: A study on the history of fuel cell research[J].ADVANCES IN COMPLEX SYSTEMS, 2007, 10(1):93-115.
53. Hsueh CC, Wang C C. The Use of Social Network Analysis in Knowledge Diffusion Research from Patent Data[C]. Social Network Analysis and Mining,2009. ASONAM09. International Conference on Advances in. IEEE, 2009:393-398.
54. Martinelli A, Nomaler O. Measuring knowledge persistence:a genetic approach to patent citation networks[J]. JOURNAL OF EVOLUTIONARY ECONOMICS, 2014, 24(3):623-652.
55. Kim J, On the evolutionary technological trajectory using patent citation network and dynamic technology tree analysis: a case study of HVDC High Voltage DC transmission system[J]. JOURNAL OF TECHNOLOGY INNOVATION,2014, 22(4):117-145.
56.明宇,司虎克.我国足球鞋发明专利的专利引文网络拓扑属性研究[J].中国体育科技,2015(5):138-144.
57.李蓓,陈向东.海峡两岸核心及新兴技术比较—基于专利引文网络的分析[J].科研管理,2015(2):96-106.
58. Sharma P, Rashmitripathi, Tripathi RC. Patent Citation Network Analysis for Measuring the ICT Patent Progress in India[J].ETRI Journal, 2016.
59. Yongdai K. Patent citation network analysis[J]. The Korean Journal of applied Statistics, 2016, 29(4):613-625.
60. Rodriguez A, Kim B, Lee J, et al. Graph kernel based measure for evaluating the influence of patents in a patent citation network[J]. EXPERT SYSTEMS WITH APPLICATIONS, 2015, 42(3):1479-1486.
61.许海云,岳増慧,雷炳旭,等.基于专利技术功效主题词与专利引文共现的核心专利挖掘[J].图书情报工作,2014(4):59-64.
62.高楠,傅俊英,赵蕴华.基于两种相似度矩阵的专利引文耦合方法识别研究前沿——以脑机接口为例[J].现代图书情报技术,2016(3):33-40.
63. You H, Li M, Hipel KW, et al. Development trend forecasting for coherent light generator technology based on patent citation network analysis[J]. SCIENTOMETRICS, 2017, 111(1):297-315.
64. Schrder C. Dynamics in ICT cooperation networks in selected German ICT clusters[J]. INTERNATIONAL ECONOMICS and ECONOMIC POLICY, 2013(3):197-230.
65.刘彤,郭鲁钢,杨冠灿.基于动态网络分析的专利合作网络演化分析——以纳米技术为例[J].情报杂志,2014(11):88-93.
66.李红,陈少龙.基于社会网络分析的智能手机专利发明人合作网络演化研究[J].科技管理研究,2013(20):157-160.
67.贡金涛,魏晓峰.基于社会网络分析的专利合著网络研究——以风力发电技术领域在华专利为例[J].情报杂志,2013(11):37-42.
68. Du Y, Yao C, Li N. Using heterogeneous patent network features to rank and discover influential inventors[J]. FRONTIERS OF INFORMATION TECHNOLOGY & ELECTRONIC ENGINEERING, 2015, 16(7):568-578.
69. Sungjoo L, Byungun Y, Yongtae P. An approach to discovering new technology opportunities:Keyword-based patent map approach[J]. TECHNOVATION, 2009(29):481-497.
70.刘美佳.基于专利分析的RFID技术演化研究[D].北京:北京工业大学硕士论文,2013.
71. Wu C. Constructing a weighted keyword-based patent network approach to identify technological trends and evolution in a field of green energy: a case of biofuels[J]. QUALITY &QUANTITY, 2016, 50(1):213-235.
72. Kim J. Analysis of Assortativity in the Keyword-based Patent Network Evolution[J]. Journal of Korean Society for Internet Information, 2013, 14(6):107-115.
73.贾佳,孙济庆.基于核心专利分析对技术创新应用发展的研究[J].情报理论与实践,2009(1):79-81.
74. Yan B, Luo J. Measuring technological distance for patent mapping[J]. JOURNAL OF THE ASSOCIATION FOR INFORMATION SCIENCE AND TECHNOLOGY, 2017, 68(2):423-437.
75. Long M, Ma T. On a patent analysis method for identifying the core technologies of metro in china[J]. Information Studies, 2016,30:1701-1707.
76. Chun J, Seop LC. Central Technology Deriving for the Patents of Medical Device using Social Network Analysis[J]. Management &Information Systems Review, 2016, 35(2):221-254.
77. Han J, Kim C. A Study of ICT Technology Convergence Analysis and Development Direction by Using the Patent Information: focusing on Kyongbuk area company[J]. The Journal of Intellectual Property, 2015, 10(3):203-238.
78.赵润州,徐卸古.基于专利信息的脑电图技术成熟度及技术网络分析[J].中华医学图书情报杂志,2016(4):7-12.
79.汪莉.专利跨度的测度及其应用研究[A].中国学学与科技政策研究会.第十届中国科技政策与管理学术年会论文集——分8:科学学与政策科学理论方法[C].中国科学学与科技政策研究会,2014:5.
80.谢湘宁.浅谈数据挖掘技术在专利信息分析中的应用[J].中国发明与专利,2015(1):59-62.
81.屈鹏,张均胜,曾文,等.国内外专利挖掘研究(2005—2014)综述[J].图书情报工作,2014(20):131-137.
82.袁冰,朱东华,任智军.基于数据挖掘技术的专利情报分析方法及实证研究[J].情报杂志,2006(12):99-102.
83.Tseng Y, Lin C, Lin Y. Text mining techniques for patent analysis[J]. Information Processing and Management, 2007, 43(5):1216-1247.
84.韩红旗,朱东华,汪雪峰.专利技术术语的抽取方法[J].情报学报,2011, 30(12):1280-1285.
85.徐川,施水才,房祥,等.中文专利文献术语抽取[J].计算机工程与设计,2013, 34(6):2175-2179.
86. Li Y, Wang LH, Hong CF. Extracting the significant rare keywords for patent analysis[J]. Expert Systems with Applications,2009, 36(3):5200-5204.
87.屈鹏,王惠临.面向信息分析的专利术语抽取研究[J].图书情报工作,2013(1):130-135.
88.杨双龙,吕学强,李卓,等.中文专利文献术语自动识别研究[J].中文信息学报,2016(3):111-117.
89. Altshuller GS. Creativity as an exact science: the theory of the solution of invention problem[M]. New York: Cordon and Breach Science Publishers, 1984.
90.李欣,王静静,杨梓,等.基于SAO结构语义分析的新兴技术识别研究[J].情报杂志,2016(3):80-84.
91. Choi S, Park H, Kang D, et al. An SAO-based text mining approach to building a technology tree for technology planning[J].EXPERT SYSTEMS WITH APPLICATIONS, 2012, 39(13):11443-11455.
92. Yang C, Zhu D, Wang X. SAO Semantic Information Identification for Text Mining[J]. INTERNATIONAL JOURNAL OF COMPUTATIONAL INTELLIGENCE SYSTEMS, 2017, 10(1):593-604.
93.张晓宇.基于文本挖掘的交互式专利分类[J].高技术通讯,2013(6):592-597.
94.屈鹏,王惠临.专利文本分类的基础问题研究[J].现代图书情报技术,2013(3):38-44.
95.张世玉,王伟,于跃,等.基于文本挖掘技术的技术层面专利组合分析方法优化[J].情报理论与实践,2015(10):127-129.
96. Chen Y, Chang Y. A three-phase method for patent classification[J]. Information Processing and Management, 2012, 48(6):1017-1030.
97. Trappey AJC, Hsu F, Trappey CV, et al. Development of a patent document classification and search platform using a back propagation network[J]. Expert Systems with Applications, 2006, 31(4):755-765.
98.梁艳红,檀润华,马建红.面向产品创新设计的专利文本分类研究[J].计算机集成制造系统,2013(2):382-390.
99.鲁麒,任工昌,李平平,等.基于TRIZ理论的中文专利文本挖掘模型的构建[J].情报科学,2014(10):28-32.
100. Loh H, He C, Shen LX. Automatic classification of patent documents for TRIZ users[J]. World Patent Information, 2006, 28(1):6-13.
101. He C, Loh H. Pattern oriented associative rule based patent classification[J]. Expert Systems with Applications, 2010, 37(3):2395-2404.
102.许海云,董坤,刘春江,等.文本主题识别关键技术研究综述[J].情报科学,2017(1):153-160.
103.侯婷,吕学强,李卓,等.面向专利技术主题分析的技术主题获取[J].情报理论与实践,2015(5):125-129.
104.郝智勇,贺明科,谭文堂,等.基于多维标度法的专利文本可视化聚类研究[J].计算机应用研究,2010(12):4608-4611.
105. Tseng YH, Lin CJ, Lin YI. Text Mining Techniques for Patent Analysis[J]. Information Processing and Management, 2007,43(5):1216-1247.
106. 王效岳,赵冬晓,白如江.基于专利文本数据挖掘的技术预测方法与实证研究——以纳米技术在能源领域应用为例[J].情报理论与实践,2017(4):106-110.
107. Kim YG, Suh JH, Park SC. Visualization of Patent Analysis for Emerging Technology[J]. Expert Systems with Applications, 2008,34(3):1804-1812.
108. Chen SH, Huang MH, Chen DZ. Identifying and Visualizing Technology Evolution: A Case Study of Smart Grid technology[J]. Technological Forecasting and Social Change, 2012,79(6):1099-1110.
109. Han YJ. Analysis of Competing Technologies and Firms in a Convergence Industry by Using Patent Information: The Case of Telematics[J]. Portland International Conference on Management of Engineering and Technology, 2007(8):259-262.
110.黄鲁成,张静.基于专利分析的产业共性技术识别方法研究[J].科学学与科学技术管理,2014(4):80-86.
111.娄岩,张赏,黄鲁成,等.基于专利分析的替代性技术识别研究[J].情报杂志,2014(9):27-32.