专利法律信息挖掘研究进展*
2018-01-29文庭孝
文庭孝 李 俊
(中南大学信息安全与大数据研究院 长沙 410083)
引言
专利文献和专利信息是人类智慧的结晶,是人类开拓创新的智慧源泉。据统计,世界上平均每10秒钟就产生一份专利申请,每20秒钟就出版一份专利文献,世界各国每年出版的专利文献总量超过150万件,占世界每年各种图书期刊总出版量的1/4,全球专利文献累积量已超过1亿件,电子化、数字化、网络化专利文献数量更是难以胜数。如欧洲专利局的Worldwide数据库收藏了1836年迄今的专利文献8 000多万件,数量还在不断得快速增长[1]。
专利文献既是技术文本,也是法律文本,集技术信息、法律信息、经济信息和战略信息等为一体。专利法律信息是专利信息的重要组成部分,在专利技术保护、专利质量把握、专利价值评估、专利技术成熟度判定、专利侵权纠纷解决以及专利技术研发、专利技术引进、专利产品销售等方面发挥着重要的作用。
自1780年美国正式颁布专利法以来,随着各国专利授权与保护制度的逐步建立与完善,专利申请与维权等实践活动日益增多,相关研究成果也日益丰硕。与此同时,专利法律信息挖掘相关研究成果也广泛分布于专利检索、专利分析、专利地图、专利文本挖掘、专利数据挖掘和专利引文分析等研究中[2]。整体来看,国内外有关专利技术信息挖掘的相关研究成果较多,而有关专利法律信息挖掘的相关研究成果相对较少。
1 专利法律信息研究
1.1 专利文献的法律属性
专利文献是法律文件,公开专利技术的权利归属,明确记载专利技术的保护范围及专利权人的姓名、地址、申请日期等各项法律信息[1],反映专利的有效性、地域性,如专利申请、专利授权、申请驳回、申请视撤、专利权恢复等法律状态信息[3],是了解专利权内容、范围和有效性等法律状况的有效信息源。
1.2 专利法律信息的类型
专利文献中的法律信息是表示专利权的各种标志,这些标志包括技术信息(如发明名称、摘要、权利要求书、说明书全文、附图、关键词、专利分类号、范畴分类、检索范围、引文等)、时间信息(如申请日、公开日、公告日、优先权日等)、空间信息(地址、邮政编码、国家代码、优先权国家、地区代码、国省代码等)、权利信息(如专利权人、法律状态、权利要求书、申请号、公开号、公告号、专利号、优先权号、申请日、授权日等)、人员信息(如申请人、发明人、专利权人、专利代理人、审查员等)、专利族信息(同族专利数量、同族专利号、同族专利国家或地区等)等[1,4],从中可以提炼、挖掘、分析出相关的专利法律信息。
专利文献中的专利信息一般分为外部(或外表)信息和内部(内容)信息两个维度,专利法律信息包含在专利信息的两个维度中。外部信息主要包括专利文献首页,即扉页中的著录信息;内部信息主要包括专利文摘、权利要求项和技术说明书三个部分中的专利信息[5]。具体来说,表示外部或外表信息的专利文献特征项主要有文献号、专利号、文献类别、国家代码、申请号、申请日期、优先申请号、优先申请日期、优先申请国家、公布或出版日期、展出日期(未审批)、展出日期(未批准)、公开说明书出版日期、审查未批说明书出版日期、批准专利说明书出版日期、申请人、发明人、受让人、律师或代理人等。表示内容或内部信息的专利文献特征项主要有国际专利分类号、本国专利分类号、国际十进制分类号、发明名称、关键词、文摘、引用文献、专利权项、技术说明书、附图等[6]。
1.3 专利法律信息的内容
专利具有时间性、地域性、权利独占性等显著特点,构成了专利法律信息的基本内容[7]。专利具有公开(或申请)、授权和失效三种基本法律状态[8]。其中公开(或申请)包括专利申请、驳回、撤回、视为撤回以及实质审查、复审、著录项变更等专利法律信息,授权包括专利授权、专利权转让、许可、强制许可、转移、恢复等专利法律信息,失效包括专利权的视为放弃(未及时缴纳年费)、撤销、终止(专利保护期届满)、无效宣告等专利法律信息[9-10]。这些法律信息体现在专利文献的著录项目以及专利审查部门在专利审查过程中产生的各种专利文件中,为专利实施法律保护提供了可靠的法律依据。
1.4 专利法律信息的作用
专利文献既是技术文本,也是法律文本,技术说明书和权利要求书是核心部分。专利说明书扉页和权利要求书是专利法律信息最重要、最有效的信息来源。专利说明书扉页揭示了专利的基本法律状态信息,而权利要求书清楚、简要地表述了专利技术请求保护的范围,经审查授权后可以作为判断是否侵权的法律依据,也是确定产品生产国,或准备输出和引进时不致造成侵权的法律依据[11]。同时,也可以为专利申请审查、专利纠纷处理、专利技术引进等提供法律依据[1,4,10]。
2 基于专利分析的专利法律信息挖掘研究
基于专利分析的专利法律信息挖掘是指专利法律信息分析,即对专利法律信息进行整理、归纳、分析,对相关专利的法律状态有个全面、清晰的了解,有利于根据专利的法律状态规避法律风险,挖掘失效专利、寻找商机,判断专利技术的质量和价值[9]。
专利分析涉及专利技术层面、经济层面、法律层面(权利层面)和竞争层面(战略层面)的分析[12]。法律层面或权利层面的分析,即专利法律信息分析,主要包括专利法律状态分析、专利权利要求分析、专利侵权诉讼分析、专利权利归属分析和专利价值分析等。也有学者认为专利法律信息分析包括专利性分析、专利法律状态分析、专利侵权分析和同族专利分析四个方面[1]。
2.1 专利分析及其本质
专利分析也称专利信息分析、专利情报分析、专利统计分析、专利计量分析,是指对来自专利文献中大量或个别的专利信息进行加工及组合,并利用统计方法或数据处理手段使这些信息具有纵览全局及预测的功能,并通过专利分析使它们由普通的专利信息上升为企业经济活动中有价值的专利情报[12-13]。专利分析主要是从专利文献中抽取大量的专利信息,利用定性、定量方法和专利图表挖掘隐藏在专利文献背后的情报,揭示技术、对手、市场、研发、人才、伙伴、法律等专利信息,帮助企业了解对手、了解市场、指导研发、找到专利人才、找到合作伙伴、得到公知公用技术、制定专利战略、避免专利侵权、应对专利诉讼等[14]。专利分析可将专利信息转化成具有较高技术与商业价值的专利情报[4]。
专利分析的本质是对专利著录信息、文本内容、专利引文、专利数量等进行定向选择和科学抽象,分析其相互关联,挖掘深藏在其中的客观事实真相,并转化为有价值的专利竞争情报[11,15]。专利分析涉及管理学、法学、经济学、自然科学等多个学科领域, 属于交叉研究领域[15]。
专利分析方法根据性质一般分为定性分析、定量分析及定性定量分析(拟定量分析)方法三种[4]。定性分析是指通过对专利的“质”、专利文献的内在特征和内容进行归纳、总结、分析与综合等思维加工,达到认识专利本质、揭示内在规律的目的,一般用于获取技术动向、企业动向、特定权利状况等信息。定量分析利用统计学和文献计量学等各种方法和手段,以数学模型和图表为表达方式,对其中所含的各种情报要素进行统计排序、对比分析和研究,从不同的角度研究专利文献中所记录的技术、法律和经济信息,从而揭示专利情报流的深层动态特征,了解技术、经济发展的过去及现状,并据此进行技术评估和技术预测[4,16]。具体的专利分析方法很多,都可以对专利分类号、专利发明人、专利权人、专利申请日(授权公布日)、专利申请国和专利法律状态等相关法律信息进行定性和定量分析。
2.2 专利法律状态分析
专利法律状态信息的类型多样,一般按专利生存情况分为“有效”和“失效”两类,其中有效和失效又分为多样类型。中国发明专利按审查情况可分为“公开”“实质审查”“有权”“失效”四类[13]。专利法律状态分析的内容有特征点分析(分析单个专利对象中的法律状态构成特征,结合商业、技术、政策,以及其他专利统计信息等剖析特征点出现的原因)和比较分析(运用“自身纵向比较”和“自身比他人”的方法比较不同法律状态的构成差异,结合商业、技术、政策,以及其他专利统计信息等剖析差异出现的原因,进行合理推测)[13]。
专利法律状态分析还可以利用专利指标来分析[4],如专利授权率(专利授权量与专利申请量之比,用于从整体上测算专利申请的技术质量)、专利存活率(专利存活量与专利申请量之比,用于测算法律状态处于有效状态的专利占比情况)。
通过对不同对象的专利法律状态构成进行分析,可以衡量竞争对手的技术研发实力和专利技术含量高低,评估专利威胁;可以衡量技术领域的专利活跃程度,评估专利风险[17]。张运鸿、张善杰以德温特专利数据库为基础,对我国的微电子机械系统传感器专利技术的专利法律状态信息进行了分析[18]。王伟基于德温特专利数据对我国光纤预制棒领域的专利法律状态的分布及趋势进行了分析[19]。
2.3 专利权利要求分析
专利权利要求书是确定专利保护范围的主要依据,是专利申请文件中最核心的部分之一。专利权利要求数通常被用来研究专利的保护效果,一般认为,专利权利要求数越多,保护范围越大,越容易被替代,保护效果越低[20-21]。
专利权利要求包括产品权利要求和方法权利要求。权利要求中记载的所有技术特征共同限定了该权利要求的保护范围。权利要求分析从所涉及的技术内容(如创新点、保护范围)、结构以及布局模式等方面进行,包括权利要求保护的主题、权利要求之间引用关系等[11]。
根据需求不同,专利权利要求分析包括保护范围分析、侵权对比分析、撰写缺陷分析、稳定性分析等[13]。从分析对象来看,权利要求的保护范围分析包括“单件专利的保护范围分析”和“多件专利的保护范围分析”。多件专利的保护范围分析又包括同一专利申请人的多件专利保护范围分析和不同专利申请人的多件专利保护范围分析。从分析内容来看,权利要求的保护范围分析包括“权利要求书的结构分析”(分析权利所包含的技术特征及多项权利要求之间的关系,确定整个专利权利要求书所覆盖的直接范围)和“权利要求书保护范围影响因素分析”(分析说明书中的技术方案如何在权利要求书中体现,以及专利和同族专利在审查过程中的相关文件是否对权利要求保护范围进行限制与缩小)。权利要求保护范围分析有助于找出权利和技术的空白点,不但可以了解技术自由实施度,设计专利侵权风险的合理规避方案,而且可以为新技术专利申请规划权利空间,以保证顺利获得授权并得到最大的经济利益。权利要求书保护范围的影响因素分析有助于评估专利的稳定性,为后续可能发生的无效申请或侵权诉讼提供参考[13]。
2.4 专利侵权诉讼分析
我国《专利法》规定:未经专利权人许可,实施其专利,即侵犯其专利权。专利权的保护范围以专利权利要求书为界限。专利侵权判定是专利诉讼、新产品开发、产品进出口贸易、技术规避设计等技术、经济与法律活动中需要解决的重要问题。当事人和其他诉讼参与人在面临专利诉讼时都需要进行专利法律状态检索与分析、专利侵权检索与分析[1]。
专利法律信息分析的重点在于专利性分析、专利侵权和专利诉讼分析等,其共同点在于对专利权利要求本身的解读和分析。专利性分析是指通过定性分析,判断创新技术与现有技术相比较是否具备了专利法规定的新颖性、创造性和实用性。专利侵权分析侧重于对已经发生或可能发生的专利侵权行为的判定,既包括企业对他人的侵权,也包括他人对企业的侵权。专利侵权分析也可分为防止侵权分析和被动侵权分析[13]。可以为已经发生或可能发生的企业的专利侵权行为做出恰当的评估,为企业采取规避或警告、索赔或赔偿、诉讼及结盟等策略提供建议[10]。专利诉讼分析包括专利侵权诉讼主体分析、专利侵权诉讼可能性分析、专利侵权诉讼战略分析[13]。
专利侵权分析和专利诉讼分析可以帮助厘清行业内不同诉讼主体的实际诉讼模式和应诉经验、诉讼主体在不同地域面对和进行的专利诉讼情况。通过分析企业已经发生的专利诉讼或者许可谈判事项,可以透视企业的专利申请、专利运用、专利布局和专利保护策略及研发方向、研发合作和企业兼并乃至整体专利战略等信息,帮助企业对有可能发生的专利诉讼提前做好准备,为公司制定科学合理的应对策略提供参考。还可以达到阻断竞争对手进入目标市场、获得侵权赔偿、消耗对方公司资源、获取对方情报、诋毁对方商业信誉、获得专利许可费用、影响下游客户订单等目的[4,13]。
2.5 专利权属分析
专利权(Patent Rights)是指国家专利主管部门依据专利法授予发明创造人或专利权人在法律规定的有效期内,对其发明所享有的专有权、垄断权、独占权,未经专利权人许可,他人不得随意使用该专利技术。专利权是一种专有的、排他的权利,但受到时间和空间的限制。
在专利权的获取、运用过程中形成的关于权利状态信息则构成了权属信息,包括专利法律状态、权利要求范围(包括权利要求内容和要求保护的地域)、专利权的所有者等。专利权属分析有专利法律状态确认、避免侵权专利分析、可专利性分析和被诉侵权专利分析等[22]。
2.6 专利价值分析
专利价值包括技术价值、经济价值和法律价值三个部分,专利的法律价值分析是专利价值评估重要组成部分,一般用专利的稳定性、可规避性、依赖性、专利侵权可判定性、有效期、多国申请(同族专利数)、专利许可状态等作为专利法律价值的衡量指标[23]。也有学者提出用专利被引次数、专利族大小、专利寿命、专利异议和专利诉讼等指标综合评价和分析专利的价值,其中多个指标都与专利的法律价值密切相关[24]。根据专利寿命和专利族大小能更准确地反映专利的价值。欧洲、德国的专利法在专利授权后的一定期限内设置了专利异议,能够成功抵御异议的专利可以认为是有价值的专利[25]。专利权要求数通常也是考察专利价值的重要指标。研究表明,有价值的专利表现为专利权要求的数量多而且技术覆盖范围广,遭遇侵权和诉讼的频率也较高[26]。一般认为,价值高的专利遭遇诉讼的可能性较大,因此,是否遭遇并成功通过专利诉讼是专利价值的重要反映,遭遇诉讼的可能性与专利权要求的数量呈正相关。此外,专利权要求的数量还可以用来表征专利的技术覆盖范围[25]。
3 基于专利检索的专利法律信息挖掘研究
基于专利检索的专利法律信息挖掘主要是指专利法律信息检索,专利法律信息检索的类型主要有同族专利检索、专利法律状态检索、专利性检索、专利侵权检索、专利查新检索、专利诉讼案例检索等。专利法律信息检索在专利权转移或许可、规避侵权风险、发生侵权纠纷、判定发明专利性等方面具有重要的作用[10]。
3.1 专利检索及其本质
专利检索是专利信息挖掘和分析的前提和基础,其中专利法律信息检索异常重要。专利检索即专利信息查找,是指在专利信息源中查找所需信息或文献的过程,具体包括专利性检索、专题检索、技术引进专利检索、研发立项专利检索、申请人检索、发明人检索、防止侵权检索、被动侵权检索(无效专利检索)、专利有效性检索、专利地域效力检索、同族专利检索(专利号、申请号、优先权)、专利引文检索、失效专利检索、专利诉讼案例检索、专利语义检索、外观设计检索等[1]。专利检索利用专利著录信息,通过专利文献标引,提供多种检索途径和检索入口,可以揭示专利申请(专利)号、申请日、公开(公告)号、公开(公告)日、专利名称、专利摘要、主分类号、分类号、申请(专利权)人、发明(设计)人、主权项、地址、专利代理机构、专利代理人、优先权、国省代码等专利信息,达到专利信息挖掘的目的[1]。因此,专利检索是对已经加工存储的专利法律信息进行挖掘和分析,一般可通过专利检索系统、专利检索平台或专利数据库来实现。各国专利局网站、商业数据库和专利搜索引擎等中都有多个字段与专利法律信息密切相关,包括专利权人、专利号、专利发明人、专利申请年、专利优先年等。如基于网络的 Innography 系统具有丰富的数据模块和多样的检索分析功能,可以查询和获取 70 多个国家的同族专利、法律状态和专利全文并进行深度分析。其中专利相似指标可帮助用户快速查找相似专利,并应用到专利的无效分析、侵权分析等领域[27]。因此,有学者认为,可以通过检索过期专利信息和专利法律状态信息及利用失效专利数据库挖掘免费专利资源[28]。
3.2 同族专利检索
同族专利信息是重要的专利法律信息。专利文献在产生过程中会大量重复出现,形成了一组组由不同国家出版的、内容相同或基本相同的、具有共同优先权的专利文献。由至少一个优先权联系的一组专利文献,称一个专利族,同一专利族中每件专利文献被称为专利族成员。同族专利检索是指以某一专利或专利申请为线索,查找与其同属于一个专利族的所有成员的过程。同族专利检索可以通过同族专利检索线索,即同族专利检索要素来实现,同族专利检索要素有号码、公司 /人名和主题词三类[1,7,10]。
3.3 专利法律状态检索
专利法律状态是指在某一特定时间,某项专利申请或授权专利在某一国家的权利维持、权利范围、权利类型、权利归属等状态,这些状态直接影响到专利权的存在与否以及专利权利范围的大小。此外,专利法律状态还包括专利权归属、专利权是否有效、获得许可证等专利产生、发展和变化过程中出现的其他法律信息[7]。
在专利产生、发展和变化过程中出现常见的专利法律状态类型有:专利申请尚未授权、专利申请撤回、专利申请被驳回、专利权有效、专利权终止、专利权转移、专利权有效期届满、专利权无效、专利权质押、专利许可、专利权视为放弃等。一般可通过各国的专利法律状态检索系统来实现[1,7]。
专利法律状态检索是指对一项专利或专利申请当前所处的法律状态进行的检索,其目的是了解专利申请是否授权,授权专利是否有效,专利权人是否变更,以及与专利法律状态相关的信息[1,7,10]。专利法律状态检索包括专利有效性检索、专利地域性检索和专利变更信息检索[9]。专利有效性检索是指对一项专利或专利申请当前所处的法律状态进行的检索,目的是了解该项专利申请是否被授权,授权专利是否有效(如时间上是否处于有效期)。专利地域性检索是指对一项发明创造都在哪些国家和地区申请了专利所进行的检索,目的是确定该项专利申请的地域范围(如同族专利检索)。可检索的其他专利法律状态信息还有:专利或专利申请的著录事项、变更信息、专利申请、审查或复审过程中的信息、授权后的专利权转移、许可、异议等法律活动信息。
3.4 专利侵权检索
专利侵权检索分为主动侵权检索和被动侵权检索。主动侵权检索又称防止侵权检索,是指为了避免发生专利纠纷而主动针对某一产品或方法进行专利检索,找出其可能侵权的专利或专利申请并且评估侵权风险,也称为“自由实施(Freedom To Operate, FTO)专利检索”。被动侵权检索是指被别人指控侵权时进行的检索,判断专利侵权指控是否成立,找出对受到侵害的专利提出无效诉讼的依据。专利侵权检索主要应用于产品制造、产品上市、专利诉讼、防范他人侵权等方面[1]。专利侵权检索也称为专利侵权判定及对比文献检索,其目的是为了规避专利侵权及用于被控侵权抗辩[29]。我国学者翟东升构建中文专利侵权检索模型,并设计了中文专利侵权检索系统,用于自动判断中文专利权利要求书中的专利侵权行为[30]。
3.5 专利查新检索
在专利法律信息检索中,专利查新检索也称专利性检索和新颖性检索,是指找出与发明创造技术主题相关的现有技术中的对比文献,或者找出抵触申请文献和防止重复授权的文献,并与发明创造技术主题进行对比,判断发明创造是否具有新颖性和创造性(可专利性)的检索过程[1]。用户在解决评估发明创造能否授权、确认授权专利的稳定性、帮助修改申请文件等问题时,以及在专利申请、专利审查和专利诉讼等过程中都需要进行专利查新检索。
3.6 失效专利检索
失效专利是一种失去专利独占权的公开技术信息。失效专利是庞大的、免费的专利信息资源。部分失效专利失效后仍是该领域的重要技术,仍然可以创造巨大的经济价值[1]。“失效”是指法律上的含义,针对的是专利权及专利申请权,即失去了法律保护的专利。对专利所包含的法律性、技术性、市场性而言,失效专利只是不再受专利法保护。
失效专利有狭义和广义之分,狭义的失效专利泛指因法律规定的各种原因而失去专利权、不再受到专利法律保护的专利,即失去专利权的专利。广义的失效专利是指专利文献公开的技术不享有本国的专利权的专利,既包括失去专利权的专利,也包括失去专利申请权的专利,即专利文献公开的技术属于不享有或不再享有专利权的发明创造。也有人认为,因专利权的地域性失去法律保护的专利也属于失效专利。因此,最广义的失效专利是指“公开且不受保护”或“公开且失去权利”的专利[1,31]。
专利失效的原因有四种:申请阶段失效(包括申请撤回或放弃、申请被视为撤回、申请被驳回等)、授权阶段失效(包括专利权人未按规定缴纳专利维持费、专利权人以书面申请放弃专利权,专利权的无效及撤销等)、时效性失效(专利保护期届满)和地域性失效(未在法定期限内就相同主题的发明创造在某国或某地区提出专利申请,无法受到该国家或地区法律保护)[1]。也有学者认为专利失效有五大成因:保护届满、丧失专利权(未按规定缴纳专利维持费、放弃专利权、专利撤销及宣告无效、专利权终止)、专利申请未获授权(专利申请被驳回、撤回、视为撤回、放弃)、未在中国申请的国外专利(丧失在华专利权)、未向知识产权局提出专利申请的发明创造[31]。
失效专利检索也称为专利无效检索。专利无效检索是通过检索专利文献、非专利文献发现破坏该授权专利新颖性、创造性的过程,目的是找出与某一专利权要求相关的专利,通过这些专利使该权利要求无效,甚至使整个专利无效[22]。当专利审查员为判断某一项申请的专利是否可以取得专利权时,需要调查过去是否有类似的专利已经被授权,这种搜索也被称为专利无效性检索[31]。失效专利可以通过专利(申请)号检索、专利法律状态检索、时域检索、地域检索和申请人检索等方式在各类专利数据库和各国专利局网站进行检索[1]。
3.7 专利诉讼案例检索
专利诉讼案例是指各国与专利相关的司法判决和行政决定,如各国法院的专利侵权诉讼判决,我国复审委员会的专利无效宣告和专利复审。无论是大陆法系还是普通法系国家,都有大量的专利诉讼案例,可以为专利诉讼代理律师迅速锁定商业高风险的潜在客户,为尽职调查提供充分的数据和资料,对所代理案件有影响的相关各方进行分析和评估,并更有效地提出主张和辩护;为专利法官处理同类案件和提高自身专业素养提供极佳的研究素材和资料;为专利代理人、专利教学研究人员和学生学习与研究专利实务提供良好的实务素材[1]。专利诉讼案例可以通过各国法院网站、商业专利数据库中的专利诉讼信息、综合类法律数据库和主要国家复审委员会判例数据库等进行检索[1,10,22]。
进入21世纪,随着专利数据的不断增长,越来越多的研究开始转向如何快速并且准确地检索出所需要的专利[32]。2002年,日本国立情报学研究所在第三届NTCIR会议开始举办了针对日语和英文跨语言专利检索研讨会,该会议对专利无效性检索、专利跨语言检索等研究方向起到很大的促进作用[33]。
4 基于专利地图的专利法律信息挖掘研究
4.1 专利地图及其法律意义
专利地图(Patent Map,PM)是20世纪60年代为打破欧美等国技术壁垒、保护日本企业利益,日本特许厅(Japan Patent Office,JPO)首先研发的专利信息分析工具[34]。专利地图是对专利情报分析结果的一种可视化表达[4]。世界知识产权组织(WIPO)指出,专利地图也称为技术路线图(Technology Road Map),是对专利分析全部结果的可视化表达,通过对目标技术领域相关专利信息进行搜集、处理和分析,使复杂多样的专利情报得到方便有效的理解[35]。有学者认为,专利地图是专利信息图形化处理、系统管理专利数据、协助制定专利战略的方法,具体是指将专利情报的技术内容,用关键词等数据化处理后进行加工分析,或者将各种专利著录项用数据形式分类、整理,将其结果以图表形式一目了然地加以表现[36-37]。也有学者认为,专利地图是指对大量的专利文献进行分析整理,特别是针对专利信息中的著录特征项(专利申请号、授权号、专利名称、发明人、国家、地区、时间、专利类型、IPC分类号等)和专利专有的权利信息进行统计分析,将结果组合绘图,绘制出符合要求的、一目了然的图表,通过图表辅助专利战略的理论和方法[38-40]。专利地图基于聚类(Clustering)、整合(Aggregation)等方式进行数据化处理,将专利文献在管理、技术、法律、经济中的价值提取出来。因此,专利地图制作涉及文本挖掘(Text datamining)、数据挖掘(Data mining)、引文分析(Citation analysis)等技术[6]。
专利地图一般分为专利技术地图、专利管理地图和专利权利地图三种,将三种不同类型的专利地图结合起来,可对专利文献经济、技术、法律信息进行全面挖掘[4]。其中专利权利地图(Patent Claim Map)又称为专利范围地图,是将专利权利要求作为主要分析对象,制作已有技术专利的权利范围地图,揭示权利要求内容、范围、权利转让、侵权可能性、权利状态等法律信息。专利权利地图有专利法律状态解析图(明确专利权人、专利有效性)、专利范围构成要件图和专利范围要点图、同族专利图、专利引用族谱图等[41-42]。专利权利地图可以起到确认专利技术保护范围、考察专利获取的可能性、了解专利保护地域范围、确定专利权期限、了解侵权可能、调研和检索异议无效专利文献等作用,从而帮助用户识别可能的技术侵权、制定避免侵权策略、准确应对法律诉讼等[39-42]。
4.2 专利地图的本质及其应用
专利地图的本质是对专利信息进行可视化(图表)揭示和展示。专利地图可以有效地揭示市场、竞合、技术、研发、投资、法律、政策和战略等综合专利信息,可以帮助企业制定专利战略,了解国内外技术动态、发现和开发空白技术、了解专利技术发展趋势、研究核心技术和关键技术点、掌握竞争公司和发明人、避免专利侵权和专利诉讼等[43]。专利地图的类型不同,在专利信息挖掘中的作用也会不同,将不同类型的专利地图有机结合起来,可对专利文献中蕴含的技术、经济、法律和战略等专利信息进行深度、全面地挖掘和剖析。其中,专利权利地图就是对专利法律信息进行可视化(图表)挖掘、揭示和展示。Hyunseok Park等利用SAO技术对公司的专利侵权现象进行了分析,并制作了相似专利地图[44]。
5 基于专利挖掘的专利法律信息挖掘研究
5.1 专利挖掘及其法律意义
专利挖掘,也称为专利内容挖掘、专利信息挖掘、专利文本挖掘、专利数据挖掘等,是指在创意设计、技术研发、产品开发、技术贸易、专利诉讼等活动中,对所取得的专利技术成果从技术、法律、经济和战略层面进行剖析、整理、拆分和筛选,从而发现和获得有价值的专利信息的过程,其核心是专利技术信息、法律信息、经济信息和战略信息挖掘[7,11,13]。专利挖掘的对象主要是专利文本和专利内容,专利挖掘一般分为专利文本挖掘(也称专利内容挖掘)和专利数据挖掘(也称专利信息挖掘)两类。包括专利名称、摘要、权利要求书、专利说明书等内容所蕴涵的专利信息[45]。
专利挖掘有助于从主题和内容角度对专利文献、数据库和互联网中包含的技术特征(术语、关键词等)和法律信息(权利要求等)及其组合形成的衍生经济信息(专利价值、同族专利等)和战略信息(专利布局、技术趋势等)等进行深层次分析,以测度专利文献间的相似性,发现技术特征关联、演变和规律等,从而有助于企业从宏观层面把握技术发展趋势,从微观角度把握技术创新细节,辅助企业技术创新决策[11]。因此,专利挖掘可以起到梳理技术创新成果、提升专利申请质量、提前规避专利风险、发掘未来竞争优势等作用。在专利法律信息挖掘中,专利挖掘可用于专利侵权规避、反侵权识别和专利诉讼应对等方面。
5.2 专利文本挖掘研究
文本挖掘是一个新兴的研究领域,1995 年, Feldman等人将数据挖掘技术运用于非结构化数据——文本上,首次提出了文本挖掘的概念[46]。
文本挖掘,也称为文本数据挖掘或文本知识发现,是指为了发现知识,从大规模文本库中抽取隐含的、以前未知的、潜在有用的模式的过程[47]。目前文本挖掘研究主要围绕文本挖掘模型、文本特征抽取与文本表示模型、模式发现(如关联规则抽取、文本分类、文本聚类)等方面展开[48],并且文本挖掘技术已被应用于专利分析方面[30,49-50]。
专利文本挖掘是指使用文本挖掘的方法对专利文献中富含文本内容的题名、摘要和权利要求等字段进行研究,得到在专利术语、分类和聚类等方面的研究结果[51]。专利文献中包含着专利申请号、申请人、申请日、发明人、分类号等结构化信息和专利摘要、技术背景及权力要求等非结构化文本信息,蕴涵了重要技术细节和技术保护等内容,人工阅读和分析这些文本信息十分耗时费力。如何从这些非结构化文本中抽取潜在信息、揭示技术的细节及其相互关联关系、挖掘暗含的商业趋势、启发工业技术创新、辅助决策制定等,成为当前专利挖掘与分析领域的研究热点[52]。文本挖掘技术可以批量处理大量文本数据,从中提取有用的信息,从而发现潜在的知识或模式,文本挖掘技术成为专利挖掘的重要应用领域[53]。专利法律信息也自然成为文本挖掘的重要对象和内容。
5.3 专利数据挖掘研究
数据挖掘是采用数学、统计、人工智能和机器学习等领域的科学方法,从大量的、不完全的、有噪声的、模糊的和随机的数据中,提取或发现隐含的、预先未知的并且具有潜在应用价值的模式和知识,并应用于预测以指导决策的过程[30,47]。自20世纪80年代以来,为了解决“数据丰富,知识贫乏”的困境,数据库知识发现(Knowledge Discovery in Database,KDD)和数据挖掘技术获得了巨大成功并得到持续发展[47]。数据挖掘技术的发展为专利分析提供了有力的技术支持,目前数据挖掘技术已被广泛用于专利分析领域,包括专利文献评估、专利文献自动分类、专利文献推荐、专利技术预测和专利技术可视化等[54]。
21 世纪初,美国学者 Porter 等基于历史科技文献分析开辟了技术挖掘(Tech Mining)这一领域,挖掘对象包括学术论文和专利文献等;挖掘内容不仅包括题名、作者、专利权人、专利发明人等外部著录信息,还包括文摘、全文、专利权利要求等内容信息;挖掘方法包括统计分析、知识抽取、文本挖掘、语义分析、聚类和关联分析、数据可视化等[5,55-56]。Yang、Lucy Akers等人开发了一种新的数据挖掘工具用于挖掘专利信息中隐藏的知识[57]。
专利数据挖掘使用数据挖掘方法直接处理专利元数据,得到专利共引或共类统计、时间序列和网络拓扑结构等方面的研究结果[51]。应用数据挖掘技术开展专利信息挖掘的目的是搜集、分析特定技术或产品的专利情报,掌握该专利领域中不同公司的专利技术研究情况,并把单一的情报综合起来,然后采取统计分析、技术群组、文本挖掘、组合理论、专利地图等技术,对其进行情报分析,并以统计图谱、关联图谱和报告等形式展现出来[52]。
专利数据因其与科技、法律、经济高度关联,被人们誉为“技术一体化信息”。随着大数据时代的到来,专利数据挖掘与分析工作将从“盲人摸象”式的“拣着测、挑着存、采着样处理”,逐步向“疱丁解牛”式的“全样本、多维度、动态实时化处理”方向发展。不仅各项专利著录信息(专利权人、发明人、分类号、申请日等)成为重点挖掘与分析对象,相关的工业、企业、商业、法律及政策信息也会被广泛挖掘和分析[58]。如Kim 等研究了专利侵权起诉网络,用于挖掘分析不同企业的角色[59]。翟东升构建了基于本体的专利知识库、面向主题的专利分析系统和中文专利侵权检索模型,用于专利信息深度挖掘和应用[30]。郑贵忠、刘金兰使用生命表法对专利的有效性和平均剩余有效期限等法律信息进行了挖掘和分析[60]。
专利法律信息挖掘与分析通常需要借助专门的专利数据库和专利挖掘工作来实现。如德温特专利数据库除能够进行专利法律状态信息检索外,其自带的专利数据处理与分析软件TDA能够处理和挖掘分析基本专利国、基本专利号、基本专利年、引文专利、德温特入藏号、德温特分类、家族专利国、家族专利号、家族专利年、国际分类号、发明人、德温特手工代码、专利权人、专利优先权国家、优先号、优先年、技术焦点、专利标题、美国专利号、美国专利年以及文摘等专利法律信息[61]。
6 基于专利引文分析的专利法律信息挖掘研究
6.1 专利引文分析及其法律意义
1949 年,Seidel最早提出了专利引文分析的概念,认为“专利引文”是后继专利基于相似的科学观点而对先前专利的引证,同时他还提出了高频被引专利的技术相对重要性[62]。
专利引文包括申请人给出的引文(专利文献和科学论文)和审查员写进去的对比引文(专利文献和科学文献)。专利文献中的专利引文具有提供索赔证据的作用和目的[63-64]。审查员引文(专利审查对比文献)是审查员经过相关性程度比较并标识了相应字母的对比文件,对于专利诉讼证据的获取意义重大[65]。
专利引文分析是利用各种数学及统计学的方法和比较、归纳、抽象、概括等逻辑方法,对专利文献中的引用与被引用现象进行分析,以便揭示其数量特征和内在规律的专利计量分析方法[36,66]。
6.2 专利引文分析工具
随着专利引文数据日趋规范和透明,引文数据开发技术亦日益成熟。1964年,美国的《科学引文索引》(SCI)首次编制了专利引文索引(Patent Citation Index),但只收录了科技文献中引用的专利文献。20世纪80年代,美国的CHI Research公司把科学引文分析技术扩展到专利引用分析,用于分析企业竞争方向、技术跟踪和其他产业技术分析。美国的 MICROPATENT 公司开发了美国专利文摘数据库(CAPS),收集1975 年以来的美国专利中的所有引文信息,并在检索界面中设立了引文检索入口。美国的MOGEE 研究与分析协会开发了专利引文分析数据库(PCAD),包括1975 年至今的美国专利及其引文。欧洲专利局(EPO)开发的 EPOQUE 系统也包含了专利引文数据库 REFI。在专利引文分析中最著名的是英国德温特公司于 1995 年建立的专利引文索引(Patent Citation Index)数据库。1998 年,德温特公司与美国科技信息研究所(ISI)合并,成立了Thomson Science and Technology(TST),共同开发德温特创新索引数据库(Derwent Innovation Index,DII)[36,67-68]。
许多专利检索和分析系统具有专利引文分析功能,可以进行专利法律信息挖掘与分析。如Innography专利检索、挖掘与分析系统有专门通过前3代引文跟踪专利无效证据和后3代引文跟踪获取专利侵权的专利无效检索及侵权检索,专利诉讼证据获取显得更为简单便捷;WIPS和PATENTICS两大专利检索平台的分析系统都有专利引文检索模块,为获取专利诉讼证据提供支持。大数据和数据挖掘技术的发展为专利引文潜在价值的充分挖掘提供了可能性,借助先进技术可以挖掘的价值主要体现在3个方面[65]:一是专利诉讼中的证据价值;二是知识交流和专利影响力的测量工具价值;三是企业潜在竞争(合作)关系挖掘中的情报价值。
6.3 专利引用网络分析
专利引用网络分析是专利引文分析的重要方向,通过对专利权人的引用网络进行分析,可以检测核心专利权人、发现潜在竞争对手等。Sternitzke等研究发现,LED 领域专利权人引用网络分析可以用于解释专利权人的市场行为,如合作和专利侵权诉讼等[69]。Hsueh 等指出,基于网络分析的引用分析是专利引文分析的一种替代方法[70]。基于专利文献的引用关系,可以延伸出对专利权人和发明人之间的引用关系,可用于鉴别关键发明人或专利权人、发掘竞争对手[71]。
(来稿时间:2017年9月)
参考文献:
1.肖沪卫.专利战术情报方法与应用[M].上海:上海科学技术文献出版社,2015:19,21,111,113,204,514.
2.魏晓峰.基于文献计量的国际专利情报研究进展分析[J].情报科学,2013(5):155-160.
3.孟俊娥.专利检索策略及应用[M].北京:知识产权出版社,2010:4-6.
4.肖沪卫.专利地图方法与应用[M].上海:上海交通大学出版社,2011:5,8,14,17,44,75.
5.赵蕴华,桂婕,张运良,等.基于深度标引的专利文本挖掘框架研究[J].数字图书馆论坛,2008(11):1-5.
6.王曰芬,岑咏华,王雪芬.可视化技术在专利信息挖掘与分析中的应用研究[J].数字图书馆论坛,2007(2):33-39.
7.杨铁军.专利信息利用技能[M].北京:知识产权出版社,2011:287-333.
8.霍中详.公知公用技术信息的挖掘[M].北京:知识产权出版社,2014:6.
9.牟萍.专利情报检索与分析[M].北京:知识产权出版社,2012:158-159.
10.李建蓉.专利信息与利用[M].北京:知识产权出版社,2006:9,335,364.
11.董新蕊,朱振宇.专利分析运用实务[M].北京:国防工业出版社,2016:109-113.
12.文庭孝.专利信息计量学[M].北京:科学出版社,2016:103-105.
13.马天旗.专利分析方法、图表解读与情报挖掘[M].北京:知识产权出版社,2015:35-36.
14.蔡爽,黄鲁成.面向技术战略的专利分析方法述评[J].技术经济,2008(6):36-40.
15.栾春娟,罗海山,金保德.国际专利研究的核心期刊与主要学科分布[J].情报科学,2010(11):1689-1692.
16.暴海龙,朱东华.专利情报分析方法综述[J].北京理工大学学报(社会科学版),2002(S1):91-93.
17.马芳,王效岳.基于数据挖掘技术的专利信息分析[J].情报科学,2008(11):1672-1675.
18.张运鸿,张善杰.物联网核心技术专利态势分析:以MEMS技术为例[J]. 物流科技, 2012(5):1-4.
19.王伟.基于专利信息的中国光纤预制棒技术竞争态势分析[J].科技管理研究,2012(10):33-36.
20. Watanabe C, et al. Patent statistics: deciphering a ‘real’versus a ‘pseudo’ proxy of innovation[J]. Technovation, 2001(21):783-790.
21.姜全红,张志辉.专利资源量化分析研究综述[J].情报学报,2007(1):134-140.
22.甘绍宁.专利信息分析管理与应用[M].北京:知识产权出版社,2015:77,205.
23.国家知识产权局,知识产权交易所.专利价值评估操作手册[M].北京:知识产权出版社,2012.
24.李清海,刘洋,吴泗宗,等.专利价值评价指标概述及层次分析[J].科学学研究,2007(2):281-286.
25. Lan jouw J, Shankerman M. Stylized Facts of Patent Litigation: Value, Scope and Ownership[R].NBER Working Paper No. 6297, 1997.
26. Lerner J. The importance of patent scope: an empirical analysis[J]. Rand Journal of Economics, 1994, 25(2):319- 333.
27.王旭,刘姝,李晓东.快速挖掘核心专利 -Innography专利分析数据库的功能分析[J].现代情报,2013(9):106-111.
28.徐璐,林楠,郑洪洋.如何挖掘专利信息中的免费资源[J].辽宁经济,2010(12):85.
29.陈伯仲.专利信息分析利用与创新[M].北京:知识产权出版社,2012:284-285.
30.翟东升.专利知识挖掘关键技术研究[M].北京:知识产权出版社,2013:239.
31.霍中详.公知公用技术信息的挖掘[M].北京:知识产权出版社,2014:23-33.
32.陈旭,彭智勇,刘斌.专利检索与分析研究综述[J].武汉大学学报(工学版),2014(3):420-426.
33. Iwayama M, Fujii I A, Kando N, et al. Overview of patent retrieval task at NTCIR-3[C]//The ACL-2003 Workshop on Patent Corpus Processing, Sapporo, Japan, 2003:24-32.
34. Japan Patent Office, Asia-Pacific Industrial Property Center, JIII. Guide Book for Practical Use of “Patent Map for Each Technology Field” [EB/OL].[2017-05-12].http://www.okpatents.com/phosita/images/patent_map_JPO.pdf.
35. WIPO. Patent map with exercises[EB/OL].[2017-04-25].http://www.WIPO.int/meetings/en/doc_details.jsp?doc_id=19674.
36.侯筱蓉.基于引文路径分析的专利技术演进图研究[D].重庆:重庆大学硕士学位论文,2008:5-7.
37.丁月华,李程雄,文贵华,等.专利战略分析系统的设计与实现[J] .计算机工程,2005(15):211-212.
38. Anant Shivraj. Patent Mapping: The Technology in Patents[J]. Innovation Magazine, 2004(4):1-4.
39.张帆,肖国华,张娴.专利地图典型应用研究[J].科技管理研究,2008(2):190-193.
40.岑咏华,王曰芬,王晓蓉.面向企业技术创新决策的专利数据挖掘研究综述(上)[J].情报理论与实践,2010(1):126-130.
41.沙振江,张蓉,刘桂锋.国内专利地图研究进展与展望[J].情报理论与实践,2014(8):139-144.
42.肖国华.专利地图研究与应用[D].成都:四川大学硕士学位论文,2006:3-5.
43. Hyunseok Park,Janghyeok Yoon,Kwangsoo Kim.Identifying patent infringement using SAO based sematic technological similarities[J]. Scientometrics, 2012, 90(2):515-529.
44.李红,杨向飞.专利地图在R&D机会发现领域的应用综述[J].科技进步与对策,2015(16):155-160.
45.岑咏华,王曰芬,王晓蓉.面向企业技术创新决策的专利数据挖掘研究综述(下)[J].情报理论与实践,2010(2):124-128.
46. Ronen Feldman,Ido Dagan. Knowledge Discovery in Textual Databases(KDT) [C].Proceedings of the First International Conference on Knowledge Discovery and Data Mining. Montreal,Canada,1995:112-117.
47.陈炘,米黑尔·罗科.纳米科技创新与知识图谱:世界纳米科技专利与文献分析[M].吴树仙,王琛,译.北京:科学出版社,2013:49,142.
48.谌志群,张国煊.文本挖掘与中文文本挖掘模型研究[J].情报科学,2007, 25(7):1046-1050.
49. Gabriel Pui Cheong Fung,Jeffrey Xu Yu,Wai Lam.Stock Prediction: Integrating Text Mining Approach using Real-Time News[C]. Proceedings of 2003 IEEE International Conference on Computational Intelligence for Financial Engineering. Hong Kong,China,2003:395-402.
50. Aaron M Cohen,William R Hersh. A Survey of Current Work in Biomedical Text Mining[J]. Briefings in Bioinformatics,2005, 6(1):57-71.
51.屈鹏,张均胜,曾文,等.国内外专利挖掘研究(2005—2014)综述[J].图书情报工作,2014(20):131-137.
52.袁冰,朱东华,任智军.基于数据挖掘技术的专利情报分析方法及实证研究[J].情报杂志,2006(12):99-102.
53.胡阿沛,张静,雷孝平.基于文本挖掘的专利技术主题分析研究综述[J].情报杂志,2013(12):88-93.
54.张龙晖.大数据时代的专利分析[J].信息系统工程,2014(2):148-149.
55. Porter A L, Cunningham S W. Tech Mining: Exploiting New Technologies for Competitive Advantage[M]. Hoboken, New Jersey: John Wiley & Sons, Inc., 2005.
56.胡正银,方曙.专利文本技术挖掘研究进展综述[J].现代图书情报技术,2014(6):62-70.
57. Yang Y Y, Akers L, Klose, Yang C B. Text mining and visualization tools - Impressions of emerging capabilities[J]. World Patent Information, 2008, 30(4):280-293.
58.邓鹏.大数据时代专利分析服务的机遇与挑战[J].中国发明与专利,2014(2):29-31.
59. Kim H,Song J. Social network analysis of patent infringement law suits[J].Technological Forecasting &Social Change,2013, 80(5):944-955.
60.郑贵忠,刘金兰.基于生存分析的专利有效模型研究[J].科学学研究,2010(11):1677 -1683.
61.王春,杨志萍,方曙.利用德温特分析家软件开展专利情报研究[J].现代情报,2005(12):14-17.
62. Seidel, A. A Citation System for Patent Office[J]. Journal of the Patent Office Society, 1949(31):554.
63.陈凯,徐峰,程如烟.非专利引文分析研究进展[J].图书情报工作,2015(5):137-144.
64.张虎胆,杨冠灿,吴恒,等.审查员引文是否应作为专利引文“噪音”被剔除?[J].图书情报知识,2013(6):77-83.
65.肖冬梅,陈颖.专利审查员引文的特征与价值[J].图书情报工作,2015(19):6-14.
66. Karki, M. M. S. Patent citation analysis: a policy analysis tool [J]. World Patent Information, 1997, 19(4):269-272.
67.庞景安,黄迎燕.国内外专利引文数据库的研究与发展[J].情报科学,2004(2):182-187.
68.陈亮,张志强,尚玮姣.专利引文分析方法研究进展[J].现代图书情报技术, 2019(7): 75-81.
69. Sternitzke C,Bartkowski A,Schramm R. Visualizing patent statistics by means of social network analysis tools[J]. World Patent Information,2008, 30(2):115-131 .
70. Hsueh C C, Wang C C.The use of social network analysis in knowledge diffusion research from patent data[C].2009 International conference on advances in Social network analysis and mining, Athens: IEEE,2009:393-398.
71.陈云伟,方曙.社会网络分析方法在专利分析中的应用研究进展[J].图书情报工作,2012(4):90-95.