企业开展专题技术专利信息分析的检索策略探讨
2013-03-02罗啸北京国之专利预警咨询中心
文 / 罗啸 / 北京国之专利预警咨询中心
一、前言
当前,在“专利运用”概念逐步进入人们视野的同时,作为专利运用重要方面的专利信息分析,也逐渐被广泛认知。由于专利文献承载着丰富的技术信息、商业信息和法律信息,因此,对专利信息价值的挖掘利用已经得到人们越来越多的重视,并且尤其得到企业界的关注,企业常常希望能够通过对专利信息开展分析,实现技术跟踪、侵权预警、市场布局、寻求合作等多种目的,无论是出于什么目的,能够快速、准确地检索出该专题领域的主体专利文献(包括有效或者失效的专利、专利申请)是保障上述目标得以实现的重要基础。然而,要做好这一点却并不容易,这是由于专利检索是一项专业性很强的工作,既需要深谙专利文献特点,也需要积累检索经验。在这种情况下,一些企业工作人员面对经常出现的专利检索结果的不确定性,会产生一些认识上的误区:一种观点认为专利检索没有策略可循,因此出现不一样的结果是必然的,另一种观点则认为专利检索没有技巧可言,无非是输入关键词和分类号等检索要素即可。因此,在专题技术专利检索实践方面,还存在很大的提升空间。
鉴于这种现状,本文试图从检索策略的层面出发,进行可行性和实证性探讨,提出一种适宜企业工作人员快速掌握、准确实现专题技术专利检索的方法。
二、专题技术专利检索策略探讨
面对一项专题检索任务,即使是检索经验丰富的专业检索人员和技术功底扎实的企业工作人员都无法立即获得完整的检索要素,这些要素包括:适应专题领域专利特点的技术层次结构、表述技术要点的关键词、相关的分类号、主要专利申请人等。但是,通过初步了解技术内容,可以迅速提炼出有效的基本检索要素,以“晶硅光伏制造技术”为例,“晶硅”、“光伏”是基本检索要素。专利文献虽然著录项目丰富,但不同发明人对技术术语的表达却不尽相同,而且基本检索要素并非一定会出现在著录项目信息中,因此,通过基本检索要素构建的检索式通常会出现较多漏检,检索人员不能期望通过一条基本检索式即获得完整的检索结果,但是,通过基本检索我们却能获得集中度、准确度高的检索结果。具体到本例,“光伏 and 晶硅”即为一条基本检索式。我们将尝试以此为突破口,开启本专题的检索之路。
(一)确定专题涉及的分类号
经初步检索,容易了解到申请人在专利文献中常以“太阳电池”、“太阳能电池”作为“光伏”的通俗表达方式,因此,可将基本检索式扩展为“(光伏or 太阳电池 or 太阳能电池) and (单晶硅 or 多晶硅or 晶体硅)”;更进一步,由于在摘要(AB)字段下检索引入的噪音文献多,而在专利文献题名字段(TI)检索命中率高,充分利用该特点,在中国专利数据库中用TI字段初步检索得到781篇专利文献。
表1 TI字段下基本检索后的IPC统计分析
表2 AB字段下基本检索后抽样文献的IPC统计
为了有效遴选相关度高的分类号,我们可从产业链角度加深了解“晶硅光伏制造技术”的生产环节。“晶硅光伏”产业链包括硅料、铸锭(拉棒)、切片、电池片、电池组件、应用系统等六个环节,其中上游为硅料、硅片环节,中游为电池片、电池组件环节,下游为应用系统环节。经过统计分析,我们得到如下IPC分类号大组与技术方向的相关对照表,如下表1所示。
基于上述统计结果,容易得知IPC分类号主要集中在H01L31、H01B1、C30B、B23K、G01等分类领域1. IPC分类体系按部、大类、小类、大组、小组逐层细化,笔者认为专题技术通常涉及面较宽,以选取大组分类号为宜;可利用专业的专利信息分析工具或者EXCEL进行分类号统计。;为验证该结果的可信度,将其与《国内外光伏产业专利情报分析》一文【1】中表2所列的光伏领域主要IPC排名进行对比,除H02N6/00(光辐射直接转变为电能的发电机,不含太阳能电池)、H02J3/38(并网发电装置)、H01G9/20(光敏器件)、H02J7/00(用于电池组的充、供电或去极化的装置)、F21S9/03(通过曝光再充电,如太阳能路灯)、E04D13/18(能量收集装置的屋顶覆盖物,如光伏屋顶)外,其它IPC分类号都完全涵盖,并且更为完整。由于本专题“晶硅光伏制造技术”侧重关注产业链上游和中游光伏电池制造技术,因此,有关并网、充电、太阳能路灯以及光伏屋顶等涉及下游应用领域的IPC分类不需考虑。上述统计结果充分体现出,在样本量适当的情况下,利用基本检索在TI字段下统计IPC分类号具有良好的可信度, 表1中的IPC分类号全部涉及光伏产业上游和中游技术。
为进一步验证统计结果是否比较好地囊括了全部相关IPC分类号,即验证其完整度,我们还可根据基本检索式在AB字段下的检索结果(通常,AB字段下的检索结果远大于TI字段下的检索结果),采取抽样的方式验证。具体操作方式是:在中国专利数据库中摘要字段(AB)下进行基本检索;抽取早期、中期和最近年份申请的部分专利文献;对样本进行IPC统计分析;比对该统计结果和TI字段下基本检索的分类号统计结果。本案例在中国专利数据库下利用基本检索式“(光伏 or 太阳电池 or 太阳能电池) and (单晶硅 or 多晶硅 or 晶体硅)”获得1847篇专利文献2. 检索日期为2013年1月18日。。抽取2000年、2005年和2011年申请的专利共计602篇,统计结果如下表2所示。
基于上述统计结果可知,仍有不少IPC分类号未出现在表1的统计结果中,对这些分类号的释义查看后发现,部分IPC分类号与本专题技术有一定的关联性,如C01B33(硅及其化合物)、B32B17(实质上由玻璃片或玻璃纤维、矿渣或类似物组成的层状产品)、H01L25(由多个单个半导体或其它固态器件组成的组装件)、B28D5(半导体材料精加工)、B41F15(丝网印刷机)等,但并非晶硅光伏制造技术的最佳分类位置,如C01B33完全可由C30B15、C30B28、C30B31等分类号代替。
由此可见,表1中的结果已较好地覆盖了本专题技术领域。
表3 主要关键词和IPC分类领域对应关系表
(二)确定检索基本关键词
梳理技术结构是专题技术检索的一个重点,其目的一是建立专利技术索引,二是辅助确定基本关键词,从而使检索富有针对性。本领域技术人员可以结合工作经验首先列举出本专题下不同技术分支常用的技术术语,并在检索实践过程中对其不断完善;也可利用表1得到的分类领域,选择各技术分支对应分类号下的部分专利文献进行试探性阅读,这是一种相对更为直观的方法。由于梳理技术结构、确定技术领域关键
注 释词是本领域技术人员相对熟悉的方面,因此,本节将不做深入探讨,仅从以下几个方面归纳关键词选取中值得注意的方面:
(1)即便是本领域技术人员,也需要积累、补充、完善有关技术术语,一种好的方法是建立本领域的关键词表,并不断完善其表达形式;
(2)关键词的选取不宜多,而在于精和全。“精”体现在能够很好地代表某技术分支的主要特点,如“制绒”就是太阳能级晶硅表面处理工艺的代表性关键词;“全”则体现在是否对关键词做了全面扩展,如对“制绒”扩展为“陷光”。
(3)从领域和专利文献的特点选择关键词。专利文献不同于技术资料和科学论文,其主题只能是“产品”或“方法”,为了获得较大保护范围同时保护技术秘密,其中往往不记录具体的工艺参数,因此关键词需从领域特点和文献特点出发进行选择。
(1)水分析出阶段:由室温至190 ℃左右,该阶段的失重主要是由于污泥内在结合水和少量外在水的析出引起的。由DTG曲线可见,在温度为82.9 ℃时,失重速率最大,达到了1.06%/min,该阶段物质损失量约为初始污泥重量的5%。
下表3列出了本专题技术的主要关键词及与其对应的分类领域【2】。检索人员通过对本表的不断完善,有利于实现更精准的检索结果。
(三) 三阶段“互补-关联”式检索
实践表明,在专题技术检索中,通过某一检索方式不可能获得比较完整的检索结果,为了快速检出主体部分的专利文献,本文采用一种可称为“互补-关联”式的组合检索策略3. 互补式检索实质上是组合检索策略的一种表现形式,但“互补”在定义上从专题检索出发,强调构建的检索式之间应具有明确的关联性。“关联”的最大作用在于引导不具备良好检索技巧的人员实施一个完整的检索过程。,下图形象地示出了该检索策略的“互补”特点。
其中“1”代表的检索式表示从专题的技术主题入手进行的第一阶段检索,检出率高,但漏检率同样也高;“2”至“6”代表的检索式表示从技术分支入手进行的第二阶段检索,由于深入了专题的技术内涵,因此,有利于实现对专题整体的扩展检索;根据需要,还可进行第三阶段检索,即从申请人入手进行的补充检索。三阶段检索之间具有如下的“关联”关系:
(1)第一阶段,从“主题”入手进行检索能迅速检出大量相关专利文献,并且由于与在TI字段下统计分类号具有类似检索思路,便于充分利用已有工作成果,并通过初步浏览相关文献,积累完善关键词,为第二阶段的检索做好准备,这对检索经验不足的企业工作人员开启工作思路具有引导作用;
(2)第二阶段,结合统计得到的有效分类号和通过第一阶段检索后积累的相对完备的关键词,按“技术分支”进行扩展检索,这对检出相关专利文献的主体部分具有决定作用,利用第一阶段和第二阶段得到的相对完整的检索结果,可统计出本专题领域的主要申请人;
(3)第三阶段,利用第二阶段统计得到的主要申请人,开展以申请人为入口的补充检索。
根据不同需要,可对三个阶段的检索结果采取不同处理方式:
(1)对于了解专利申请趋势、主要申请人、主要技术来源、主要申请目标国家等基本信息的需求,可将三阶段检索结果进行“或”处理后,做统计分析;
(2)对于分析技术发展方向、热点、主要竞争对手技术特点等信息,则需要对三个阶段的初检结果进行筛选,可以预料,三个阶段的检索结果之间必然出现文献重叠,为此,在筛选新一阶段的检索结果时,将之前已筛选过的检索结果予以排除,有利于提高工作效率。
(3)为分析特定申请人的技术特点,可根据统计出的申请人名称做以申请人为入口的跟踪检索。
表4 排名前十五的中国专利主要申请人
(三)实例检索结果
为了充分发挥关键词和分类号的作用,对任一检索环节都从两个角度构造检索式,这里所指“检索环节”例如是第一阶段的主题检索、第二阶段某一技术分支的检索等,“两个角度”则是从关键词和分类号两个方面限定“晶硅光伏”制造这个基本检索领域。以对“硅料”的检索式构造为例,一个角度是“硅料”及扩展关键词用“光伏”及扩展关键词加以限定;另一角度是“硅料”及扩展关键词用相关IPC分类号加以限定。经检索,第一阶段共检出1543条专利文献,第二阶段共检出12400条专利文献。两个阶段检索结果经“或”运算,共计得到12658条专利文献4. 检索截止日为2012年1月30日。。对上述12658条检索结果统计得到排名前列的申请人如下表4所示。检索人员根据需要可以申请人为入口开展进一步补充检索。
为验证检索结果的可信度和准确度,可从查全和查准两个角度进行评估。
查全率评估【3】按如下方式操作:以申请人为入口检索“山东力诺太阳能电力股份有限公司”的全部专利文献有85条,其中,与本专题密切相关的有82条,下表4显示该公司已被检出72条相关专利文献;查全率=72/82=0.878,由此可初步评估上述检索过程的查全率接近90%。
查准率评估按如下方式操作:在全部12658条检索结果中,在三个不同申请年份随机各抽取连续排列的100条文献检查其相关性。经抽查,100条2005年申请的抽查文献中有26条噪音文献,其主要涉及薄膜电池、染料敏化电池技术,查准率达到74%;100条2009年申请的抽查文献中有11条噪音文献,其主要涉及光伏应用和非晶硅薄膜电池技术,查准率达到89%;100条2012年申请的抽查文献中有15条噪音文献,其主要涉及关伏应用,查准率达到85%。基于上述抽样结果综合考虑查准率可初步评估为80%以上。
由此可见,结合上述检索策略获得的检索结果具有较好的可信度和准确度。
四、小结
本文介绍了一种对企业工作人员来说直观、便捷的专题技术专利检索策略,对企业开展初、中级阶段的专利信息分析具有一定引导作用。由于检索环节环环相扣,从而使不具备检索策略构建能力的非专业检索人员能够在短时间内检索到专题技术的主体部分专利文献,并在逐步完善检索要素后能够实现对专题技术的完整检索。
【1】唐恒,桂勇,霍冠宇. 国内外光伏产业专利情报分析[J]. 情报杂志,2011(11):21-27.
【2】邓金堂,唐亮,段雪景. 基于专利地图的我国光伏发电产业专利情报研究[J]. 情报杂志,2011(2):19-23.
【3】杨铁军. 专利分析实务手册 [M]. 北京,知识产权出版社,2012.