支持技术创新的专利检索与分析
2022-05-17曹东朝
曹东朝
黑龙江省科学技术情报研究院 黑龙江 哈尔滨 150001
引言
随着祖国科技日新月异的变化,科研技术的重要性被强势彰显。以科研技术为依托的经济产业发展迅猛,知识产权已然成为各个国家﹑各个企业间竞争的手段和成功的奠基石。专利的发展已成为科技发展的组成部分,基于此背景,专利检索与分析研究的工作重点包括专利的可专利性检索﹑技术现状检索和相关性检索方法等。专利以其内容类别的复杂性﹑抽象性和独一无二的专属性等特点,使传统的专利检索与分析受到了巨大的阻力,因此,支持技术创新的专利检索与分析势在必行。
1 专利检索的概念及潜能
所谓专利检索,就是从数量密集的专利大数据中获取所需的信息或资料。对于专利相关工作者而言,专利检索是一项持续性长且使用频繁的工作环节,无论在任何工作节点都能使用检索功能,如技术交底书的背景技术撰写,发明﹑实用新型及外观设计的专利权评价报告,PCT或PPH的审查,相关专利的查找,专利侵权,等等,均离不开专利检索。另外,专利检索在审查工作中也占有举足轻重的地位,利用专利检索优先审查导向也同时备受关注。专利检索质量的好坏,是对审查效率﹑周期及专利权保护范围的一种直观体现。与此同时,在全球专利迅猛增长的时局下,专利检索还代表着对“中国专利”声誉的一种肯定﹑“专利强度”形象的一种认可以及在国际上至高的影响程度。
2014-2019年的6年时间,中国3种专利有效量持续增长(如图1所示)。有数据显示,在全球知识产权的专利文献中涵盖了全球95%的科技成果。试想,如果把有价值的专利信息合理高效地利用起来,研发时间就可以缩减很多,甚至大大降低研发经费的成本。这就说明,专利的本身潜藏着无限的潜能,值得各界学者深入的探索与更多的关注。
图1 2014-2019年中国三种专利有效情况
2 专利检索的评价标准与检索方法
2.1 专利检索评价标准
专利检索是信息检索中的一小部分,常用的方法是准确率和召回率对算法。在实际检索中,准确率和召回率是相互制约的,最佳的状态是二者的值都高。可是在正常情况下,二者是对立的,一方高,则另一方就低,反之亦然。若二者数值想固定其一,更看重的往往是召回率。为了使算法的综合性效值更高,设计专利检索评价值PRES=1-{∑ri/n-(n+l)}/2/Nmax,i表示第几个相关专利文档的排名,n表示专利文献数据中相关专利的数值,Nmax表示客户检索的专利数最大值。以此公式得出的设计专利检索评价值(PRES)越高,则召回率越高,即检索的相关信息或资料排名就越居前列。
专利检索不同于其他科技文献检索,它具有独有的特殊性。
2.1.1 专利数据内容格式不一。专利中有分类号﹑权利声明等大量信息内容。分类号的作用是对专利文献划分归类的标注,合理使用专利分类号,可以加大检索结果的精准率。
2.1.2 对于专利检索而言,精准率的重要性不言而喻,但与召回率相较,还有些差距。假设在海量专利中一旦有极具重要的专利产生漏检现象,那么,对于一个企业造成的损失则是无法估量的。
2.1.3 撰写形式的独特性。举个例子,对于论文的写作方式,作者通常会站在大众的视角进行文章的描述,这么做的目的是使读者清晰文章表达的主旨和想要和大家讲解的内容,简单﹑易懂。而在专利撰写过程中,专利申请人会使用一些更专业的词汇,含糊的术语或是网络新型的词汇,概括地表达专利中所要讲述的内容,目的是想以此将专利申请的保护范围不局限于某一个点,体现出专利的独特性,提升专利授权的成功概率。
2.1.4 专利检索条件长度各异。作为一个专利申请人或是专利审查员,站在他们的角度,祈盼的是对全文的检索功能,但却受到基于此专利检索的文本有成百上千的关键字的困扰。然而目前的检索功能技术,如即席检索﹑文献和Web检索等,其检索信息文本的条件长度很短,举个例子,目前网络知名的Google搜索,最佳检索长度仅有155个英文字符。
2.2 专利检索的方法
专利检索按照所要检索的目的大体上可归结成[1]:可专利性检索,同时也称之为新颖性检索﹑专利技术现状检索以及相关性检索等。
2.2.1 专利的可专利性检索(新颖性检索)。专利检索的一个特点就是需要检索的文本长度相对很大,所以从根本上解决这一问题,最直接的方法就是缩短所要检索的文本。以往最普遍的方法就是逐一统计专利文本每个词的出现频率,即利用一个高频词取代原始词汇的查询检索。近几年,通过大量研究数据得出采用高频词检索的方式,效果不好,不能满足目前专利检索的需求。基于此背景,有人提出逆向文件频率,即将二者结合衡量检索词语的重要程度。TF-IDF是适用在信息检索与探勘的加权手段。然而,在实际专利的撰写过程中,撰写者需要避开对原有技术的覆盖,撰写新的词汇。这便导致TF-IDF值增高,检索受阻,无法进行大量专利词汇的检索,给高效工作带来了阻碍。
2.2.2 专利的技术现状检索。专利技术现状检索的概念是已知一项技术背景(如一份专利),从大量专利数据中找到与其相近的专利。技术现状检索可以快速便捷地帮助所需客户知悉相关技术领域中最新的发展动态,为其对未来确定新的发展方向提供技术支持,对于技术资源的分配更有效合理。而对于技术现状检索最基本也是最关键的制约因素是检索条件的采样。基于召回率对专利检索的重要性,需采取查询扩展的方法来加快检索的成效,所以,搜索查找有效的扩展词成为整个检索中的重要环节。
2.2.2 .1 第三方知识库的扩展方法[2]。目前,专利现状查询需要突破解决以下两点问题,第一,基于提供检索的词为组关键词,加之每一个关键词归属的题目分类各异,故不能锁定出某一个精准的查询结果。第二,在对需要的词汇进行检索时,常有“同词不同议”的情况出现,如“平安”可能表示某个人或某件事的一种状态定义,也可能是一个企业“平安保险公司”。大量研究数据表明,利用维基百科这类公共知识库可以促进检索过程中准确率和召回率更高效。世界上比较常见的专利分类法是IPC分类法,它能够对专利的特点与功能进行详细的描述。因此,可将IPC分类描述视为一个知识存储库,利用IPC消除同词不同译的弊端,进一步提高专利检索的准确率和召回率。
2.2.2 .2 基于主题的检索。众所周知,专利是以一种文档的形式展现出来的,主题是必须存在的重要组成部分。如何判定两个文档是否存在相似之处,以往的方法是检索共同存在的词汇量,但此方法,欠缺的是同词不同译的考量,另外,也会出现虽共用的词汇不多,但也可能是相似文档的情况。基于此问题,LDA模型对其可以做到更深入的排查与检索,进而提高检索的准确性。也正因为LDA模型精准性高的特点,得到各界知识产权学者的高度认可,在信息检索和自然语言处理中利用率极高。
表1 基于LDA的专利检索对比
2.3.3 专利的相关性检索。专利的相关性是指专利和专利之间存在的有关联系。英文专利中覆盖了专利与专利之间的引用关联。它区别于论文中的引用,二者不同。专利与专利间的引用,实际的意义是代表着该专利的权利声明局限于另外的专利,换言之,引用的专利技术含金量低于被引用的专利。所以专利发明人在执行引用部分时,会酌情考虑,尽量减少引用范围或引用项。这么做,其实对原有的专利来说也是厚此薄彼的。
2.3 技术创新引进
对于专利的研究,全球各国为促进科技发展,最常用的办法就是把先进的技术引进自己国家。通过对专利申请和专利权的转让﹑专利实施许可等方式具体实施。在技术引进阶段,需要对专利检索的如下要点加以重视[3]:①对专利的申请时间和授权时间以及区域的相关信息,通过专利检索的方式仔细核实其有效性和真实性,确保专利的真实有效,避免遇见专利诈骗的现象;②检索专利授权方,核查其身份信息,如其身份是否为合法权利人,以及国内外所有专利中在技术层面上是否存有类同相似的专利权,确保专利权的专属性,避免侵权官司与风险;③深入进行检索分析,真实评估所申请的专利中技术交底部分在国内外的技术水平是否领先,具有可申请的价值,避免资金的浪费与前期的人力物力的投入。
3 结束语
目前,世界各国和企业对知识产权的关注度与重视度越来越高,对知识产权的相关研究也大力提倡和支持。知识产权给各国各企业科技发展带来的经济效益和未来发展的前景意义重大。加大对知识产权的保护,深入对专利检索的研究与分析,能够降低各国各企业知识产权的泄露风险与投资成本的有效利用,高效快速地解锁各科学领域对先进技术的研究实况,瞄准技术发展的正面方向,做出科学合理的决策。在专利检索方面,相关学者们已经研究出了一点成绩,如利用可专利性检索﹑专利技术现状检索及相关检索等方法,但在准确率和召回率的问题上研究深度还是远远不够,有待进一步细究。另外,在专利分析方面,也取得了一定成绩,但对专利数据的分析考虑仍有欠缺,不是很全面,例如,在专利中常被忽略的引用关系问题。对于未来技术创新专利检索方面,如将引用关系合理融入研究与分析中,可使检索和分析的结果更加可靠精准,为各国各企业提供更高效快捷的服务。