借助智能化检索系统提高专利申请的检索效能
2023-02-23黄云雪孙瑞生
黄云雪 孙瑞生
(国家知识产权局专利局专利审查协作天津中心,天津 300304)
0 引言
专利审查过程中,审查员需要通过关键词、分类号匹配的方式来进行检索。但是在检索时,对于方法的具体步骤、步骤与步骤之间的逻辑关系、结构部件的位置描述、结构与结构之间的逻辑关系等经常出现难以提炼关键词、关键词扩展不全面、分类号不准确等情形,给检索带来较大困难。而且,传统的检索工具是S系统,使用S系统进行检索获得检索结构后,通常需要进行全文浏览来获取对比文件,浏览检索结果获取对比文件的时间较长,不能较快地找到可用的对比文件。
近些年随着人工智能和大数据技术的发展,智能化检索应运而生,例如广泛使用的PATENTICS智能检索平台[1-2]。智能化检索是指在检索过程中,平台不再拘泥于用户所输入请求语句的字面本身,而是透过现象看本质,准确地捕捉用户输入语句后面的真正意图,自动将用户输入的内容进行同义词、近义词以及其他语种扩展,并以此进行搜索,从而更准确地向用户反馈最符合其需要的搜索结果[3]。
1 智能化检索系统的功能
基于智能化检索的理念,国家知识产权局于2022年7月上线了智能化检索系统,为专利申请的检索带来了很大的便利。
新的智能化检索系统以语义检索为核心,以“快、准、全”为目标,对文献数据资源进行重新整合并新增智能检索功能。在对专利文献进行整合时,将文摘数据库和全文数据库进行整合避免转库操作,同时,将外文数据库的数据翻译为中文,审查员可使用中文进行检索并浏览中文检索结果,避免了由于语言障碍导致外文专利数据库检索不充分的问题。新增智能检索功能包括融合检索功能,通过简易的人机交互界面实现选库、检索、概览、辅助工具一体化;在融合检索时,用户只要输入案件的申请号或相关文本就可以进行纯语义检索并将检索结果基于语义相关度进行排序输出,并且还提供先布尔检索后语义排序以及先语义检索后布尔筛选的检索方式,将语义检索和人工干预相结合,进一步提高了检索效能;此外,新的智能化检索系统还具有特色功能——一站式浏览功能,一站式检索功能在获得检索结果后可以基于技术特征画像实现对比文件的快速浏览及筛选,帮助审查员在众多检索结果中快速命中相关对比文件。
本研究通过三个实际案例在国家知识产权局自主开发的智能化检索系统中的检索过程,探究如何通过智能化检索系统提高专利申请的检索效能。
2 智能化检索系统在检索中的应用
2.1 利用纯语义检索结果扩展关键词进行人工干预
当使用智能化检索系统进行检索时,除了最简单地通过申请号进行纯语义检索之外,还需要充分利用人工干预手段来提高检索效率。由于智能化检索系统在纯语义检索时,将本申请与数据库中的文献进行全文相似度计算,其排名在前的文献与本申请技术方案的相关度较大,因而,可利用相关度较大的文献中所记载的内容对关键词进行扩展,降低关键词表达的难度。
案例一。本案例的权利要求1请求保护一种信息推荐方法。其特征在于,根据目标用户的目标用户标签,确定多个推荐信息;确定所述多个推荐信息中每个推荐信息的预设优先级和预测优先级;根据所述预设优先级和所述预测优先级,确定所述每个推荐信息的加权优先级;根据所述多个推荐信息和所述每个推荐信息的加权优先级,向所述目标用户进行信息推荐。
本案针对现有推荐方法获得的推荐信息转化率不高的问题,提出基于推荐信息的预设优先级和预测优先级确定推荐信息的加权优先级进行推荐,从而有效提高推荐信息的转化率。在说明书中具体说明了预设优先级为:运营人员基于特定营销需求和/或运营人员的营销经验,设置排序规则,进而营销推荐系统根据预设排序规则,为信息数据库中的信息确定预设优先级;对预测优先级的定义为:为目标用户确定多个推荐信息之后,营销推荐系统根据每个推荐信息的历史点击数据,确定每个推荐信息的预测点击率,进而根据每个推荐信息的预测点击率,通过预设排序算法,实时计算每个推荐信息的预测优先级。根据权利要求记载的技术方案以及说明书中所记载的内容可知,本申请的关键技术手段为通过预设优先级和预测优先级确定推荐信息的加权优先级进行推荐,因而,可以提炼出“预测优先级、预设优先级,推荐,加权”等关键词作为检索要素。然而,由于“预测优先级”和“预设优先级”并非本领域常用的表达方式,并且“推荐”和“加权”带来的检索噪声十分大,因而,本案在检索时的难点在于对“预测优先级”和“预设优先级”如何扩展以及检索噪声大的问题。
利用智能化检索系统对本案进行检索,检索过程如下。
第一步:进行纯语义检索,检索结果默认设置为400篇;对检索结果进行初步浏览发现多篇对比文件中公开了对多种推荐方式的推荐结果进行融合获得推荐结果,本案中将预测优先级和预设优先级进行加权也是一种融合的方式。
第二步:对关键词进行扩展,利用关键词“加权,融合”对初步语义检索结果进行布尔筛选,在前10个检索结果中获得可评述本申请创造性的两篇对比文件CN107729542A、CN106997374A,整个检索过程不需要对“预测优先级”和“预设优先级”进行扩展,检索过程简单高效。
2.2 改写发明构思进行语义检索
智能化检索系统在使用申请号进行纯语义检索时,系统基于申请文件的全文进行语义匹配,语义排序的结果取决于提取的关键词的质量,如果关键技术手段的描述重点和篇幅不够突出时,语义排序的结果可能受到方案中其他不是关键技术手段的技术特征的影响,导致检索结果不佳。智能化检索系统在进行语义检索时,除了可以使用申请号作为语义排序基准,还可以使用文本作为语义排序基准,通过改写发明构思作为语义检索的基础,排除其他无关技术特征的影响。
案例二。本案例涉及一种信息推荐方法。其特征在于,包括:接收到针对信息项集合的推荐指令;响应于所述推荐指令,从所述信息项集合包含的多个信息项中筛选出至少两个信息项,其中,所述推荐指令中未对所述至少两个信息项进行指定;对所述至少两个信息项进行对比,得到对比信息;将所述对比信息和所述至少两个信息项作为推荐结果进行展示。
本案针对现有在进行推荐结果显示时,需要用户分别点击查看多个列表项的具体内容进行查看来选择最终的推荐信息,该过程耗费用户大量精力且效率较低,因而本申请提出通过点击预定按钮等简单操作下达针对列表的推荐指令,自动为用户筛选出两个列表项进行对比得到对比信息,再将至少两个列表项和对比信息作为推荐结果展示给用户以减少用户选择的精力和提高效率。通过上述对技术方案的理解,可以确定其关键技术手段为筛选推荐结果进行比较得到比较信息进行显示。
本案的检索难点在于:描述本申请关键技术手段筛选、信息项、对比的表达方式太多且不准确,在进行检索时扩展的关键词难以做到全面,并且涉及推荐的分类号有多个,例如G06F17/30、G06Q30的下位点组等,可预估若使用关键词和分类号进行检索,检索噪声将会比较大,很难获得合适的对比文件。
利用智能化检索系统对本案进行检索的过程如下。
第一步:进行纯语义检索,检索结果默认设置为400篇,考虑到本案申请日为2016年,申请时间较早且在其后推荐类相关申请数量较大,因而采用申请日限定进行初步语义检索。通过阅读前40条检索结果均为对推荐信息显示的技术方案,均没有公开本申请中的选择信息项进行对比。
第二步:为了提高命中效率,使用“对比”的同义词“对比、比较、相比”进行人工干预,获得82条检索结果,然而也并未获得本申请中选择信息项进行对比的对比文件。
第三步:对检索结果进行分析并调整检索思路,未检索到可用对比文件的原因一方面可能是本申请技术方案在描述时由于涉及推荐信息筛选显示,而只要是与推荐信息相关的案件,大多都会有筛选推荐信息进行显示的过程,即使使用“对比、比较、相比”进行布尔筛选,由于上述词语在专利文件中普遍存在,因而也无法在众多对比文件中筛选出可用对比文件;另一方面考虑在进行语义检索时,是否能准确表达关键技术手段十分关键,由于中文语法表达的多样化以及一词多义性,直接基于申请文件中的表达方式进行机器检索,使得语义检索不能很好地对关键技术手段进行有效的检索,导致检索结果不理想。此时,可以对技术方案进行重新表达,使得技术方案的表达方式更容易让机器理解;针对本案,将其方案表达为:自动为用户筛选出两个结果,以及对至少两个结果进行对比,得到对比信息,再将所述至少两个结果和对比信息作为推荐结果展示给用户;检索获得两篇对比文件CN105469274A、CN104699843A,均公开了本申请中从推荐结果中选择至少两个信息项进行比较获得比较结果并显示。
2.3 中文外文库联合检索
S检索系统在外文库进行检索时,需要将中文关键词翻译为英文关键词,由于语言文化的不同,经常出现英文关键词表达不准确、英文文献阅读困难等问题;智能化检索系统对专利文献数据进行了整合,将外文专利翻译为中文,使得审查员在检索时可以跨越语言障碍,提高外文文件检出率。并且,智能化检索系统支持同时检索多个数据库,减少跨库操作。
案例三。本案例涉及一种指纹识别的方法,其特征在于,包括:获取目标按压指纹传感器的指纹图像;对所述指纹图像进行处理,得到所述指纹图像的梯度信息;根据所述指纹图像的梯度信息,确定所述目标是否为真实手指。
本案针对现有技术区分真假指纹的方法是在指纹传感器外增加额外传感器的缺陷,提出一种能够不增加额外传感器的情况下,根据指纹图像的梯度信息,确定按压指纹传感器的手指是否为真实手指的方法,具体方案如权利要求1所记载的部分。提炼本案关键为通过指纹图像的梯度信息判断手指是否为真实手指,关键词为“指纹、图像、梯度、手指、梯度、真实”。
本案的检索难点在于:本案涉及的是指纹识别方法,中文和外文库均可能存在对比文件,而关于指纹识别的外文文献数据量大,且“真实”属于功能性限定,关键词难以扩展,且外文文献量大时浏览效率较低。
利用智能化检索系统对本案进行检索,步骤如下。
第一步:选取CNTXT和USTXTC两个数据库,使用“梯度S(指纹or手指)S(真or假)”进行布尔检索,检索到较多计算计算指纹梯度的方案。第二步:为了提高命中效率,即获得计算手指梯度信息是用于判断目标手指是真实手指,使用权利要求1的技术方案作为语义排序基准进行排序,检索获得X对比文件US2018129857A。
3 结论
本研究通过三个案例的检索过程,阐述了在检索过程中如何利用智能检索系统提高检索效能。在利用智能检索系统进行检索时,需要审查员充分利用其纯语义检索、先语义检索后布尔筛选、先布尔筛选后语义排序、语义改写等功能,并基于检索结果调整检索策略。检索工具并非万能的,检索能力的提高过程也并非一蹴而就,审查员需要针对各个领域的案件特点充分利用智能检索系统提供的各项功能,不断积累检索经验和技巧,进一步提高检索效能。