智能专利检索技术分析及应用
2020-04-17陈斌
陈斌
摘 要 通过对新一代智能专利检索系统关键技术的分析,理解系统背后的运行机理,从而更好地运用智能检索系统为专利检索服务,提高检索效率。
关键词 专利检索;语义检索;重排序;结构化表示
1 传统的专利检索
根据基本检索理论,专利检索一般包括以下几个步骤:理解发明,提取基本检索要素,基本检索要素的表达,检索并筛选。一项发明专利是为了解决现有技术中存在的某个技术问题而提出来的一个技术方案,可以以产品或者方法的形式存在。该技术方案中包含了若干关键的技术手段。提取基本检索要素可以从技术手段或者技术问题来提取。例如,某一发明专利,通过提取的若干关键词,进行与/或的布尔运算,获得含有上述关键词的文献。由于专利文献都是经过著录项目整理以及分类的文献,因此,通过特定的著录项目字段或者所属的分类号进行检索,从而提高专利检索效率[1]。
2 智能检索技术分析
智能检索技术依赖于计算机以及相应的检索算法实施,通过对文本进行提取与分析,例如,word2vec算法,获得文本向量,并计算文本向量之间的余弦值作为相关度,依据该相关度进行排序并显示排序结果。
谷歌学术/谷歌专利通过Page Rank算法对搜索结果进行排序,其对你所输入的若干关键词在文献中是否处于同一个句群也进行了考虑,从而使得关键词之间形成一定的关联而不是散落于文献中毫无关联;还考虑了页面链接关系来定义页面重要程度进行排序;CNKI数据库中对于关键词的精确/模糊的选项,如果选择模糊,则意味着系统会根据你输入的关键词进行索引和拓展,并依据你所输入的关键词以及所拓展的关键词进行检索,检索结果会全面,不容易漏检;另外,CNKI也提供了语义检索,输入一个标题或一句话同样能够进行智能检索获得相关的文献,这在检索非专利文献方面能够提高检索效率。
鉴于文本分析以及大数据处理技术的提升,近年来,越来越多的专利智能检索系统不断出现,例如,Patentics,Incopat,智慧芽等等。相比于传统的检索,这些智能检索系统提供了语义检索,能够将与你所检索专利相关的专利,按照相关度排序,提供给你进行筛选。
对比传统检索和智能检索,你可以发现,传统检索中的几个步骤中,除了筛选这一步骤外,其他步骤都被计算机完成了。计算机通过对你所检索专利进行分析从而“理解”了发明,通过统计或聚类或神经网络等技术提取出了检索要素,并根据已有的训练学习库对检索要素进行了拓展表达,之后进行检索,并依次按照预设的计算方法计算各个检索结果与你所检索专利的相关度,依据相关度进行排序。相关度排序的优点在于,能够将最有可能的你所需要的文献排在前面,提高你的检索效率。各个智能检索平台均提供了自动语言翻译,将中文自动翻译成英文并在英文数据库进行检索,克服了语言障碍,提供了检索便利[2]。
下面着重分析新一代智能检索系统中有代表性的两个技术:重排序技术和结构化检索技术。
重排序技术。对搜索检索进行重排序,重排序的依据是搜索因子,用户选择的一段文字,例如一个词,一句话,或者一段话。根据搜索因子的上下文获得重排序因子,计算搜索结果中的文档与重排序因子的相关度,依据该相关度对搜索结果进行重排序。相关度越大的文档与重排序内容越相关,也是用户最期望看到的文档。
结构化检索技术。将目标文本输入到已训练好的实体提取模型,通過该实体提取模型识别目标文本中的实体;然后将已识别到实体的目标文本输入到已训练好的关系提取模型,通过该关系提取模型提取实体之间的关系,从而实现对所述目标文本的结构化表示,生成实体结构图或者步骤流程图。展示给检索者,通过检索者的人工确认与纠正,以期更好地把握技术方案中各个模块或者各个步骤之间的关系,使得检索相关度更大。可见,结构化检索技术,在检索时,除了检索结构化文本中实体之外,还考虑了实体之间的多元关系[3]。
3 智能辅助检索的应用
通过分析几种常见的计算机辅助智能检索技术可知,最关键的是如何让计算机读懂和理解你所要检索的目标专利。这首先依赖于待检索专利本身的撰写的专业程度和规范程度,其用词是本领域技术术语,其造句为说明文的规范句式,则计算机分析提取技术就能很好地把握和理解,其相应的检索结果也会相对准确,而对于一些撰写较为抽象的专利,则容易导致计算机难以理解,从而检索结果与你预期的较不相关,这个时候就依赖于人工理解,通过检索者理解发明构思与实质,提供给计算机以准确的关键词或者分类号,实施人工干预。因此,智能检索不能替代传统的人工检索,但是可以通过其辅助来提高检索效率[4]。
参考文献
[1] 支丽平,张珊靓.基于专利本体的语义检索研究[J].图书馆学研究,2014,(7):59-63.
[2] 洪兵,杨亚卓,廖丽芳,等.专利智能检索的有效性分析[J].中国发明与专利,2015,(8):53-56.
[3] 陈云华,王斯婷.Patentics和Incopat在语义检索中的比较[J].中国发明与专利,2019,16(3):127-130.
[4] 娄松林,郭璐.基于智慧芽的专利检索初探[J].中国科技投资,2019,(28):272.