APP下载

浅析UA025领域检索过程中分类号的使用

2018-01-02陈飞

科学与财富 2018年33期
关键词:信息检索图像识别

陈飞

摘 要: UA025审查单元涉及两大领域,分别是信息检索和数据库领域、图像识别领域,这两个领域IPC分类号下文献量巨大,在实际检索中关键词难扩展、噪声大,利用CPC检索能够极大降低噪声,大大提高检索效率。本文先对UA025审查单元相关的IPC和CPC分类号进行了梳理比较,从理论层面探讨了采用CPC分类号能更有利于检索,然后结合2个典型案例分析UA025领域CPC分类对检索的有效性,以更全面的视角进行CPC的检索和审查。

关键词: CPC;信息检索;图像识别

一、引言

从所使用的分类系统来看,世界知识产权组织使用的是国际专利分类体系(IPC),美国专利商标局使用的是美国专利分类体系(USPC),欧洲专利局使用的主要是基于IPC的欧洲专利分类体系(ECLA/ICO),日本专利局使用的主要是基于IPC的日本专利分类体系(FI/FT),韩国知识产权局和中国国家知识产权局使用的均为IPC。

在上述各专利分类体系中,IPC被广泛使用,但其存在更新速度慢、单一分类号下文献量大的缺点。而且在审查实践中IPC分类号不利于检索的缺点也很突出。针对其他几种分类体系都无法在全球广泛推广的局限性,2013年1月1日,美国专利商标局和欧洲专利局宣布,正式启用崭新的联合专利分类(CPC)这一用于专利文件的全球分类系统,CPC是以欧洲专利局分类号ECLA作为整个分类体系的基础,同时结合美国专利分类实践经验构建而成的联合分类体系,CPC具有大于250000个细分,CPC分类号对IPC分类号进行了更进一步的细分,从而进一步提高了检索的准确度和检索效率。

二、UA025审查单元IPC与CPC分类体系比较

UA025审查单元的一个主审分类号是G06F17/30,涉及信息检索及其数据库结构。该分类号属于一点组,在CNABS数据库中有8万多篇文献,在VEN数据库中有32万多篇文献,并且该分类号下面没有更细分的IPC分类号。因此,使用该IPC分类号进行检索时难度巨大,在实际检索中通常主要采用关键词进行检索,引入噪声大。从CPC分类体系中可以看到,G06F17/30分类号下面有15个二点组,其下还被分为三点组、四点组,最多的层级甚至达到了六点组、七点组。

UA025审查单元的另一个主审分类号是G06K9/00-G06K9/82,主要是用于阅读或识别印刷或书写字符或者用于识别图形。G06K9/00下的IPC分类号涉及一点组、二点组和三点组,相对于G06F17/30领域的分类号较为好用。IPC 分类号将G06K9/00-G06K9/82领域大致分为图像捕获、图像预处理、图像识别以及两两之间的组合,而CPC分类更为精细,单是图像识别就进一步细分为指纹识别、签名识别、三维物体识别、人脸识别、文档识别等。经过CPC的细分,每个分类号下面的文献量都大大减少了,文献的分类位置也更为准确,这是很有利于检索的。

三、CPC分类号在UA025审查单元检索中的应用

以上从理论层面分析了采用CPC分类号进行检索的有效性,下面分别采用IPC分类号和CPC分类号对2个实际案例进行检索,通过比较检索过程表明,利用CPC分类号进行检索可以提高检索效率。

【案例一】

权利要求1

1. 一种电子书籍资源信息网络同步的方法,包括以下步骤:

(1)建立电子书籍章节信息逻辑结构,并将该章节信息逻辑结构插入资源结构存储介质中;

(2)按步骤(1)中所述的章节信息逻辑结构录入电子书籍的章节信息;

(3)建立资源信息逻辑结构,使资源信息逻辑结构与所述电子书籍的章节信息进行关联,并将该关联插入资源结构存储介质中;

(4)添加资源文件及资源信息,同时与章节信息进行关联,并将其插入资源结构存储介质中;

(5)打开书籍章节时,通过章节信息检索本地客户端或网络服务器,展示资源文件列表,并记录每个资源文件的来源;

(6)查看资源时,根据资源文件的来源打开该资源信息。

权利要求分析

本申请属于信息检索领域,主分类号是G06F17/30,从权利要求中可以提取关键词“电子书”、“关联”,对应的英文关键词是“ebook”、“associate”。

得到8篇结果,该结果即为可以评价本申请创造性的X类文献:US2008/0168073 A1。

【案例二】

权利要求1

1. 画像系统的标签词库更新方法,其特征在于,包括以下步骤:

步骤1、获取用户的画像数据,所述画像数据包括用于描述所述用户的标签和所述用户发表的原始文本;

步骤2、当标签的数量与原始文本的数量的比值小于预设的第一阈值时,对所述用户发表的所有原始文本进行分词处理,以得到多个标签候选词,并将标签候选词发送至推荐系统;

步骤3、推荐系统计算每一个標签候选词与预设的词向量模型文件中每一个词的向量距离,将存在向量距离大于预设的第二阈值的标签候选词加入到标签词库中,将不存在向量距离大于第二阈值的标签候选词删除。

权利要求分析

本申请属于信息检索领域,主分类号是G06F17/30,从权利要求中可以提取关键词“画像”、“标签”,对应的英文关键词是“image”、“picture”、“label”。

检索得到74篇文献,通过阅读文献,得到一篇可以评述本申请创造性的X类文献:US2008/0033983A1。

四、总结

UA025审查单元的CPC分类较IPC更加细化,尤其是涉及G06F17/30领域,在实际案例的检索中发挥了重要作用,细分的CPC分类位置能够提供准确的技术信息,缩小检索范围,有效地降低检索噪声,提高检索效率。CPC分类体系的出现可以弥补审查员,尤其是G06F17/30领域审查员过分依赖关键词的缺陷,对审查员的检索方式将产生很大的影响。而CPC条目众多,对CPC分类号的熟练运用是一个长期积累的过程,在平常的审查过程中,要积极加以运用,以进一步提高检索水平和审查质量。

参考文献

[1] 李真等.联合专利分类CPC系统介绍,专利文献研究,2014(2):10-13.

[2] 王伟等,图像领域G06K9/00的CPC分类研究,电视技术,2014(z2):195-196.

猜你喜欢

信息检索图像识别
基于Resnet-50的猫狗图像识别
高速公路图像识别技术应用探讨
图像识别在物联网上的应用
图像识别在水质检测中的应用
浅谈模式识别在图像识别中的应用
医学期刊编辑中文献信息检索的应用
在网络环境下高职院校开设信息检索课的必要性研究
基于神经网络的个性化信息检索模型研究
地理信息检索中空间相似性度量的一种模糊方法
基于多组合内容的图像识别机制