APP下载

四大中文数据平台中专利调查分析*

2023-12-13李玖蔚苏秋月

甘肃科技 2023年11期
关键词:字段

李玖蔚,苏秋月

(井冈山大学,江西 吉安 343009)

近年来,随着中国对专利重视程度的不断加深,一些专利检索及分析系统纷纷涌现。具有代表性的专利文献平台有专利检索及分析系统、SooPat、壹专利、Patentics,Innography等[1],中国知名的四大中文数据库平台(中国知网数据库、维普数据库、万方数据库、超星数据库,以下分别简称为“知网”“维普”“万方”“超星”),为满足用户对专利信息的需求,也建立了专利数据库,并提供检索与分析功能。

高校是国家创新体系的三大主体之一,是国家实施知识产权战略的主要阵地之一[2]。高校专利发明的数量与质量已成为衡量高校科技创新实力和国际竞争力的重要标志[3],高校及高校所在地区的专利分析重任,必将落在高校图书馆员身上。对全国985、211高校及江西省30所本科院校的图书馆网站进行调查后发现,大部分高校都订购了知网、万方、维普、超星这四大中文数据平台。调查结果显示,除了维普在江西省内的订购率相对较低外,其余平台在高校的订购率基本都在72%以上,这些平台在高校科研人员中的影响力很大,是高校科研人员必不可少的辅助工具。在四大中文数据平台中获取的专利数据与国家知识产权局中专利数据无误差的前提下,即检索专利数据质量等同情况下,用户更倾向于选择熟悉的平台。运用四大中文数据平台进行专利检索或统计分析,将成为一种必然趋势,那么其专利数据质量情况如何?是一个非常值得密切关注的问题。文章对此进行了统计分析,以探究平台专利数据加工质量及检索效果,为用户选择使用平台提供参考。

1 样本数据概况

国家知识产权局公共服务栏目下的专利检索及分析系统(以下简称“专利检索及分析系统”)依托丰富的数据资源,免费向公众提供了简单、方便、快捷的专利检索与分析功能[4],收录数据范围最全[5]且权威可靠,因此,文章以专利检索及分析系统中获取的专利数据为样本。

在专利检索及分析系统中,通过“申请(专利权)人”入口,输入检索词“井冈山大学”进行检索,并通过“公开(公告)日”将时间限定在2011—2020年内,进行专利数据检索,检索时间2021年7月2日,最终获得332件专利数据,其中发明专利179件,实用新型146件,外观设计7件。

2 四大中文数据库平台专利检索及数据管理分析

专利类型、数量及年度分布是专利分析的常规指标,故文章对各平台获取到的井冈山大学产出专利数据的类型、数量及其年度分布情况作了统计对比分析。

2.1 检索数量

2.1.1 专利文献类型及数量分布

专利类型分析是专利分析常用的指标之一。下面就四大中文数据平台获取的专利数据与专利检索及分析系统中获取的专利数据从专利类型角度进行对比分析,结果见表1。

表1 各平台获取专利类型及数量 单位:件

从总体数量来看,超星多于样本数量,知网与样本数量误差最小,误差最大的是维普;从专利各类型数量来看,知网与样本中发明专利数量误差最小,误差最大的是维普,外观设计误差最大的是万方,实用新型误差最大的是维普。

2.1.2 专利公开年度及数量分布

表2数据显示,与样本数据相比,2011—2017年维普共有77件专利未获取到,其中2015年、2017年、2018年、2019年、2020年各比样本数据少2件、1件、1件、25件和48件,2019年和2020年未获取到的专利数据最多;知网2018年有1件专利未获取到;万方共有17件专利未获取到,其中2017年、2018年、2019年、2020年各比样本数据少3件、2件、4件、8件;超星共有13件专利未获取到,其中2012年、2015年、2016年、2018年、2019年、2020年各比样本数据少1件、2件、1件、5件、2件、2件,另外,该平台检索到2021年的16件,详见表2。

2.2 检索效果及原因分析

2.2.1 检索效果

通过对各平台获取到的专利数据与“专利检索及分析系统”中的数据进行了逐一比对,发现超星采集到335条数据,有16条数据其他平台没有,为了考证其原因,在“专利检索及分析系统”中对这16条数据进行检索发现,这部分专利是2020年申请的,但是公开(公告)日是2021年,在本研究范围外,故超星实际只采集到相关专利319件。表3数据显示,四大中文数据平台中检索到相关专利数量比率最高的是知网,高达99.70%,最低的是维普76.81%。

表3 各平台专利检索结果

2.2.2 原因分析

从前面的调查可知,各平台所获专利量与样本专利量相比,都存在漏检现象。为了探究其原因,文章对各平台漏检的专利目录,在相应平台中选择其他检索入口、输入相应内容进行检索,对各平台漏检原因进行了统计分析,从而揭示各平台的数据质量,见表4。

表4 四大中文数据平台未获取到的专利 单位:件

表4数据显示,与样本专利332件相比,(1)知网检索到相关专利331件,有1件专利因其“申请(专利权)人”字段下的合作专利权人信息未标引,导致漏检。(2)超星检索到相关专利319件,有13件专利未检索到,其中8件因“申请(专利权)人”字段标引有误造成,具体为:1件标引为发明人,5件缺少该字段内容,2件是将申请人标引为别的机构名。(3)万方检索到相关专利315件,有17件专利未检索到,3件数据有误的情况是:2件合作专利权人未标引,1件专利权人标引为发明人。另外,有1件正确的专利检索不到。(4)维普检索到相关专利255件,有77件专利未检索到,4件数据有误的情况是:3件申请人标引成别的机构,1件申请人标引为发明人。另外,有27件正确的专利检索不到。

众所周知,各平台数据相对原始数据而言,存在一定的滞后性。为此,对表4中“无数据”这部分专利数据的年度分布进行了调查统计,以利于进一步分析各平台专利数据的更新速度及检索效果,见表5。

表5 各平台无数据专利的年度分布 单位:件

如果把表5中2020年的专利量归入到数据更新滞后而造成无数据的话,则各平台专利数据更新最及时的是知网,其次是超星和万方,更新最慢的是维普;这样超星、万方、维普分别有4件、7件、20件专利因在其平台中无数据导致漏检,各占332的1.20%、2.11%、6.02%,数据标引有待加强。

2.3 各平台数据加工及数据管理分析

获取精准且全面的专利数据是专利分析的基本前提。各专利检索平台对专利标引项目的多寡,标引内容的正确与否,直接影响着获取数据的质量。文章将各平台的专利数据与“专利检索及分析系统”中的数据进行了对比,从数据著录项目、著录内容、数据获取项目、获取效果等方面对各平台专利数据加工进行了统计分析。

2.3.1 字段著录情况

暴海龙和朱东华[6]认为常用的专利情报分析方法都是基于专利文献的著录项而进行的统计分析,因此专利著录项目的多少、著录内容的质量等情况对专利分析质量及深度至关重要。每条专利著录的字段越多,可供统计分析的指标、对象也越多,分析出的内容才能丰富。故通过对各平台中同条专利字段的著录情况进行了调查,以考察各平台能分析的维度。

分析结果,各平台专利数据库有10个相同字段:申请号、申请日、公开(公告)号、公开(公告)日、专利名称、申请(专利权)人、发明(设计)人、分类号、摘要、申请人地址。专利检索及分析系统共有21个字段,含同族、引证、被引证、CPC分类和CPC附加、申请人所在国家/地区/组织等6个独有字段,这些字段有的是专利统计分析的关键指标[7];知网有20个字段,含专辑、专题和页数等3个独有字段;万方有17个字段,含1个独有的权利要求字段、维普有15个字段,含1个独有的关键词字段;超星有12个字段,见表6。

表6 各平台专利著录字段

2.3.2 导出数据便捷性及字段量分析

各平台对于专利的特征都进行了不同程度的深加工,并提供了多种不同的检索结果导出方式,每种方式导出的字段不尽相同,可满足用户个性化的需求。各平台导出专利字段数量及其便捷性如何?文章通过整合不同检索结果导出格式,能获取到的所有字段情况对此问题进行了考察,结果见表7。

表7 各平台导出专利字段情况

专利检索与分析系统一次性可导出中国专利的16个字段数据,含优先权号、优先权日、代理人、代理机构等4个独有字段。知网有12种导出数据方式,至少得通过其中3种才能整合出17个字段数据,含1个独有字段:申请机构;万方有9种导出数据方式,至少得通过其中2种才能整合出13个字段数据,含一个独有字段:CN;维普有7种导出数据方式,至少得通过其中2种才能整合出12个字段数据;超星有9种导出数据方式,至少得通过其中3种才能整合出14个字段数据,含引证、文献类型、出处3个独有字段,详见表7。

专利常规的分析项目有:专利申请趋势、地域分布、申请人、发明人、技术类别、法律状态、重点专利等类别[8],各平台著录的字段基本能完成常规的专利分析指标。但调查结果显示,各平台能导出的字段少于已著录的字段,四大中文数据平台能导出的相同字段只有4个,也比各平台都有著录的字段少6个,通过多个平台组合方式导出数据,能提供相对多的专利分析维度,但无法直接导出法律状态及重点专利等对应的内容字段。故四大中文数据库导出检索结果的便捷性及导出的专利字段量均有待加强,否则分析的维度及深度都将受到影响。

3 调查结果

通过对比四大中文数据平台专利检索数量、检索质量、数据加工和管理等方面进行对比分析,得出以下结论:(1)各平台目前不能导出所有已著录的字段内容,直接导出的数据无法对专利的被引证、同族、法律状态等进行深层次分析;(2)各平台都存在因“申请(专利权)人”字段标引有误而造成的漏检问题,漏检率最低的是知网,最高的是超星;(3)专利数据更新速度最快的是知网,维普最慢;(4)专利查全率及查准率最高的是知网,万方检索不到外观设计专利;(5)万方和维普存在数据正确但检索不到的情况。

4 结语

文章从“申请(专利权)人”一个检索入口进行了检索效果的对比分析,存在一定的局限性,未来将从更多的检索入口进行对比分析,以期提供更全面、更有价值的参考结论。

猜你喜欢

字段
图书编目外包CNMARC格式3XX字段质量研究
——以国家图书馆为例
图书馆中文图书编目外包数据质量控制分析
浅谈台湾原版中文图书的编目经验
题名与责任说明附注字段用法分析
对CNMARC 4
--字段改革的建议
CNMARC304字段和314字段责任附注方式解析
CNMARC 410字段检索功能辨析及其《新版手册》修订建议*
无正题名文献著录方法评述
无正题名文献著录方法评述
对225字段指示符意义的认识