APP下载

基于ISLI标准的专利和专利参考文献关联数据集研究

2022-05-31朱江张蒂刘春江周奇

知识管理论坛 2022年2期
关键词:专利

朱江 张蒂 刘春江 周奇

摘要:[目的/意义]利用ISLI标准建立专利与专利参考文献的关联数据集,促进文献计量研究和科学、技术的关联研究。[方法/过程]在解析专利与专利参考文献的关联方案、分析目标文献唯一标识符及其获取方法的基础上,探讨利用ISLI标准进行专利与专利参考文献关联数据集建设的方法。[结果/结论]专利与专利参考文献关联数据集可用来丰富和完善现有的引文体系,打通专利和非专利文献两大体系,更加准确地计量专利、非专利文献的被引次数和影响力。

关键词:国际标准关联标识符    专利    非专利参考文献    关联数据集    ISLI

分类号:G251

引用格式:朱江, 张蒂, 刘春江, 等. 基于ISLI标准的专利和专利参考文献关联数据集研究[J/OL]. 知识管理论坛, 2022, 7(2): 209-217[引用日期]. http://www.kmf.ac.cn/p/287/.

1  引言

专利是集技术、经济、法律信息为一体的[1]信息资源,是知识产权的重要形式之一。国内外比较著名的商业性专利数据库有智慧芽(PatSnap)、incoPat、DII、DI、Innography、Orbit等,非商业性专利数据库有欧洲专利局专利文献数据库(esp@cenet)等,其中大部分专利数据库的专利文献收錄量都超过了1.2亿条。而非专利文献的数量则更为庞大,Summon、EDS等发现系统可提供的各类元数据都是数十亿条。

非专利文献、专利文献分别代表了科学研究、技术开发的成果,两者之间存在着密切的关联。这种关联不仅体现在机构、人员可能是相同的,也体现在研究主题、技术方案可能存在传承、相关,更体现在参考文献存在相互引证等多个方面。

专利参考文献是指在专利文件中列出的与本专利申请相关的其他文献,第一类是专利类参考文献,第二类是科技期刊论文、著作、会议论文等非专利参考文献[2](Non-Patent References, NPR)。

很多学者将非专利文献和专利文献分别视作科学和技术的代表,通过专利和非专利文献中机构、人员、主题和参考文献等的关联来探索科学和技术的关联[3-4]、演化[5]和趋势[6]等。因而,如能在专利数据库中对每件专利引证的专利类和非专利参考文献实现准确的标注,并提供全文链接,将大大方便用户阅读专利说明书、理解专利的新颖性和创造性,也更有利于学者通过全文分析提升科学、技术的关联研究。

2  专利与专利参考文献的关联现状

2.1  现状分析

由于专利和非专利文献存在密切的关系,科技工作者非常希望实现专利和非专利文献的整合。目前,比较有认知度的专利和非专利文献整合系统包括Web of Knowledge、InnovationQ Plus等。

Web of Knowledge平台上的DII数据库收录专利文献数据约1.2亿条, 而Web of Science仅收录顶尖的非专利文献,其中SCIE收录科技类期刊9 000多种,科技会议录引文索引每年收录会议约3 000个,规模、数量偏小。Web of Knowledge平台虽然实现了专利和非专利文献的统一检索,但检索结果集中的专利和非专利文献之间缺乏关联。

InnovationQ Plus号称“专利与非专利文献统一检索系统”,但主要为电子、通信领域等学科服务,并非科学技术全学科。

其他众多的专利数据库虽然收录了专利参考文献,除了专利类参考文献可以通过专利号、申请号十分方便地链接外,非专利参考文献很难直接链接题录摘要信息,更不用说全文了。这一缺陷给用户查阅、链接非专利参考文献带来了诸多不便。因而有必要开展专利与非专利参考文献关联的研究,帮助用户快速、准确地定位、链接到专利引证的非专利文献的题录摘要信息,甚至全文,用户如有访问和使用权,则可直接访问和下载全文。

2.2  专利参考文献的类型

如上所述,专利参考文献包括专利和非专利两大类,以欧洲专利局的docdb数据为例,其非专利参考文献包括论文、图书、化学摘要、数据库、生物摘要、期刊和Web网站等多种类型,表1展示了欧洲专利局docdb数据中的非专利参考文献的代码、类型和示例。

其中,代码为A(abstract citation of no specific kind)的非专利参考文献所占比例最多,包括期刊论文、学位论文和技术报告等。以美国专利US9622820B2为例,表2展示了该专利的基本信息和部分非专利参考文献信息。

3  基于ISLI标准的专利与专利参考文献关联数据集设计

如上所述,专利与专利参考文献的关联,本质上就是两种文献的关联,要建立专利与专利参考文献的关联数据集并实现共享,可以采用多种方法,其中一种方法是利用我国主导制定、2015年正式发布的《ISO 17316:2015信息与文献——国际标准关联标识符(ISLI)》[7]来建立。

ISLI是一项全新理念的标识符,并不标识一个单一的实体对象,而是标识两个实体之间的关联关系[8],其功能就是在具有特定标识符的“源”和“目标”两个实体之间建立起关联,而且这两个实体的粒度可以相同,也可以不同。ISLI的这种特点,为不同类型实体的关联提供了解决方案[9]。

3.1  ISLI关联编码方案

利用ISLI关联编码,可以将带有专利参考文献的一件专利作为“源”,将其引用的每篇参考文献作为“目标”,并赋予一个ISLI编码,就可建立起一条ISLI关联记录,其中“源”可用公开(公告)号作为标识符,“目标”可能是期刊(会议)论文、学位论文、专著、专利等多种类型,因而可用DOI、handle、ISBN-A、URN和公开(公告)号作为标识符(见图1)。

由于ISLI标志码由十进制数字构成,分为服务字段、关联字段和校验字段3个部分[10],一件专利与专利参考文献关联的ISLI标志码可以按如下方式设计(见图2)。

第一部分为服务字段,编码一般为6位,由ISLI注册中心(ISLI RA)分配。

第二部分为关联字段,编码长度可变,且一般可细分为前置编码和后置编码两部分。根据目前全球专利量和今后的增长趋势,可将前置编码设为10位,在不扩容的情况下,可对100亿条专利进行关联编码;后置编码设为5位,除00000编码指向本专利的详细记录外,其余00001-99999编码可为每件专利设置99 999个专利参考文献或其它属性的关联。

第三部分校验字段的数值(校验码)由ISLI系统依据规则自动计算。

3.2  专利参考文献标识符的获取

3.2.1  专利类参考文献标识符的获取

在一个专利数据库系统里,专利类参考文献可以通过公开(公告)号或专利号、申请号等号码很方便地定位、链接,甚至通过一定的转换规则,可直接链接到欧洲专利局等专利网站上查阅该专利的详细记录和专利说明书全文。这种关联是两件专利或专利申请之间的关联,将两件专利的公开(公告)号作为标识符,两件专利就可以直接关联了,相对简单。

3.2.2  非专利参考文献标识符的获取

由于非专利文献类型多样,要实现专利与非专利参考文献关联则复杂很多。通过分析发现,在所有的非专利参考文献中,期刊论文是最主要的非专利文献,因此笔者以期刊论文为例,详细说明非专利参考文献标识符的获取方法。

期刊论文是非专利参考文献的主体,且出版规范,普遍实现了数字化,在网络上几乎都可查到其电子版,对于开放获取出版的期刊论文,其全文可被直接获取,对于商业出版的期刊论文,如订购了使用权,用户可在授权范围IP内或通过用户名密码登录后直接查看全文,如未订购使用权,一般可免费查看摘要。

以表2中的期刊论文“Ye X, Liu H, Chen L, et al. Reverse innovative design—an integrated product design methodology. Computer-aided design, 2008, 40(7): 812-827.”为例,首先登录http://www.crossref.org/guestquery/,输入期刊论文第一责任者的姓氏和论文题名,可查询到该文的永久链接(Persistent Link)——http://dx.doi.org/10.1016/j.cad.2007.07.006,并可获取该论文的DOI号(见图3),直接将该永久链接和DOI号写入数据库。点击该永久链接,即可跳转到出版商网站上的该篇论文(见图4),直接查看摘要等详细信息,拥有访问权的用户还可下载查看全文。DOI号则可用来标识该篇论文。

如无法通过上述方法获取期刊论文的永久链接和DOI号,可以利用资源发现系统来查询,下面以EDS发现系统为例进行说明。

EDS发现系统提供基于RESTful API技术的数据检索接口,返回XML/JSON格式检索结果数据,在数据加工和系统实时运行过程中可利用EDSAPI接口,通过输入“论文题名+刊名+日期”等复合条件,从EDS庞大的元数据仓储中获得该论文的详细信息。

以期刊论文Land use change moritoring in nature reserves base on GF-1/GF-2为例,EDS返回的JSON数据经解析后(见图5)可获得该论文的URL和其它元数据,其中系统存取号(AN)可作为该论文的标识符。

学位论文、图书专著等类型的非专利参考文献可通过类似方法获取其handle、ISBN-A、URN或EDS发现系统的AN号,并将其作为标识符。有了标识符后,非专利参考文献就可与专利通过国际标准关联标识符进行关联。

3.3  元数据集扩展

除了ISLI标准规定的基本元数据集,为准确表示专利参考文献的文献类型和标识符类型,需要设计和建立专利和专利参考文献关联数据集的扩展元数据集,对“目标”文献的文献类型、文献标识符类型以及关联方式进行代码化标识,部分扩展元数据可自动生成,无法自动生成的扩展元数据可通过多种途径或利用EDSAPI从EDS发现系统中获取并填充。

4  基于ISLI标准的专利与专利参考文献关联数据集的建设

4.1  专利大数据服务平台的开发

中国科学院成都文献情报中心利用欧洲专利局(EPO)XML格式的专利裸数据,自建了专利数据服务平台(http://tmcloud.casip.ac.cn/pbsp/)(见图6),收录了100多个国家、地区和组织的1.2亿条专利题录数据和法律状态数据,并通过大数据分析引擎构建,重点实现了智能检索、专业分析、知识发现和数据下载四大功能。其中在智能检索功能上,一方面结合多样化的检索策略和语义检索技术实现专利检索的智能化,另一方面结合多角度的数据分面实现丰富友好的檢索结果浏览模式;在专业分析功能上,结合多维度分析指标实现功能强大的分析效果;在知识发现功能上,结合大数据知识计算实现关键技术挖掘与预见;在数据下载功能上,结合自定义用户需求实现个性化下载。

4.2  资源发现系统的建设

中国科学院成都文献情报中心引进EDS发现系统(见图7),对成都文献情报中心订购、链接的100多个商业、开放数据库的文献资源实现了一站式发现。

图6  中国科学院成都文献情报中心自建专利数据服务平台主页

图7  EDS资源发现系统检索结果页面

以上两类系统分别是专利和非专利两大类型文献的集成系统,但彼此之间缺乏关联。

4.3  专利类参考文献关联的实现

在专利数据服务平台上,已通过公开(公告)号实现了专利与专利类参考文献的关联,点击专利参考文献列表中的专利类参考文献,可直接跳转到该专利的详细页面,查看该专利的详细信息。

4.4  非专利参考文献关联的实现

针对专利参考文献列表中的非专利参考文献,开发专门程序,获取期刊类参考文献的永久链接和DOI号,写入专利数据库并展示在参考文献列表中,用户点击该永久链接即可跳转到出版商或服务商平台上查看该期刊论文的摘要,拥有全文访问权的用户还可直接下载、查看全文;查不到永久链接或没有永久链接的期刊类参考文献则调用EDSAPI接口,获取EDS发现系统的AN号、全文链接地址和其它元数据信息,一并写入专利数据库,并将全文链接地址展示在参考文献列表中,用户可以点击该全文链接地址实现跳转。

4.5  专利与专利参考文献关联数据集的生成

利用ISLI标准生成专利与专利参考文献关联数据集,需为每一件专利申请一个ISLI基本标识码(如ISLI 012345-012345678900000-8)及其附带的99 999个标识码(后置编码为“00001”-“99999”)。ISLI基本标识码的“源”和“目标”都标记为该专利的公开(公告)号,再依次为每篇参考文献的关联分配一个ISLI标识码,“源”均标记为该专利的公开(公告)号,“目标”则依次标记为每篇参考文献的公开(公告)号、DOI、handle、ISBN-A、URN、EDS发现系统的AN号等标识符,再将每个ISLI标识码关联的文献类型、参考文献的标识符类型、从多种途径补充的元数据等写入元数据集。

目前,中国ISLI RA尚未全面开通ISLI服务代码的申报和解析服务,各种ISLI标准应用系统可自建模拟服务器对ISLI标识码进行申领、编码和解析,待ISLI服务代码申报开放后再将自编的模拟ISLI标识码批量转换为正式的ISLI标识码并上传ISLI RA。

按照此方法建立的专利与专利参考文献关联数据集不仅可以共享复用,还可以用来计量不同国家(地区、组织)、不同部类(来源地、机构、发明人)专利参考文献的总量、平均量和极值,从而分析、掌握其差异和特征。同时,还可将该数据集中的“源”和“目标”翻转,建立专利参考文献与专利“镜像”关联数据集,找到不同学科领域被专利引用次数最多的期刊论文、学位论文、会议论文、专著等,在现有的期刊论文、会议论文、图书、科学数据等引文数据库基础上新增专利引文数据库。同时,也可在非专利文献平台(如EDS发现系统)直接调用该“镜像”关联数据集,提供非专利文献被专利引用的数据(见图8),供读者查询、参考。

图8  EDS资源发现系统中的专利引用链接

5  结论

众所周知,以Web of Science和CNKI为代表的引文数据库系统目前还没有收录期刊论文、会议论文、专著被专利引用的数据,利用该专利参考文献数据集可十分方便地增加这些引文数据库中的收录文献被专利引用的数据,从而进一步丰富和完善现有的引文体系,更加准确地计量收录文献的被引次数和学术影响力,并为基础研究成果和技术创新成果的演化、推进研究提供引文数据支撑。但由于很多早期的非专利文献目前还缺乏DOI这样规范、统一的标识符,目前只能暂时借用EDS发现系统的AN号来标识这些早期的非专利文献,由于非EDS发现系统用户无法解析这些AN号并链接到EDS发现系统的相关记录,导致专利与专利参考文献关联数据集的可用性有所降低。随着DOI等权威标识符的不断回溯,使用EDS发现系统AN号作为标识的比例将会逐渐减少,专利与专利参考文献关联数据集的可用性将会得到逐步提升。

参考文献:

陈凯, 徐峰, 程如烟.非专利引文分析研究进展[J].图书情报工作, 2015, 59(5): 137-144.

李时玉, 郭建伟, 孙沫卿.专利检索技巧与方法之引证检索:以奥凯知识产权数据资源为例[J].河南科技, 2018(6): 59-61.

NARIN F, NOMA E. Is technology becoming science?[J].Scientometrics, 1985, 7(3-6): 369-381.

GUAN J, HE Y. Patent-bibliometric analysis on the Chinese science-technology linkages[J].Scientometrics, 2007, 72(3): 403-425.

韩芳.基于专利引文的“科学—技术关系”及技术演化轨迹研究[D].北京:北京邮电大学, 2017.

MEYER M S. Patent citation analysis in a novel field of technology: an exploration of nano-science and nano-technology[J].Scientometrics, 2001, 51(1): 163-183.

ISO 17316: 2015 Information and documentation—International standard link identifier (ISLI)[EB/OL].[2021-09-16].https://www.iso.org/standard/59560.html.

蔡遜.关联:ISLI国际标准的理念与价值[J].出版发行研究, 2015(7): 39-41.

朱江, 李欣怡, 任晓亚, 等.国际标准关联标识符及其在图书馆的应用研究[J].图书馆建设, 2020(2): 56-61, 69.

ISLI应用指引(信息内容产业)[EB/OL]. [2021-09-16].https://www.isli-international.org/download/Guide_for_using_ISLI.pdf.

作者貢献说明:

朱  江:提出研究思路,撰写论文;

张  蒂:论文修改和补充;

刘春江:专利大数据服务平台开发,专利参考文献类型和实例总结;

周  奇:资源发现系统关联方案设计实例的实现。

Study on Linkage Data-Sets of Patents and Patent References Based on ISLI Standard

Zhu Jiang1,2  Zhang Di1,2  Liu Chunjiang1,2  Zhou Qi3

1Chengdu Library and Information Center, Chinese Academy of Sciences, Chengdu 610041

2Department of Library, Information and Archives Management, School of Economics and Management, University of Chinese Academy of Sciences, Beijing 100190

3EBSCO International, Inc., Beijing 100026

Abstract: [Purpose/Significance] This paper aims at establishing the linkage data-sets of patents and patent references based on ISLI standard, and promoting bibliometric research and science and technology linkage research. [Method/Process] On the basis of analyzing the linkage schemes of patents and patent references, analyzing the unique identifiers of target documents and their acquisition methods, the method of constructing the linkage data-sets of patents and patent references by using ISLI standard was discussed. [Result/Conclusion] The linkage data-sets of patents and patent references can be used to enrich and improve the existing citation systems, break through the two systems of patents and non-patent literatures, and measure the number of citations and influence of patents and non-patent literatures more accurately.

Keywords: international standard link identifier    patent    non-patent references    linkage data-set    ISLI

基金项目:本文系中国科学院文献情报能力建设专项“知识资源中心体系建设”(项目编码:292020000220)和科技部国家重点研发计划重点专项“专业内容知识服务众智平台与应用示范”(项目编号:2017YFB1402400)研究成果之一。

作者简介:朱江,研究馆员,硕士,硕士生导师,E-mail: zhuj@clas.ac.cn;张蒂,硕士研究生;刘春江,副研究馆员,博士研究生;周奇,工程师,博士。

收稿日期:2022-01-26        发表日期:2022-04-07        本文责任编辑:刘远颖

猜你喜欢

专利
发明与专利
专利
发明与专利
专利文摘
专利文摘
专利
专利信息
专利资讯
专利资讯
专利资讯