国内外图情领域关联数据研究比较分析*
2020-03-30李朝阳庞弘燊
李朝阳 ,庞弘燊
(1.岭南师范学院图书馆,广东 湛江 524048;2.深圳大学图书馆,广东 深圳 518060;3.中国科学技术信息研究所,北京 100038)
Linked data(关联数据)一词,最早于2006年由万维网主席Tim Berners-Lee在一个语义网项目会议上提出。2009年,TED会议上他提出了关联数据三个精简原则[1]。2011年,Tim Berners-Lee等正式以论文的形式给予系统阐述。关联数据是web用来在不同来源的数据库之间创建类型链接。这里的不同数据源,可能是不同地理位置上的两个组织维护的数据库,也可以是自一个组织内部的异构系统,虽然他们不能进行数据级别的互操作,但它们很可能存在着关联[2]。Linked data(关联数据)一词一经兴起,图情领域立即引入。2008年Brooks,Terrence A在电子期刊发文将Linked open data概念正式引入图情领域[3];2009年Bradley等最先在纸质期刊发文阐述Linked data[4];2009年姚小乐、刘炜等最先将Linked data(关联数据)一词正式引入中国[5],关联数据研究在行业内迅速风靡。但是由于本体研究、语义网检索技术、大数据和云计算等新兴互联网技术发展水平,馆藏资源数字化程度,学科发展水平上存在差异,国内外图情领域关联数据研究在发展进程、技术水平、内容和深度上也不尽相同。本文选取2009-2018年间,国内CSSCI和国外WOS数据库相关研究文献,利用文献计量学方法和SATI;Citespace等分析工具,从发文趋势、核心作者、研究机构、合作关系、热点等方面对其进行科学计量和分析,为我国图情领域关联数据的研究提供指导。
1 数据来源与研究方法
1.1 数据来源
在CNKI期刊页面中,选中文献分类目录“图书情报与数字图书馆”和来源类别“CSSCI”,以主题词=“关联数据”或者“开放关联数据”,其他不勾选,经过浏览题名、关键词和摘要等题录信息,人工筛选和剔除无效文献后,得到期刊文献450篇,根据后期分析工具格式的要求,导出RefWorks和EndNote格式文本题录信息,并以“download_***”开头命名,以便软件识别。在WOS核心集中,以主题词=(“linked data”)OR(“linked open data”)OR(“LOD”),其他不勾选,限定学科类别“INFORMATION SCIENCE LIBRARY SCIENCE”和文献类型“ARTICLE”,得到相关文献256篇,根据后期分析工具的要求,导出html格式文本和纯文本题录信息。检索时间均为2019年1月18日。发文年度均为“2009-2018”。
1.2 研究方法和思路
本文主要采用了统计分析、社会网络分析、共现聚类分析、对比分析等分析方法。利用分析工具统计分析发文趋势、核心作者、主要研究机构、关键词等数据。社会网络分析用于作者合作关系和机构合作关系分析。关键词共现聚类分析主要用来反映主题之间亲疏关系和结构。对比分析主要是将国内外研究从各方面进行对比,试图找出各自研究特点和规律。将CNKI和WOS下载的数据分别导入SATI和Citespace进行统计和分析,研究思路见图1。
图1 研究思路与框架
图2 国内外年度发文趋势图
2 中外图情领域关联数据研究现状
2.1 年度发文分析
图2中国内外图情领域关联数据的研究论文,基本符合普赖斯文献指数增长规律和文献逻辑增长规律,国内外在该领域的研究几乎同时起步,研究逐步深入,同步发展。2009-2018年分为四个阶段。研究初始阶段(国内2012年前,国外2013年前),受学术趋势影响,关联数据从诞生开始,与图情学科研究交叉渗透,发文量稳步增长。研究停滞阶段(国内201-2013,国外2013-2014),受外界社会、资金、技术和人力等因素的制约,发文量出现停滞倒退现象。研究爆发阶段(国内2013-2015,国外2014-2015),制约因素取得突破,发文量爆发式增长。研究相对成熟阶段(国内外均为2015-2017),增长率变小,曲线变得平缓,这一时期文献寿命长,对后期学科领域发展贡献大。2017年后,国内外发文量增长再次受到外界因素制约呈下降趋势,停滞现象再次出现,但突破也在形成,研究人员要抓住机遇。普赖斯提出随着科研人数n的增长,科研文献量以√n数量增长。科研人员参与度制约因素主要有:学术趋势、硕博士和职称发文要求、科研经费支持度、研究范围细分和扩大、学科交叉渗透、技术突破和应用拓展。技术突破对关联数据的深入研究至关重要,通过对信息学科文献的分析,我们发现图情领域关联数据研究是伴随语义网搜索技术、数据挖掘、云计算、大数据和数字图书馆技术等的发展而发展的,着重于数据关系的发现、建立和利用。并随着虚拟技术、物联网技术、应用平台等的发展,逐渐由数据向实体服务转变。
表1 国内外核心作者发文统计表
2.2 作者及合作度分析
通过Citespace分析国内作者夏翠娟、刘炜、陈涛、张磊、张春景等;毕强、牟冬梅、张艳侠、黄丽丽、赵夷平、孙中秋、沈涌等;欧石燕、胡珊、周宇等;夏立新和王忠义;邢启迪、景然、耿骞等;司莉和李鑫;李欣和张毅;李春旺和蒋世银;姜恩波和王振荣合作关系密切。国外作者Salvador Sanchezal和Jose A Senso、Sandor Dominguezvelasco、Miguelangel Sicilia、Amed Leivamederos等;Ceri Binding和douglas Tudhope合作关系密切。
文献计量学通常用合作度和合著率来衡量论文合作情况。一般来说合作度越高科研合作越紧密;合著率越高学科发展水平就越高。具体领域计算公式:
利用SATI统计分析,国内外作者总数分别为630人和368人;国内外论文总数分别为450篇和256篇;国内外合作论文数分别为315篇和172篇。计算得出,十年内国内外合作度分别为1.4和1.44,合著率分别为70.0%和67.2%,为了比较趋势,又计算得2018年国内图情领域所有CSSCI期刊论文合作度和合著率分别为1.31和61.7%,从作者间交流合作频繁、互动密切表明了国内外图情领域关联数据研究合作紧密和研究水平较高。
2.3 机构及合作度分析
通过Citespace分析国内机构中科院系统、大学系统和公共图书馆系统之间合作关系紧密。国外 Univ Washington、Univ Florence、IBM 等;Univ Brasilia、Univ Fed Espirito Santo、Univ Estadual Paulista等;Univ Politecn Valencia和Univ Murcia等;Univ Maryland、Univ Stanford、Univ Rice等机构合作紧密。
表2 国内外机构发文统计表
SATI、citespace分析不能区分机构细小文字上的差异,人工合并得到表2。分析国内外图情领域关联数据研究机构呈现三个特点:
系统内机构追随效应,追随系统内主要机构和研究者。中国科学院(包含中科院的国家科学图书馆、文献情报中心、大学、科研所等)不仅技术强而且信息沟通流畅,所以交叉学科研究时发展迅速;图情领域传统强校南京大学、武汉大学、吉林大学科研教学实力强大,稳居前列;上海图书馆研究者最先将关联数据引入,同是公共馆系统的国家图书馆发文量紧随其后。
地区内机构协同合作效应,地区内主要研究机构和研究者协同合作。如中科院、国家图书馆同处北京;南京大学、东南大学同处南京;武汉大学、华中师范大学同处武汉;上海图书馆和华东师范大学同处上海,沟通合作便利,发文合作较多。国外西班牙和美国是最主要的研究国家。
机构学术传承效应,继承前期成果发展相关研究。西班牙Univ Murcia、美国Univ Illinois、中国武汉大学、南京大学等在本体研究、语义网等方面研究排名靠前。本体研究领域的上海图书馆夏翠娟、吉林大学毕强、牟冬梅也是关联数据研究的主要参与者。此外,个人贡献也不可忽视。山西大学国内排名靠前,贾君枝贡献巨大,但是其硕士和博士学位都是在武汉大学取得,可以说还有系统内机构追随效应和学术传承效应的影响。
3 基本理论、技术工具及应用领域分析
3.1 热点关键词聚类及词频表
利用SATI共抽取中文关键词934个,西文关键词755个,人工合并同义词、近义词,删除无意义的词汇,取前30的关键词降序生成表3。同时利用Citespace进行关键词聚类分析得到图3和图4。结合分析将研究热点划分为三大领域:基本理论研究、技术方法和工具研究、应用研究。
表3 国内外研究热点关键词词频表
图3 国内研究关键词聚类
图4 国外研究关键词聚类
3.2 基本理论研究
国内图情领域关联数据基本理论研究主要集中在关联数据的概念、特点、基本原则、模型、应用、技术、前景和挑战等方面。刘炜探讨了关联数据概念、基本内涵、技术实现和当前国内外的研究应用状况。[7]肖强,郑立新等探讨了关联数据的概念、原则、发布方式、发布工具、应用及面临的挑战。[8]林海青,楼向英,夏翠娟等探讨了关联数据发布、消费、服务和平台等四种模式。[9]国内基本理论多为综述性文章,没有通过判断和推理,将关联数据的概念、范畴、原理、逻辑体系等基本理论内容与图情学科形成深度融合和发展。
国内基本理论研究有三个新的趋向,一是由描述、发布关联数据向利用、消费和平台建设转换,更为注重实际效果。二是由组织和管理关联数据逐渐向互联、匹配和聚合的技术方法方向转换,研究更为深入。三是以资源描述RDA为基础,为各应用领域搭建资源描述框架和建立行业规范,更为注重拓展应用。国外较早的完成了基于信息生命周期的关联数据从描述、发布、组织、检索和消费的基本理论研究,目前研究多和实践项目、技术、工具和方法相融合,来拓展关联数据研究的逻辑体系和应用范围。如:利用关联数据方法对元数据上下级关系发现[10];建立异构数字资源语义互操作框架[11];进行社交领域的情感识别[12]和智慧政府的建设[13]等等。
3.3 技术方法和工具研究
关联书目信息处理技术、方法和工具。关键词如CNMARC、MARC、FRBR、Bibframe[14]、SchemaBibEx[15]等。
关联数据的描述、组织、存储、转化、定位、运算、发布、发现、检索等技术和工具,可分为基础层技术、工具层技术和应用层技术。如:可扩展标记语言XML、统一资源定位符URL、资源描述与检索技术RDA[16]、资源描述框架RDF[17]、知识组织系统KOS[18]、简单知识组织系统 SKOS、网络知识组织系统NKOS、中国网络知识组织系统CNKOS、链接工具Silk和LIMES[19]、开放源代码数字存储系统Dspace、RDF查询语言和协议SPARQL、关系数据库间转换D2R语言、关联数据映射语言R2R、Web数据到RDF数据转换框架W2R、互操作OAI-ORE技术、web信息处理OWL语言、RDF的数据库系统处理软件Virtuoso、大规模数据集运算工具MapReduce、发布技术 Drupal[20]、模块化关联数据客户端Rdfizer、RDF数据关系发现工具RelFinder。
特定领域内关联数据应用技术。图书馆元数据发布eXtensible Catalog[21]、维基百科结构化信息提取工具DBpedia、中文百科结构化信息提取工具CN-DBpedia和SinoPedia[22]、美国国会图书馆标题表LCSH、中文叙词表本体共建共享系统OTCSS[23]、中文分词系统 ICTCLAS[24]、关键词搜索工具Triplify[25]、统一医学语言系统 UMLS[26]、中国科学家在线 iAuthor[27]等。
技术方法和工具研究的共同点是,国内外基础的技术都为计算机领域着所开发,少数应用领域和图情领域专家合作开发,如LCSH、OTCSS、UMLS。不同点是多为国外开发,国内继承和发展,如CNMARC、CNKOS、CN-DBpedia、SinoPedia、OTCSS、ICTCLAS、iAuthor,集中在书目、主题词、叙词、关键词、人名等的关系数据的技术处理,创新较少。
3.4 应用研究
国内外共同应用领域集中在(1)LAM(图书馆、档案馆、博物馆)的资源和服务上,论文关键词体现在如书目数据、词表控制、元数据、数字图书馆、移动图书馆、馆藏资源、特藏资源、数据库、视听资源、图片资源、科技报告、会议文献、文化遗产、机构知识库、科学数据、数据策展、数据监护、数据挖掘、数据质量评估、知识管理和服务、资源发现、知识发现、知识地图、图书馆自动化系统、参考咨询服务、用户需求、个性化服务、数字人文等。(2)网络资源管理和服务。关键词体现在门户导航、推荐系统、信息检索(移动视觉搜索、语义检索、自问答检索探索式检索)、注释和标签、电子政务、电子商务、开放政府、MOOC、开放资源、在线学习、web数据、大数据、云计算、情感识别、泛在网络等词语上。(3)其他如人名地名术语名称规范、语义出版、可视化等应用领域。同时也发现了一些国外少有涉及的,但是国内独有的领域,比如:机构评价、学者和学术关系发现、家谱、版本关系、微博、阅读推广、智慧图书馆、智库等应用领域。
而国外独有且国内少有涉及领域包括:上市公司数据、3D、公共卫生分析、流行音乐、社交媒体、考古学、专业词库、隐私保护、词汇映射、协同标注、地图、图像增强、制图资源、生物医药信息聚合、海洋物种信息聚合、教育资源发现、课程、政府智能治理、政府预算、政治选举、电子外交、立法信息、跨学科研究等应用领域。可见,国外图情领域对关联数据研究社会化应用趋势更为明显。
4 研究发展路径和新兴领域分析
4.1 研究发展路径及趋势
分析工具做的关键词突显分析不能区分同义词、近义词,也不能做相关数据合并处理。本文利用关键词逐年相异词矩阵,进行应用领域发展路径和新兴领域识别。分别对国内外图情领域关联数据新兴关键词及词频进行统计,并与时间构成矩阵,以2009年产生的关键词为基准,横轴表示时间,纵轴表示新兴关键词及总词频,通过SATI和人工逐年剔除重复的关键词,最终呈现每年新兴关键词及总词频,从而追踪应用领域拓展情况和识别新兴领域爆发情况,这样既能逐年全面追踪又能增加主题识别准确度,见图5和图6。
图5 国内应用领域发展路径逐年相异矩阵图
图6 国外应用领域发展路径逐年相异矩阵图
分析发现图情领域关联数据研究国外和国内相比有四个特点:(1)理论研究逐步深入。逐步对信息生命周期各阶段关联数据角色定位展开研究;从开发和发展关联数据的描述、索引、组织、发布和检索等的工具,走向着重解决关联数据的可管理性、可重用性、可共享性、可交换性和互操作性的研究。(2)技术引领应用。通过MARC、BIBFRAME、RDA、RDF、SKOS、D2R、DHC、SPARQL、Drupal、DBpedia等信息资源创建、组织和发布的技术或工具,引导应用的发展;(3)社会化应用趋势增强。从在LAM(图书馆、档案馆、博物馆)的应用开始,渐渐注重社会化应用,如在政治、经济、文化、医药、卫生、法律等领域的应用;(4)研究方法理论联系实践增强。多以项目和案例形式开展研究。
4.2 新兴领域及要解决的问题
需要关注的新兴主题领域主要有:
(1)关注关联数据本身。相关性理论模型和规则制定、数据或数据集自动分类和类簇构建、数据及数据集处理、数据聚合质量和误差、行业词表、潜在语义分析、语义融合、知识孵化、跨语言数据匹配等。(2)关注技术采用。跨库数据转化器、大数据处理、共享云平台、数据监护、可配置计算、人工智能、视觉搜索、词库管理工具等。(3)关注在图书馆的应用。智慧图书馆、智慧服务、读者行为分析、用户生成内容、协同信息推送、推荐系统、协同标引、学术链接、开放引文语料库、信息揭示影响机制等。(4)关注社会化应用。智慧政府、智库、智能治理、人名或地名消歧、社交网络、社交标记、情感分析、情景计算及模拟等。
通过分析国内外新兴主题2016-2018发文量,我们发现和国外相比目前关联数据服务的实践在国内开展较少,同时发文量呈现萎缩的趋势,这与重点问题在理论和技术上没有突破有很大关系。还是要重点解决关联数据可管理性、可重用性、可共享性、可交换性和互操作性等问题,才能更好的实现关联数据服务的大面积推广和应用。