我国图书馆领域数据共享研究主题及其演变过程分析
2017-03-17张燕飞孔庆杰刘东亮
张燕飞+孔庆杰+刘东亮
[摘 要] 基于CNKI期刊数据库,以数据共享为检索词,借助文献分析工具SATI、Ucinet,以时间、作者及其影响力、期刊来源、机构、关键词等多个指标进行分析,采用共词分析法对图书情报学数据共享的主题及演变过程进行分析,结合目前我国图书馆领域数据共享现状,探讨开发适合我国数据库共享平台等多种方式,实现以高校图书馆为主的数据分享的蓝图。
[关键词] 数据共享;图书馆;演变趋势;高校图书馆
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2017. 03. 088
[中圖分类号] G353 [文献标识码] A [文章编号] 1673 - 0194(2017)03- 0162- 05
0 引 言
档案学对“数据共享”的定义为:“多用户同时使用同一个数据信息集合”。2013年以来,国际上多个领域已经开始广泛关注科学数据共享[1]。目前,在图书情报学领域研究主要热点关键词包括数字阅读、数字图书馆与个性化服务、推送服务、移动图书馆、新媒体营销、云计算等[2]。数据共享是以互联网大数据的背景为前提条件,数据共享能够实现数据资源最大化利用、数据管理、数据服务等功能。采用云计算的模式作为数字图书馆的底层架构,图书馆服务的改善表现在数据安全、数据共享、用户体验等方面[3]。每个学科在其数据共享实践中都有不同的策略,数据共享与学术图书馆合作,为数据管理与共享提供相应的制度。目前,对该领域的主题及演变趋势的研究极少。
笔者基于CNKI数据库,检索词=数据共享,学科=图书情报学,从论文发表时间、作者及其影响力、期刊来源、机构、关键词等多个指标,借助SATI,经DetDraw可视化,以图谱的方式呈现,旨在探索我国图书馆领域数据共享研究的主题以及其演变过程,以我国现状为基础,提出相应的对策和建议。
1 研究方法与数据来源
研究方法:采用共词分析法,利用统计分析工具SATI 3.2,Ucinet 6进行处理描述,抽取字段、提取关键词、作者、机构、期刊来源词频,并生成共现矩阵,相异矩阵;利用IBM SPSS 19.0聚类分析;处理数据,统计分析。
数据来源:CNKI的中国期刊全文数据库。数据样本时间范围:1987年1月1日至2016年10月30日。以数据共享进行主题精确检索,去重后,图书情报与数字图书馆学科有302条记录。检索时间:2016年10月30日。
2 统计结果分析
2.1 论文发表随时间呈上升趋势
自1987年以来,该研究数量随着时间的变化曲线见图1。
由图1可见,2006年至2012年,论文数量经过两个波峰,整体比上一阶段高,在2009年达到小高峰,发文量达到30篇;2012年到2015年,研究论文数量一直呈现增长趋势,2015年发表数量增至最高值(69篇),发文量随着时间的增长基本上呈现增长趋势。
2.2 论文著者之间多以个人形式存在,缺乏多人合作团体
从作者发文量及其著者合作发文的情况,能够清晰科研主导力量及其机构之间的合作情况。笔者以作者和第一作者为统计指标。共463位作者,共现次数=522,出现一次作者的人数=413,占全部的79.12%。合计274位第一作者,共现次数=297次,出现一次作者的人数=252,占全部的84.85%。以作者共现矩阵得作者之间的关系网络图谱如图2所示。
按照K-core共分为3个值。0:左侧作者群;1:四边形;2:三角形。由图2可知,K-core=2在图谱中占据该研究的重要地位。著者之间的共同合作较为缺乏,一般多数都是单独研究,主要分布在图的左侧,在前50位作者中,联系最为紧密的是江洪与钟永恒,联系最多作者数量为3人。未来团队合作能够促使作者之间的关系更为密切。
2.3 期刊分布来源少,出现单一现象
论文分布在128种刊物上,期刊载文量为1篇的占总量的29.1%。发文量前10的期刊信息见表1。载文量最多的期刊为《图书情报工作》(IF=2.018,最高),30篇,其余前9位期刊载文量均在12篇以下,TOP10期刊的载文量累计概率为36.4%。除《科技情报开发与经济》与《农业图书情报学刊》外,其余期刊的影响因子IF均在1左右。
2.4 高产机构地域分布不均匀
笔者以研究机构为指标,大致将所有文章分属到高等院校、公共图书馆、科研单位及医院四个单位类别,高等院校所占比率最大,论文数量接近200篇。进一步对高等院校以华东、华北、东北、华南、华中、西北、西南为划分标准,高产机构主要分布在我国的华东、华中、华北地区。
2.5 高频关键词及热点主题分析
2.5.1 高频关键词(数据共享、图书馆、科学数据)
通过对数据源的关键词共现分析归纳该学科的研究热点主题,根据词频统计结果绘制数据共享研究所涉及关键词的共现图谱,从图谱中更能清晰地看出研究热点、各主题之间的内在联系。该研究主题有903个关键词,平均每篇论文关键词数量为3。出现1次的关键词有756次,占总数的54.98%,词频﹥5的关键词如表2所示。
数据共享出现了80词意义不大,因为检索主题词为“数据共享”。除数据共享外出现频次前3的关键词依次是图书馆(33)、科学数据(32)、数字图书馆(18)。为使关键词的图谱具有代表性,笔者选取关键词出现的频次前50个关键词。
2.5.2 四类研究主题分析
关键词通过可视化图谱能反应出研究领域内亲疏关系。为了进一步清晰地描述研究主题,笔者采用IBM SPSS 19.0系统聚类处理前50个关键词,参考线Y=23将聚类图中该领域的关键词大致分为四类(见表 3),A类:数字图书馆与网络技术类,因为XML具有兼容Web应用,实现信息交换与共享[4]。B类:高校图书馆信息资源建设类。C类:元数据类。D类:科学数据管理、保存、共享类。
2.5.3 战略坐标分析(A、D类合为一类)
战略坐标图是向心度和密度为横、纵坐标轴,战略坐标点分布在四个象限,每个战略坐标点位置和距离的远近表示不同领域间的关系、内部成员之间的关联程度。第一象限点:两个数值都高,它为该领域的核心与成熟区;第二象限点,向心度低,密度高,边缘与成熟区;第三象限点,两者均低,边缘与不成熟区;第四象限,向心度高,密度低,核心与不成熟区域。四类的平均坐标值为(3.4,5.8),该研究的战略坐标图见图2。
结合上述理论,发现A、D两类处在边缘与成熟区,主要是在网络技术下发展起来的新型话题,可将这两类合为一类。核心和成熟区并未出现战略坐标点,该研究领域仍旧处在发展中,均在确定目前该研究的发展趋势。以元数据、整合为内容的C类处在该研究领域的边缘与不成熟区;高校图书馆、信息资源共享为主的B类处在核心与不成熟区域,高校图书馆如何有效利用资源的工作值得进一步研究。
由SATI生成50×50阶共词矩阵,经Ucinet的经Netdraw中心性分析后得关键词共现图谱见图3。
图3中节点的大小表示不同的度,表示与该节点相连线的条数,节点之间连线的粗细代表关键词之间的关联程度。图3中所有节点最大的除数据共享外,其次是图书馆、科学数据,较为明显的还有:数字图书馆、信息服务、高校图书馆等,其中数据共享与科学数据的关系最为密切,图的右上角也形成了一个较为紧密的图谱,处于网络图谱边上的关键词之间的相互联系越不紧密。
2.6 演变趋势分析
2.6.1 计算机管理、编目为主(1987-2005年)
第一阶段,由前50个高频关键词共现矩阵,经过Ucinet的NetDraw可视化处理,数据共享、资源共享、书目数据、计算机编目、编目工作等这些为第一阶段的核心关键词,数据共享与图书馆自动化的关系较为紧密。数字图书馆、标引类、科学数据共享等关键词处在图谱的边缘上。合作馆藏建设、联机联合编目是图书馆的基础工作[5]。
2.6.2 数字图书馆、高校图书馆与XML等技术相结合发展(2006-2012年)
第二阶段,节点最大的关键词仍然是数据共享,其次为数字图书馆、图书馆、高校图书馆,该阶段数字图书馆与数据集成、云计算、XML之间关系紧密,关系较密的关键词群有:数据共享、图书馆、云计算;高校图书馆、文献资源建设、信息资源共享。与第一阶段相比较,从偏重管理和编目的研究转变为新网络技术与图书馆相结合,重点偏向于计算机技术与数字图书馆的发展。图书馆的变化起源于美国和其它国家,网络无国界,各地互联网连接,图书馆也受其影响,逐渐走向电子化,数字及虚拟图书馆也就应运而生。
2.6.3 科学数据共享与图书馆为主(2013-2016年)
第三阶段,数据共享的节点最大,科学数据、图书馆、科学数据共享陆续紧随其后,网络图谱相互交错,联系较为紧密,与上两个阶段相比,它们之间的联系比较紧密,主要表现AD和D上。一、二、三阶段关键词之间的平均距离AD1= 2.369、AD2=3.162、AD3=2.215,AD2﹥AD1﹥AD3,即第三阶段关键词之间联系最为紧密;基于距离的内聚力D1= 0.331,D2= 0.332,D3= 0.470,D3﹥D2﹥D1,第三階段的内聚性最大。
3 对 策
目前,我国处在较低的发展阶段,存在的突出问题:共享理念不够普及,相关机制并不健全,平台与技术规范发展速度比较慢,共享服务的效果不够明显[6-7],缺乏相关数据存档服务。开放数据许可协议对促进数据共享具有重要作用,政府机构、知识共享组织、开放数据共用项目制订相对应的开放数据许可协议。数据协议包含:数据的使用,数据的支持与分享,数据责任[8]等。图书馆按照服务对象的不同,产生不同类型的图书馆,主要以高校图书馆、公共图书馆、研究型图书馆。图书馆在文化信息资源共享工程建设发挥着重要的作用[9]。数字和高校图书馆在数据共享研究领域占据重要的地位。
基于国内该领域发展的现状,提出以下五种措施:
(1)鼓励数据共享,共享科学界公认的真实数字化资料。诸如采用Google分享数据[10]。
(2)自由选择数据管理和访问的方式,NIH数据共享的可选方式包含四种:研究人员自我提供数据共享,提交数据库,设置访问权限,混合方式[11]。
(3)技术保障,相关共享平台是数据实现共享的基础。充分利用先进的互联网技术,实现科学数据在不同对象的共享。
(4)政策和相关法规标准的保障机制。短期内实现数据共享很难只靠个人意愿。通过奖励机制或硬性要求,从法律的角度才能确保其被国家单位或个人的重视。
(5)在政策和相关法规标准的保障机制的基础上,建立标准化的模式。方便和快捷地为人群服务,提高信息数据的被利用率。
主要参考文献
[1]邱春艳,黄如花.近3年国际科学数据共享领域新进展[J]. 图书情报工作,2016(3):6-14.
[2]韩晓雪,张丹丹,王春华. 我国图书情报领域微信研究热点分析[J]. 图书馆学研究,2016(8):7-13.
[3]周舒,张岚岚.云计算改善数字图书馆用户体验初探[J].图书馆学研究,2009(4):28-30.
[4]申传斌. 基于XML的数字图书馆异构数据库互连[J]. 现代情报, 2005(7):99-102.
[5]黄长著,霍国庆. 我国信息资源共享的战略分析[J]. 中国图书馆学报,2000(3):3-11.
[6]刘润达,诸云强. 科学数据共享关键问题探索—以地球系统科学数据共享网为例[J]. 地理科学进展,2007(5):118-126.
[7]黄心正. 基于WEB的科学数据库数据共享现状分析与共享机制建立[J]. 现代情报,2004(10):111-113.
[8]杨敏,夏翠娟,徐华博.开放数据许可协议及其在图书馆领域的应用[J].图书馆论坛,2016(6):91-98.
[9]罗少波.充分发挥图书馆在文化信息资源共享工程中的主体作用[J].图书馆论坛,2004(5):70-71.
[10]Mak Collette, Ellingson Margaret, Lancaster Charla. Does Your Data Deliver for Decision Making? New Directions for Resource Sharing Assessment[J].Interlending & Document Supply,2013,41(4):104-112.
[11]汪俊. 美国科学数据共享的经验借鉴及其对我国科学基金启示:以NSF和NIH为例[J]. 中国科学基金,2016(1):69-75.