APP下载

我国图书情报领域大数据研究热点分析

2015-01-07周庆华

卷宗 2015年12期
关键词:统计分析云计算情报

周庆华

摘 要:文章首先简述了、我国图书馆情报学发展现状,然后分析了我国图书情报资源存在的问题,最后重点探讨了情报学领域研究热点分析。

关键词:图书馆;情报;云计算;统计分析

随着我国经济和互联网信息化的发展,在现代化计算机科学应用技术环境下,数据已成为科学研究项目重要组成部分,以互联网“云计算”数据管理为核心的图书馆情报领域数据研究,越来越多地受到关注。本文针对我国图书情报领域大数据研究热点进行分析。

1 我国图书馆情报学发展现状

我国图书馆学情报学期刊网络信息化进程中逐渐形成自身特色的栏目、网站,极大地方便读者、编者和作者之间的相互交流。就读者而言,除可以及时获取最新的相关信息以外,还可以真正做到对信息的“各取所需”。由此,我国图书馆学情报学期刊网络信息化不但面向国内读者需求,更应提高期刊的国际知名度,这就要求充分利用网络优势,在国家的统筹规划和协调之下,以我国目前各学术期刊编辑部形成的完备、规范的编辑网络作为质量控制的基础平台,以中国期刊网等各大型专业数据库的协同运作作为我国学术信息传播的网络发行平台,由全国范围内遴选各学科各专业权威专家组成的专门机构作为学术成果的评价平台,实现开放出版、开放获取,促进我国图书馆学情报学期刊稳定、可持续的发展。

2 我国图书情报资源存在的问题

1、图书资源数字化程度不高,网络化硬件建设的基础薄弱。尽管我国图书文献纸质资源内容丰富、数量巨大,但由于数字化程度不高,加之网络化建设基础薄弱,致使读者无法从异地,甚至于本地网络上查阅文献信息资料,尤其是早期的部分珍贵文献资料。

2、我国图书情报机构分属系统有别,缺乏统一管理。我国图书情报机构分属四个独立的系统管辖,即隶属于教育部的高校图书馆系统,隶属于文化部的公共图书馆系统,隶属于中科院的科学院文献情报系统和隶属于科技部的综合科技情报系统。这样就造成了图书馆管理上的条块分割,致使我国图书馆网络信息资源建设缺乏统一的标准和规范,从而影响各个图书馆的链接和共建。

3、资源共享共建缺乏统一的建设规划。信息资源建设是一项长期的系统工程,这就要求各馆要高度重视,建设资金的投入要有连续性,图书馆之间要有协调性,避免重复建设,资源浪费。但是由于目前尚无至上而下的统一规划,致使各馆为了达到评估要求盲目上项目,使本来就数目不多的资金也没有用在刀刃上。总体上使我国的信息资源建设处于一种混乱无序的状况,这都不利于图书馆信息化、网络化的发展。

4、数据库建设缺乏统一标准,使数据对接难度增大。目前各图书馆的数据库建设仍然以自建为主,各个馆独立建库,数据库类型千差万别,致使各数据库之间不能实现无缝对接,增加了网络化的成本。

5、信息安全和版权问题制约资源共享的发展。网络安全是网络建设的一个重要保证,但由于网络病毒的大流行,加之目前尚无完备的网络信息资源保护法,致使网络黑客恣意妄为,网络安全问题变得更加严峻和复杂。知识产权法的完善,与出版物的网络化或多或少的存在矛盾,这使得许多图书馆信息资源网络化时存在顾虑。如何在网络资源共享与知识产权之间寻找一个平衡点是当务之急。

6、专业技术人才普遍缺乏。从全国范围看,专业技术人才普遍缺乏,馆员的信息技术知识普遍匮乏,能力偏低。初步建成的共享体系,因工作人员的微机水平不高,无法正确操作或维护而不能充分发挥应有的作用,造成资源的浪费。

3 情报学领域研究热点分析

1、构造高频关键词矩阵

高频关键词表中“情报学”出现的频次最高,但是其与本研究的内容完全重合,故舍弃;图书情报学与图书馆学情报学的意义相同,故将它们合并为图书情报学。在此基础上共计得到12个高频词作为共词分析的原始数据。

将这12个高频关键词进行两两组合,统计出它们同时出现在一篇文献中的次数,形成共词矩阵。该矩阵为对角矩阵,对角线上的数字代表任一关键词自身出现的频次,非对角线上的数字代表两个关键词同时出现的次数。为了更清晰地表示关键词之间的关系,我们将用Ochiia系数计算关键词相似矩阵,“Ochiia系数等于AB两词共同出现的频次除以AB各频次乘积的开方。”

2、因子分析

因子分析简单地说就是用少数几个因子来描述原始多个变量因子之间的联系,能反映原始资料的大部分信息。“因子分析有以下5个特点:提取的因子个数小于原有变量数;因子可代替原有变量参与数据建模,减少了计算量;因子能够反映原有变量的大部分信息;因子之间的线性关系不显著;因子具有命名解释性。”

3、聚类分析

聚类分析是研究“物以类聚”这类问题的一种有效方法,“它的实质是建立一种分类方法,将一批样本数据按照它们在性质上的亲密程度在没有先验知识的情况下自动进行分类,同类间较为相似,不同类之间区别较大。”具体操作步骤为:一是将相异矩阵导入SPSS19.0中,选择分析――分类――系统聚类(即是层次聚类);二是将所有变量选择到右边的变量列表中,依次设置聚类分析的选项,输出内容为统计量和图。

生成的聚类表中第一列表示聚类分析的第几步;第二、三列表示本步聚类中哪两个变量或者小类聚为一类;第四列表示变量距离或者小类距离;第五本步聚类中参与的是变量还是小类,0表示变量,非0表示由第几步聚类生成的小类参与本步聚类;第七列表示本步聚类结果将在以下第几步中用到。如:首先进行合并的是第九和第十二个变量,他们之间的相关系数为0.886,此聚类结果将在以下第四步聚类中用到。

树状图更加客观清晰地展现了聚类分析中每一次类合并的情况,首先合并为一类的是研究热点和知识图谱,依次按照距离大小合并为一类的是图书馆学和文献计量学,图书情报学和被引分析,合著网络和社会网络分析,各变量合并之后,就是变量与小类及小类与小类之间的合并,最终所有小类合并为一类,此时类间的距离已经非常大了。

4、多维尺度分析

“多维尺度分析和因子分析一样都是

降维分析,在多维尺度分析中,各数据点在空间中的位置是分析解释的重要内容,聚类分析可以确定组别,但是无法在空间中标出观测值,因此可以用多维尺度分析对聚类分析进行补充说明”具体操作步骤为:将相异矩阵导入SPSS19.0中,选择分析――度量――多维尺度;将所有变量选择到右边的变量列表中,对模型,选项依次进行设置。

经以上研究本文将情报学领域的研究热点分为以下四类,一是基础理论研究。理论研究是其学科确立的根本,5年来,情报学基础理论研究成果不断丰富。二是社会网络分析法研究。社会网络分析法通过定量分析方法,扩散到社会的各个领域中,目前合著网络的研究是情报学领域的研究热点。三是共词分析法研究。共词分析法属于内容分析法的一种,其原理为统计一组词两两出现在一篇文献中的次数,对其进行聚类等分析,得到研究领域的主题。四是文献计量学研究。引文分析及被引分析都属于文献计量分析法,引文分析一直以来都是文献计量学方法的一个重要研究方向。

4 结束语

综上所述,我国图书情报领域大数据建设是一项基础性核心工作,我们应必须高度重视,我国图书情报领域数据管理应更多地借鑒国内外相关学科的研究,从而使图书情报资源,尽早实现共享。

参考文献

[1]周文骏.什么是图书馆怎么研究图书馆学[J].大学图书馆学报,2014

[2]赵明臻.图书馆网络信息资源共享障碍论析[J].图家图书馆学刊,2014

[3]程焕文,潘燕桃.信息资源共享[M].北京:高等教育出版社,2014

猜你喜欢

统计分析云计算情报
情报
情报
情报
如何发挥新时期统计工作的作用之我见
以统计分析为基础的房地产税收优化分析
基于云计算的移动学习平台的设计
实验云:理论教学与实验教学深度融合的助推器
云计算中的存储虚拟化技术应用
SPSS在高校图书馆服务体系中的应用研究
交接情报