我国图书情报领域大数据研究热点研究
2016-11-15陈大平
陈大平
摘 要:近年来我国经济高速发展也带动了互联网信息化的快速发展,大数据已成为科研的重要项目。
关键词:图书情报;大数据;热点研究
在现代化计算机科学应用技术的环境下,大数据研究已成为重要的组成部分,以互联网“云计算”数据管理为核心的图书情报领域的大数据研究也越来越受到社会各界的关注。本文将着重介绍我国图书情报领域大数据研究热点,希望给图书情报领域带来些许的借鉴意义。
1 我国的图书馆学情报学的发展现状
图书馆学情报学在我国的快速发展的网络信息化进程中渐渐形成了鲜明的栏目、网站。这极大的促进了读者获取知识的能力,还进一步的方便了作者、读者和编者之间的相互经验的交流。对于读者来说,可以很快地获取最新的咨询,其中提供了丰富的内容筛选功能,真正的做到了读者对信息的“各取所需”。随着图书馆学情报学的发展,对于期刊网络信息化来说,不仅要努力满足国内的用户的使用,还需要进一步提升国际知名度。目前我国在国家的统筹规划和协调处理之下,很大一部分的学术期刊形成了比较完备的学术期刊编辑部,编辑网络的规范性也得到了一定的保证。以中国期刊网等各大型专业数据库的协同运作作为我国学术信息传播的优良的网络发行平台,由全国范围内遴选各学科各专业权威专家组成的专门机构作为学术成果的评价平台,实现开放出版、开放获取,促进我国图书馆学情报学期刊稳定、可持续的发展。
2 我国图书情报资源存在的问题
2.1 缺乏统一的管理
因为我国情报机构分属的系统不一致,就难免使管理很难统一。现今我国的图书情报机构分别属于四个独立的管辖机构。分别是,隶属于中国科学技术院的文献情报系统;隶属于我国文化部的公共图书馆系统;隶属于教育部的高等院校图书馆系统;隶属于中国科技部的综合科技情报系统。这就把图书管理分割开来,难以统一有效管理,致使我国现今很难确立图书馆网络技术信息资源建设较为统一的实施标准和规范,图书馆的链接和共享也受到了一定影响。
2.2 图书资源数字化程度有待提升
尽管我国的纸质图书文献十分丰富,无论是在类别上还是数量上都很巨大,但是由于网络化硬件建设的基础还比较薄弱,加之本身的额数字化程度不高,就很难让读者从异地或者本地网络上查阅到想查阅的信息资源,尤其是比较早期的一些比较珍贵的文献资料。
2.3 数据对接的难度大,数据库的建设缺乏规范完善的标准
现今我国的各图书馆的数据建设任然是先自行建设为主,数据库的类型也是花样繁多,加之独立建库,就导致了各个独自建立的数据库不能很好的实现无缝对接,增加了图书馆网络化的成本。
2.4 资源共享共建缺乏统一的完善的建设规划
信息资源建设是一项长期的系统工程,这就要求各馆要高度重视并认真的完成,建设资金的投入要有连续性不能中断,图书馆之间要有协调性,避免重复建设导致的资源浪费。但是由于目前尚无至上而下的统一规划,致使各馆为了达到评估要求盲目上项目,使本来就数目不多的资金也没有用在刀刃上。总体上使我国的信息资源建设处于一种混乱无序的状况,这都不利于图书馆信息化、网络化的发展。
2.5 版权问题不能很好解决,信息安全无保障
目前我国的网络安全形势不容乐观,网络安全是发展网络建设的重要保障。目前我国没有建立完整的网络信息资源保护法,导致黑客盛行肆意妄为。网络安全问题比较复杂严峻。今年我国的知识产权法进一步的完善了,但是这也导致了出版物网络化的版权问题。使得许多图书馆信息资源网络化时存在顾虑。如何在网络资源共享与知识产权之间寻找一个平衡点是当务之急。
2.6 人才的普遍缺乏
科学技术是第一生产力,而专业的技术人才是发展科学技术的保证。但是现今从全国范围看,专业技术人才普遍比较少,馆员的计算机信息技术知识普遍也比较匮乏,专业处理能力也比较低。由于整个共享系统处于初步建成运行的状态,但是工作人员的微机水平不足,无法正确操作或维护而不能充分发挥应有的作用,造成资源的浪费。
3 情报学领域大数据热点研究
3.1 构建高频关键词矩阵
高频关键词表中“情报学”出现的频次最高,但是其与本研究的内容完全重合,故舍弃;图书情报学与图书馆学情报学的意义相同,故将它们合并为图书情报学。在此基础上共计得到12个高频词作为共词分析的原始数据。
将这12个高频关键词进行两两组合,统计出它们同时出现在同一篇文献中的次数,形成共词矩阵。该矩阵为对角矩阵,对角线上的数字代表任一关键词自身出现的频次,非对角线上的数字代表两个关键词同时出现的次数。为了更清晰有效地表示关键词之间的某些关系,我们将用Ochiia系数计算关键词相似矩阵,“Ochiia系数等于AB两词共同出现的频次除以AB各频次乘积的开方。”
3.2 因子分析
用少数几个因子来描述解释原始的很多个变量因子之间的关系就是因子分析,因子分析可以反映原始资料里面的大部分有效信息。以下的5个特点是因子分析固有的,能减少计算量,因为因子替代了原有的变量参与了数据建模;因子分析能反映原有变量的大部分信息;因子有命名解释性;因子之间的线性关系不显著;因子分析中所需提取的因子个数小于原有的变数量。
3.3 聚类分析
俗话说物以类聚,那么在大数据研究里也是一个十分可行的方法。“它的实质是建立一种分类方法,将一批样本数据按照它们在性质上的亲密程度在没有先验知识的情况下自动进行分类,同类间较为相似,不同类之间区别较大。”具体操作步骤一般分为两点,首先是,异矩阵导入SPSS19.0中,选择分析――分类――系统聚类;其次将所有变量选择到右边的变量列表中,依次设置聚类分析的选项,输出内容为统计量和图。
在聚类分析中时常用到树状图加以解释分析,它能比较完整清晰的展示聚类分析中的每一次类合并的状况,达到最终的所有小类合为一类,此时的类间的距离已经十分大了。
3.4 多维尺度分析
多维尺度分析属于降维分析,各数据在空间中的位置是进行分析解释的重要前提和参照物,聚类分析虽能确定相应的组别,但是不能在空间中标出观测值,就难免影响了实际的判断。因此就可以用多维尺度分析来对聚类分析进行更完善的补充说明。具体操作步骤为:将相异矩阵导入SPSS19.0中,选择分析――度量――多维尺度;将所有变量选择到右边的对应的变量列表中,对模型、选项依次进行合理的设置。
4 总结
近年来,我国图书情报学理论研究成果不断增多不断丰富,但是其中存在的问题也较多,这就需要广大的专业领域的工作者孜孜不倦的探索,努力做好本职工作。我国图书情报领域大数据建设是一项基础性核心工作,我们应必须高度重视,我国图书情报领域数据管理应更多地借鉴国内外相关学科的研究,从而使图书情报资源,尽早实现共享。
参考文献
[1]张文彦,武瑞源,于洁.大数据时代的图书馆初探[J]图书与情报;2012
[2]邓仲华.大数据环境下嵌入科研过程的信息服务模式研究[J]图书与情报;2014
[3]周力青.大数据时代下的图书馆移动服务创新研究[J]图书与情报;2015
[4]刘红霞,白万豪.大数据背景下的应用情报学研究[J]情报资料工作;2014
[5]王捷.大数据时代下图书馆开展信息服务的对策[J]现代情报;2013
[6]李小刚,程舒.大数据时代档案馆服务创新研究[J]北京档案;2014