APP下载

小数据思维下的文献资源建设创新研究

2020-09-26孙东莹

河南图书馆学刊 2020年8期
关键词:资源建设图书馆

孙东莹

摘 要:文章分析了高校图书馆建设小数据库的可行性,设计了建设小数据库的步骤,提出了小数据库建设过程中需要注意的问题,以期优化馆藏资源结构,助力高校“双一流”建设。

中图分类号:G250文献标识码:A文章编号:1003-1588(2020)08-0074-03

关键词:小数据;小数据库;图书馆;资源建设

1 小数据概念介绍

“互联网+”时代,大数据已深入社会的各个领域,图书馆也积极利用大数据开展创新服务和相关研究,如智慧图书馆研究、学科创新服务等。大数据具有海量(Volume)、多样(Variety)、快速(Velocity)、价值密度低(Value)等特性[1]。大数据专家舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中指出,大数据时代人们对待数据的思维方式将发生三个变化:一是人们处理的数据从样本数据变成全部数据。二是由于是全部数据,人们不得不接受数据的混杂性,而放弃对精确性的追求。三是人们通过对大数据的处理,解决问题的思维方式由追求因果关系转向关注相关关系[2]。

与大数据相对应的是小数据,小数据指以个人为中心的全方位数据,包括被采集对象的生活习惯、身体状况、社交、财务、喜好、情绪、行为等数据[3]。随着现代科技的发展,数据管理者可通过移动技术、传感器及可穿戴设备等采集个体信息,并对采集到的信息进行整理、分析,构建具有个人特色的数据系统,并对个人的特性、社会关系、需求和行为进行精准分析与预测。小数据是特定领域的样本数据,具有个性化、精确性和隐蔽性等特点。与大数据拥有海量信息不同,小数据的样本数量有限;与大数据采用相关关系分析不同,小数据采用因果关系分析。

图书馆可利用大数据技术快速获取海量、多样的数据,为自身的建设、运营和服务决策提供数据支撑。但是,大数据分析只有在整个行业或某个区域内收集巨量数据,利用Hadoop、HPCC、Storm等工具,才能使事物之间的相关关系得以呈现[4]。普通高校图书馆一般不具备这样的技术、能力和人力资源,且整个行业的大数据分析结果未必与其实际情况相符。笔者认为,单个高校图书馆收集小数据对于自身的建设具有重要的意义。因此,高校图书馆应以用户为中心,通过移动阅读终端、传感器技术、可穿戴设备、物联网技术等方式收集与本馆相关的小数据,构建具有本馆用户特点的数据系统,进而为创新服务提供参考。

2 开展小数据库研究的意义

2018年8月,教育部、财政部与国家发展改革委联合印发了《关于高等学校加快“双一流”建设的指导意见》的通知,为高校指明了发展方向,“双一流”是指建设一流大学和一流学科,走内涵式发展路线。建设一流大学和一流学科需要一流人才,因此,高校图书馆作为学校的文献信息中心,应加强文献资源建设,为一流人才提供优质的信息服务,满足他们的多元化需求。如何实现资源与用户的精准配置,已成为高校图书馆在完成资源积累后亟待解决的问题[5]。目前,高校图书馆的文献资源建设面临实体馆藏不可取代、虚拟馆藏需求量激增两个问题,在经费有限的情况下,高校图书馆一般根据文献采访原则和年度采访计划采购文献资源,但实际上采购的文献资源无法满足读者的多元化需求,读者满意率也逐年下降。很多高校图书馆采取读者需求驱动采购模式,开展了“你买书,我买单”、读者荐购、图书展览等活动,以期提高馆藏资源利用率,但实际效果并不明显。因此,高校图书馆应建设小数据库,为读者提供精准的信息服务,最大限度地满足读者的多元化需求,助力高校“双一流”建设[6]。

3 建设小数据库

3.1 成立小数据库建设团队

高校图书馆应成立小数据库建设团队,开展数据收集、数据清洗等工作,挖掘读者的实际需求,实现信息服务与读者需求的精准对接。数据收集工作涉及高校图书馆、院系及行政部门,因此,高校图书馆应加强与院系及行政部门的合作,获得学校的政策支持和技术支持。

3.2 收集数据

高校图书馆建设小数据库需要收集读者在学校的各种活动信息,以及使用图书馆产生的与文献资源建设相关的数据,如基本数据、图书馆行为数据及科研数据等。基本数据包括读者的职业、年龄、性别、专业等信息,是读者的基本信息,这些数据来源于图书馆读者管理系统;图书馆行为数据是指读者在利用图书馆的过程中产生的数据,如入馆时间、入馆次数、推荐图书记录、借阅记录、使用OPAC系统记录、使用数据库记录、咨询记录、文献传递记录等,这些数据来源于视频监控系统、传感器网络系统、读者服务终端数据采集系统及数据库商监控系统;科研数据包括专业建设信息和科研成果信息,如学科建设动向、教学改革动向、课程安排、科研成果、学术会议及项目实施情况等,這些数据来源于院系和行政部门等。

3.3 数据清洗

为了减少数据产生的噪音,小数据库建设团队需要对收集到的数据进行清洗。数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性、处理无效值和缺失值等[7]。数据清洗是数据分析中最复杂的部分,需要花费大量的时间。小数据库建设过程中的数据清洗主要涉及数据缺失、数据错误、数据逻辑错误、数据重复等问题[8]。对数据缺失、数据错误的处理,主要用删除法和插补法。删除法即直接将存在缺失的数据删除,插补法是通过均值平滑、建立回归模型、极大似然估计推算出空值等方式补全数据。数据逻辑错误是指数据的属性值与实际值不符,违背了业务规则或逻辑,如:一条数据记录的某个学生的出生日期为“1990/10/35”,超出了日期的最大值,这种错误的处理方法是根据相应领域知识制定约束规则,利用数学方法获得规则闭集,自动判断字段值是否违反规则约束。数据重复是指多次出现某一条数据,常用的检测方法有基于排序比较思想的优先队列算法、邻近排序算法、多趟近邻排序法等,针对数据重复这一问题的处理方法主要有基于相似度函数的算法、基于规则的算法、基于机器学习的算法、人机结合的算法等[9]。

猜你喜欢

资源建设图书馆
图书馆
气味图书馆
欢迎到图书馆做客
科学数据共享平台的建设与服务探讨
检察档案信息资源建设与开发利用
教学资源库建设和共享机制研究
保定旅游资源建设现状及存在的问题研究
移动学习方式下实验教学资源建设的研究
去图书馆