大数据环境下图书馆个性化深度服务探讨
2017-06-05唐妮王文丽易晓燕
唐妮 王文丽 易晓燕
摘要:针对高校数字图书馆之建设现状,分析大数据时代外部环境、用户需求、信息技术等方面的变化对数字图书馆的资源组织、个性化的深度信息服务带来的挑战,并就如何构建互联网+时代的数字图书馆,实现个性化的深度服务提出合理性建议:进行资源整合、扁平化管理;发展新型个性化服务。
关键词:数字图书馆;大数据;个性化深度服务;资源整合
中图分类号:TP311
文献标识码:A
文章编号:1009-3044(2017)10-0216-02
伴随云计算与大数据技术以及高校信息化水平的迅猛发展,将大数据技术应用于高校图书馆,适时推出个性化信息服务,将极大促进高校信息化水平。
1.高校数字图书馆所面临的挑战
1.1个性化服务中不足部分分析
在大数据与云计算技术的影响下,数字化的高校图书馆的读者需求差异化明显增大。原有的服务范围与对象对应现阶段的服务与功能相对远远不够。要解决这个问题,最好的方法就是个性化信息服务的构建。它从读者的知识结构、需求等出发,研究其行为习惯,因地制宜地为其创建契合需求的服务环境,更好地为读者提供合适资源。而高校数字图书馆的个性化服务没有特定概念,就是按照每个高校图书馆读者的专业、爱好、职业、年龄、特殊要求等开展的信息服务。
高校图书馆个性化服务有别于一般的个性化服务,是因其用户为学生和教师而决定的。它使用户在网络环境下,借助系统来构建个人馆藏和提高检索效率,以满足用户的特定需求。其实,个性化就是依据个体需求并针对性的提供信息服务。数字图书馆如何根据每个用户兴趣,主动及时把信息推送到用户手中,是高校图书馆面临的一大难题。
1.2高校急需构建成熟的数字化平台。打造数字化校园及数字图书馆
当前高校的校园一卡通系统中大部分是在都结合每个学校自有网络来促成全校面积的数字信息化空间及师生共享空间,成为数字化校园中重要的组成部分,给师生提供高效到位服务。而高校的数字图书馆建设,在现有的解决方案中,尚无法构建成熟的平台,如何实现图书馆的数字化,真正做到高校的数字化校园。高校的数据中心,是否能有够的云存储设备来支撑大数据平台的搭建,为高校的图书馆数字化服务? 2.大数据环境下高校数字图书馆的建设与深度服务提升
2.1图书馆的资源整合将是高校信息资源建设的基本要求
1)大数据环境下,图书馆无需将所有的馆藏资源数字化,可以针对某一方面形或某一原生资源,进行系统整理开发,以便让其发挥在高校数字图书馆的作用。2)支持多媒体文档的存储、保管、检索和管理,支持多种异质文档及其元数据的管理,建成最全最新的资源集成平台。在大数据时代云计算等技术的支持下进行数字资源的深层次开发,以实施对原始数据中的新型数据服务功能拓展、数据转换、挖掘技术、组织形态方面,面向海量数据进行筛选。 2.2深度信息服务能力的提升是高校数字图书馆的发展方向
数字图书馆深度服务的实现应具有层次性、专业性、特色性。首先,根据服务的读者身份来决定了其信息需求的层次性。其次,高校师生都属于不同的专业类别,为类型用户对信息的需求一般是与自己研究或学习的学科及相关学科上。高校图书馆应在特色资源与服务,才有更好的生存与发展,获得竞争优势。因此,图书馆在提供服务时,应注意信息需求的层次性、专业性、特色性,区别对待,这样才能保障服务的效果,提升高校图书馆形象。
2.3如何构建高校数字图书馆个性化的深度信息服务系统新构架
高校数字图书馆个性化的深度信息服务系统新构架,主要包括读者个性化兴趣模块、个性化推荐模块、图书使用模块和信息推送模块。数字图书馆深度信息服务系统新构架一般包括:
1)个性化兴趣模块将会按类别为读者在信息库中检索相关图书信息,分析并提炼用户读者的浏览记录,形成关键字,在图书馆信息库中进行全面检索,对检索结果进行分析比对后形成个性化的检索结果集。根据检索结果集与读者兴趣特征相对比,最后把相似度高的记录推荐给读者。
2)图书馆系统在读者使用一段时间后,会自动记录一些和其关键字搜索、到馆状态等信息。通过对信息的分析、挖掘,形成书籍闲置与时间的对应关系序列。那么,图书馆系统就可以在不同的时间段内,将这些闲置的书籍重新推送给相关的读者,从而提高图书利用的效率和信息的个性化。
3)信息推送模块信息推送是提取对优化后的结果数据的元数据,使用设计后的对象类,将读者需要的信息转化为信息的RSS格式。读者可以使用RSS阅读器,新的有用信息资源就会不断的推送,从而节省了读者获取信息的精力和时间。
3.高校数字图书馆深度信息服务能力提升的相关技术研究与实现
3.1实现深度信息服务的相关技术
如何实现高校数字图书馆深度信息服务,我们可以从以下几个方面开展:
1)图书采购方式基于数据挖掘
在大数据环境下,我们对读者需求进行深入分析也成为可能。在对图书馆OPAC系统中的读者搜索记录,读者荐购记录、读者借阅记录等数据进行深入的挖掘和分析后,我们可以准确地定位读者的需求倾向,从而为图书资源的采购做出支持和参考。
2)图书借阅基于移动物联技术
目前,国内部分高校圖书馆通过RFID设备来实现书籍的自助借还,智能分拣,自助办证以及安全监测等一系列智能服务功能。
不但能够节约大量的人力成本,最重要的是给读者带来了非常方便的体验,服务的质量和效率也得到了提升。
3)推出手机移动图书馆
随着新一代无线通信技术以及智能手机的普及,让读者更好地利用生活中的“零碎时间”,随时可以通过手机移动图书馆来满足自己随时查阅、咨询、个性化推送以及资源下载等各方面的要求。
3.2数据挖掘在深度信息服务能力的提升中的应用
如何具体实现深度服务呢,数据挖掘尤为关键。经过数次基于两次聚类的“离群数据挖掘算法”的应用,对所在高校学生进行了实际的研究。
1)原始数据采集
为了将前面提及的算法用到实际中去,同时也验证该算法是否有效且可行。我选取了本学院图书个性化服务系统注册用户的各个属性作为离群挖掘的对象。目前注册用户为5378,都是本校大一大二的学生及部分专业教师,他们在校的时候较长,对这些用户的属性进行离群挖掘,有一定的意义。
2)数据预处理
针对这5378名注册用户,我们感兴趣的特征包括四个:借阅频率,借阅数量,所属专业,借阅时长,阅书评价,积分。我们的计量规则:借阅频率每次计1,如过高一月超過4次则自动清零;借阅数量每本计1,借阅时长每天计1,阅书评价则为好评2,中评1,差评-1。在用算法进行试验之前,对大量原始数据进行进一步处理:
①将没有激活的读者去掉,最后余下4438;
②将借阅次数不正常的读者去掉(该部分参与无意义),还留下3896;
③去除阅书评价没有的读者,还留下3675,我们在这些读者里面进行离群挖掘。将属性值转化成,其中,是标准偏差,是此属性的平均值,使所有的属性都具有相同权重。
3)挖掘过程及结果
对已经进行转化和处理过的数据使用基于两次聚类的离群挖掘算法。进行数据挖掘。令k=30,找出前6个离群点。计算如下:首先选择合适的阈值,不能太大,也不能过小,来进行第一次聚类。接下使用RAM算法对每个类进行第二次聚类,聚类个数选择n/(k/5).n.n为子集的数据量,再为每个类计算边界与候选划分,在候选划分里计算点的第K个最小相邻距离。最后在第一步聚类后的子集计算好第K个最小相邻距离后,挑出前6个最大的,也就是离群点。
根据两次聚类的离群数据挖掘,得出了不同年级读者借阅图书频率及时长都有变化的规律。大一文学类居多,借阅的次数较多,借阅周期过短,数量较少,给予好评及中评较多;大二偏专业类多,借阅次数少,周期长,数量多,给予中评较多。部分学生对于历史艺术等类型,借阅次数不多不少,周期短,数量一般,给予好评及差评较多。专业教师,专业实用类偏多,最近最新的借阅次数多,周期长,数量少,给予中评居多。这些都为今后数字化图书馆的发展,如何选购所需图书,及根据读者不同年级专业进行推送符合读者兴趣的图书奠定基础。
4.小结:展望高校未来数字化图书馆的发展趋势
未来高校数字化图书馆的发展,将会以读者为中心,为读者提供以人为本的具有针对性、灵活性、智能性的个性需求服务,提高读者(用户)满意率。综上所述,本文通过对高校数字图书馆部分读者个性需求调研,分析大数据背景下高校数字图书馆深度服务宗旨、构成要素和实现方法,研究构建高校图书情报需求、个性化服务等模型,设计基于数据挖掘的、主动的和智能化的深度服务信息服务系统原型,提升高校数字图书馆的创新服务能力和水平。