大数据时代的高职院校数字化图书馆布局问题
2019-11-07张晓梅
张晓梅
摘 要: 信息通信技术(ICT)正向着ICDT转变,这说明了大数据技术的重要性。高职图书馆正在进行数字化转型,探寻其与大数据技术的结合具有现实价值。本文论述了二者内在属性间的关联性,分析了Hadoop平台的各功能模块,探讨了大数据技术支撑下的数字化图书馆服务模式,推动高职数字化图书馆建设。
关键词: 大数据 高职院校 数字图书馆
移动互联网络拓展了互联网的覆盖空间,信息数据的增长速度超过以往任何时代,新的数据类型、数据结构和存储方式出现,大数据(Big-Data)技术随着数据分析需求而出现。图书馆是高等院校信息服务体系的主体,同时是社会公共信息服务的有机组成部分,数字通信技术的出现改变了现代图书馆的存在形态,实时在线服务成为数字化图书馆的服务模式,涉及标准、技术、管理、法律等方面,在共同学习中探索新的建设模式。大数据技术的高速数据处理能力为数字图书馆建设提供了技术保障,二者的数字化本质是一致的,為其融合提供了基础。同时,大数据技术在不断实现自我完善和变革,在支撑数字化图书馆发展的同时,为自身寻找合适的数据反馈源和试验样本。
1.大数据与数字图书馆的内在属性
1.1大数据的内在属性
麦肯锡在2011年5月的一份报告中最早提出“大数据”的概念[1],《华尔街日报》开辟专栏对大数据技术进行全面分析,美国政府于2012年3正式宣布开展“大数据”技术和应用研究,前期投资2亿美元,“大数据”首次获得国家层面的官方身份认可。
对大数据的本质,不同国家、科研机构和组织间的认识略有差异,公认的是IBM公司提出的“3V”模型,即量大(volume)、实时(velocity)、多样(variety)[2]。量大,是指数据总量,其计量单位由TB向PB发展,现在已达到EB级;实时,是指数据的处理与交互式访问,用户所需的二次数据结果处理实时完成,提供支撑决策的参考信息;多样,是对数据类型,包含完全结构化数据、半结构化数据、非结构化数据,非结构化数据流包括视频、音频、图像和图片,数据处理速度和能力提升到下一个量级。综合不同概念的表述和理解,大数据即从多样的数据中实时提取有价值的二次数据信息。作为现实需求技术和未来发展方向,大数据是一种自我发展的技术。
1.2数字图书馆的内在属性
二十世纪九十年代最早提出数字化图书馆概念,通过信息互联网络、多媒体技术、先进计算机的组合,完成图书馆馆藏数据的二进制转换,以数字化存储形式构建新型图书馆。数字化改变了高校图书馆的服务方式,信息化、数字化服务与纸质资料服务并存,数据传递速度倍增,电子图书、期刊成为图书馆制式的数据存储形式。目前,数字化图书馆已经完成数据网络传递、数据的二进制转换阶段,集成化的信息技术和实时访问优势将服务变得更加便捷[3]。
高校的数据信息体系以图书馆为主体,从各高校的图书馆建设中可以得到印证,作为学术性服务机构,推动教学与科研工作进步。随着5G时代的来临,信息技术即将实现万物互联,信息数据量呈级数级增加、非结构化数据访问量增加、用户数据检索质量提升,数字图书馆现有的数据存储和访问能力难以应付,数字化图书馆是高校图书馆实现可持续发展的必由之路。
2.基于图书馆Hadoop平台的大数据分析系统
选用Hadoop平台作为数字化图书馆的大数据支撑平台。Hadoop平台底层支撑架构牢固,具有强悍的数据处理性能和易扩展性,尤其适用于海量数据处理,性价比优势明显。
典型的Hadoop平台架构包含四个功能模块:数据采集、数据冗余、维度定义和并行分析。各个模块的功能定位详述如下:
2.1数据采集模块,完成海量图书信息碎片的收集、传输与合并,确保传输速率、数据完成性与传输安全。
2.2数据冗余模块,这是Hadoop平台架构的关键环节。该模块首先定义冗余维度定义器,然后定义需要冗余的维度信息及数据来源,将信息以指定的扩展方式写入。在图书信息数据处理过程中,随着维度的增加,定义数据冗余模块是必要的。
2.3维度定义模块,属于前端模块,使用者为图书信息管理员,对海量图书数据以可视化的定义器定义维度和度量,可视化的分析器执行定义好的多维分析命令,最终生成一种多维分析语言。
2.4并行分析模块,接收来自管理员的多维分析指令,核心模块负责对命令的Map-Reduce解析,最后上交Hadoop分析集群,生成分析报表,展现在图书分析报表中心[4]。
3.大数据技术支撑的数字化图书馆建设方案
数字图书馆建设应该以资源建设为中心,建立更加完备的资源库、优化资源结构,以大数据分析和挖掘技术为依托,维护原生资源、突出特色资源、营造资源生态领域,整合不同资源类型,形成互通、共享的大数据资源池。
3.1对图书馆信息资源进行整合利用
图书馆职能的关键在于组织信息资源,在数据采集的基础上对信息进行分析、描述、揭示,大数据技术使这种职能的面貌发生改变。依据麦肯锡全球研究所的调研报告数据,全球范围内的有效数据利用率只有不到12.5%。在现代社会中,来自各种终端设备的数据资源超过50%,数据的简单汇聚并不能产生有价值的信息和知识。一方面是已经生产的海量情报信息,另一方面是对有价值数据资源的需求,二者间的矛盾需要一种技术方案协调。要将固定的数据实时传递给不确定的个体,提供具备吸引力的服务内容和形式,实现数字图书馆的科学性和高可靠性。整合图书馆资源的目的在于提供用户所需数据,对图书、期刊、学位论文、多媒体资源、数据库等依据固定的格式进行资源重组,便于读者获取所需资源信息。现有的大数据技术资源密度较低,资源整合操作可以有效弥补这种不足。
3.2提升数据推送的关联度和准确性
數据推送服务是图书馆主动推送读者所需的关联信息,读者客户端可以是多种形式,包括个人电脑、手机APP、网页账户等。现有的图书馆的推送服务属于广播式推送,不能满足读者的全部需求,不同领域间的差别显著。预测性缺失,对于资料查阅和网页浏览历史数据,大数据可以对其全部行为数据予以记录,细化到每一篇文章,甚至是具体词组,汇集读者的各类微小行为;推送服务分层次进行,层次划分依据可以是兴趣爱好、性别、年龄段、受教育程度等。基于用户的数据浏览频次,大数据提供个人的兴趣偏好分析,涉及兴趣度排序和变化趋势,以对其需求变化进行预测,汇集不同读者的需求信息,产生的数据可以为图书馆数据更新和采集提供参考,对读者需求做到超前解读和引领,提高数字化图书馆的社会效率。
3.3支撑个性化的细粒度知识服务
图书馆个性化服务增强了对读者个体的针对性,现有的个性定制服务策略依据读者的基本信息、研究领域、检索集及调查问卷统计数据,依据单一、僵化,难以提供更加细粒度的个性化服务。枣庄科技职业学院的数字化图书馆建设引入“猿题库”模式,细化捕捉读者的每一次动态操作行为,建立灵活、定制化的读者档案,结合行业分析和学科分析数据,支撑数字化图书馆的个性化细粒度知识服务。大数据技术的灵活性体现在对读者行为变化情况的自动监控;对不同层次、类别数据的自动调用与智能推送。
3.4更具象的数据咨询参考服务
现有的参考咨询服务依据图书馆藏检索工具书、参考工具书、自建与外购数据库或二者的结合,负责实施的馆员可以是兼职也可以是全职,均具备良好的专业知识背景,熟悉检索业务。大数据时代的课题咨询服务,由系统依据特征值将查询结果进行实时图形展示,数据分析技术缩短资源获取时间,延展咨询馆员的情报信息获取边界,更好地满足读者需求。尤其对企业用户而言,深度参考咨询服务提高图书馆数据利用率和价值水平。
4.结语
大数据技术的出现,给图书情报领域带来了前所未有的信息技术革命,是机遇也是挑战。高职图书馆应及时更新理念,寻求与先进技术的深入融合,拓展用户服务模式。大数据技术研究处于快速发展阶段,其价值和应用前景正成为未来科技革命的核心。大数据技术与数字化图书馆的深度协作,成为图书情报领域的信息化转型方向,将实现数据价值的深度挖掘与新型服务方式的探索。
参考文献:
[1]韩翠峰.“互联网+”环境下的图书馆服务转型与发展[J].图书与情报,2017,159(05):29-32.
[2]李岱洲.“互联网+”时代下高校图书馆应对策略[J].农业图书情报学刊,2016,28(5):101-103.
[3]何胜,熊太纯,周冰.高校图书馆大数据服务现实困境与应用模式分析[J].图书情报工作,2018,59(22):50-55.