基于读者数据挖掘的图书馆阅读社群构建研究
2019-08-30刘玉梅姚宁
刘玉梅 姚宁
关键词:读者;数据挖掘;图书馆;阅读社群;构建
摘要:大数据时代,基于读者数据挖掘的图书馆构建阅读社群是非常必要的。文章分析了数据挖掘与大数据的联系和区别,介绍了图书馆阅读社群读者行为数据挖掘的方法与过程,提出了基于读者数据挖掘的图书馆阅读社群的构建策略。
中图分类号:G250文献标识码:A文章编号:1003-1588(2019)07-0136-03
近年来,大数据推动了各行各业的发展和变化,在一定程度上促进了基于数据挖掘的图书馆阅读社群的构建,对于丰富图书馆阅读社群的服务形式及提升其服务质量等都起了非常重要的作用。为了更好地促进基于读者数据挖掘的图书馆构建阅读社群,对其展开相应的研究是非常必要的。
1数据挖掘概述
1.1数据挖掘分析
数据挖掘就是从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程。具体来说,数据挖掘具有发现知识的重要作用,通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统和模式识别等方法实现上述目标。从大量数据中提取的信息一般采用特定的形式表示,如概念、规则和规律等。随着现代信息技术的发展,数据挖掘的对象已不再仅限于数据库,慢慢扩展到更多领域,如文本系统或其他形式的数据组合等。从数据中提取的信息以一定的形式加以表示后就形成了模式,数据挖掘的主要任务是从数据库中找出对人们有用的数据模式,模式分为预测型模式和描述型模式两种[1]。根据这两种分类模式,数据挖掘的知识又可分为广义型知识、分类型知识、关联型知识、预测型知识和偏差型知识等五种不同类型。目前,数据挖掘被广泛应用于金融业、销售和零售业及科学研究等领域。
1.2大数据概述
近年来,随着计算机技术、互联网技术、存储技术及云计算技术的快速发展,大数据逐渐成为IT行业中的热门词汇。2008年,Nature最早提出了大数据的概念。2011年,美国的麦肯锡咨询公司最早发布了关于大数据的调查报告。自此之后,在商业和IT行业领域掀起了大数据热[2],很多知名企业也加大了对大数据的研究力度,促进了大数据的快速发展。2012年,美国政府公开支持关于大数据的研究,并宣布了大数据时代的来临,这为大数据的快速发展提供了非常重要的政策支持。
目前,关于大数据的定义在学术界还没有形成定论,学者从不同角度出发得出不同的定义。关于大数据的代表观点主要有以下几个:麦肯锡咨询公司从大体量的角度对大数据进行定义,认为大数据就是指拥有较大规模的数据,对这些数据无法利用计算机工具展开相应的整合分析;维基百科也从大体量的角度对大数据进行定义,且建立在麦肯锡关于大数据定义的基础上,认为大数据不仅具有较大规模,还是异常复杂的,以至于无法被计算机软件所整理分析。此外,还有一些学者从价值大、体量大、复杂程度高等方面对大数据展开了相应的分析。
1.3大数据与数据挖掘的关系概述
大数据与数据挖掘之间既有紧密的联系,又存在一定的区别。从其联系看,大数据与数据挖掘都需要以海量数据为基础,并从中挖掘对人类发展有重要价值的数据信息,无论是工作过程还是使用的方式方法都存在一定的相似性。從其区别看,数据挖掘所依赖的数据量较少,主要以数据库为基础,并且数据以结构化的形式呈现,数据的种类较为单一,以MB为数据单位;而大数据所需要的数据规模较大,其需要借助多种类型的数据,数据的单位以GB、TB为主。大数据所依赖的数据不仅包括结构化数据,还包括各种类型的半结构化数据及非结构化数据。对于大数据来说,由于不同类型数据的作用不同,数据的应用模式也存在较大区别,并在应用过程中其模式会随之发生相应的变化。由于大数据所需要处理的数据规模较大,图书馆在具体应用的过程中需要考虑其存储问题。
2图书馆阅读社群读者行为数据挖掘的方法与过程
2.1读者行为的数据采集
为了给读者提供专业的数据服务,图书馆需要有针对性地对读者行为进行相应的数据采集。数据采集方式主要有网络爬虫和开放API平台等。在数据采集的过程中,图书馆需要对读者的具体访问情况展开较为详细的分析。读者每访问一次图书馆的相关网站或多媒体平台,图书馆的系统后台都会有相应的显示,如读者搜索的图书资源及输入的关键词等。图书馆通过对读者搜索行为踪迹的记录,可分析出读者的一般阅读需求,从而为读者提供更好的阅读服务[3]。在数据采集的过程中,图书馆还需要详细记录读者搜索数据信息的具体时间及下载的具体内容等。
2.2数据的预处理
记录读者行为日志的相关数据属于非结构化数据,且规模较大。因此,图书馆在对这些数据进行处理前,做好相应的预处理是非常必要的。事实上,预处理就是将非结构化数据转化为结构化数据的过程,可大大减少图书馆处理复杂数据的工作量,并能有效提升数据挖掘的工作效率。在数据的预处理过程中,图书馆需要结合数据挖掘的具体目的,对读者行为的相关数据展开相应的整理及分析处理,进而为读者挖掘有价值的数据信息。
2.3数据的聚类分析
所谓Web数据挖掘,就是对读者访问网站时的相关行为数据展开有价值的分析。具体来说,Web数据挖掘可分为分类、聚类、关联规则及序列等数据算法。聚类算法是将数据以类的形式划分,把同类型的数据划分到一个组内,相同组的数据具有相似的特征,而不同组的数据自然具有不同的特征。图书馆利用聚类算法对读者的行为数据展开相应的分析,能对读者的行为喜好进行归类,获取读者的阅读需求,进而为读者推送其感兴趣的内容,提供个性化的信息服务。
3基于读者数据挖掘的图书馆阅读社群应用分析
3.1应用于读者的个性化服务
大数据时代,商家为了能够在市场中占有一席之地,不仅需要保证商品的质量,还需要做好相应的服务工作,有针对性地了解消费者的喜好。因此,图书馆需要在注重图书质量的基础上不断创新服务模式,利用数据挖掘技术分析用户的阅读喜好,提升服务质量,为他们提供良好的服务体验,满足他们的个性化需求。图书馆也需要有效利用各种大数据,从中提取对服务创新有价值的信息。图书馆还需要加强用户研究,充分利用各种类型的交互数据,对已经存在或潜在的各种用户开展跟踪服务、知识关联服务、精准服务和宣传推广服务,如图1所示。
3.2应用于信息资源体系的优化
大数据时代,图书馆应利用物联网、云计算技术、传感网、信息物理融合系统等,有针对性地向读者推送相关信息,提高馆藏资源利用率。图书馆还应对馆藏资源进行相应的整合处理,发挥自身的技术和人才优势,构建跨领域、跨行业的多学科智能知识库,为用户提供一站式、个性化的信息服务。
3.3应用于读者的分类研究
图书馆应利用数据挖掘技术,获取读者的阅读兴趣及需求,将兴趣相似的读者划为一个群体[4]。通常来说,图书馆应根据读者的兴趣及需求进行分类,并应用分类模型根据不同的类别建立不同的类别模式。如:高校图书馆可先按照读者的年龄、专业、学历等进行分类,再根据读者的具体特征及其属性进行细分,了解用户的阅读喜好,进而为他们提供有针对性的信息服务。在数据挖掘过程中,图书馆还可利用聚类算法对相关数据进行整理与分析,为分类研究提供支撑。
4基于读者数据挖掘的图书馆阅读社群的构建策略
4.1以战略规划为基础,营造服务氛围
图书馆基于读者数据挖掘构建阅读社群,需要做好相应的战略规划,进而为阅读社群服务工作的顺利开展提供支撑。具体来说,图书馆可成立专门的规划小组,确保每项工作都有专人负责,保证各项工作都能有序开展。图书馆也应重点分析以往在数据挖掘中存在的主要问题,在制订规划的过程中有针对性地解决这些问题。图书馆还应细化战略规划,既要制订年度规划,又要制订季度规划及月规划。
4.2以学科团队为基础,顺利开展服务
为了保证基于读者数据挖掘的图书馆阅读社群构建的科学性与专业性,图书馆必须组建专业的学科团队,保证服务工作的顺利开展[5]。具体来说,学科团队应对所要做的工作有较为详细的了解,进而制定相应的发展战略。学科团队也要注重选择适当的服务契机,保证服务策略得以有效实施,提高服务质量。学科团队成员之间还应相互交流经验,使服务策略在短时间得到有效推广。
4.3以教育培训为基础,努力搭建服务桥梁
大数据时代,馆员不仅要掌握专业的学科知识,对学科内的专业名词概念有较为详细的了解,对学科发展趋势有清晰的把握,还要具备一定的数据挖掘能力,以及能熟练运用信息软件。由于学科专有名词的概念、学科发展趋势、数据挖掘技术等都会随着时代的发展不断更新,因此,为了提高智慧馆员的服务水平、服务质量,满足现代化智慧图书馆建设的需要,图书馆应加强馆员培训。图书馆可邀请学科领域内的专家定期举办讲座,对馆员进行短期培训,促使他们不断更新知识体系,提升他们的业务能力。图书馆也可组织馆员到其他图书馆参观学习,汲取有价值的实践经验。图书馆还可为馆员提供学习交流的机会,如参加智慧图书馆建设方面的学术会议、研讨会等,提升他们的服务能力。
5结语
大数据时代,基于读者数据挖掘的图书馆构建阅读社群是非常必要的。数据挖掘与大数据之间既存在着紧密的联系,又有一定的区别。因此,图书馆在将数据挖掘应用于社群服务的过程中应注重其与大数据之间的联系与区别,进而推动阅读社群工作的顺利开展,满足读者的个性化阅读需求。
参考文献:
[1]王伟.基于数据挖掘的图书馆用户行为分析与偏好研究[J].情报科学,2012(3):391-394,418.
[2]陈臣.基于大数据的图书馆个性化服务用户行为分析研究[J].图书馆工作与研究,2015(2):28-31.
[3]姚飛,窦天芳,武丽娜,等.基于社会网络理念打造泛在图书馆服务:以清华大学图书馆为例[J].大学图书馆学报,2013(5):74-76.
[4]周伟,汪少华,杨云.基于数据挖掘和读者行为分析的图书馆荐书系统的研究与设计[J].图书情报研究,2014(4):38-44.
[5]张立春.基于数据挖掘技术的图书馆服务平台研究[J].图书馆理论与实践,2012(12):35-37.
(编校:孙新梅)