APP下载

基于数据挖掘的图书馆读者阅读社区构建研究

2018-08-22殷建文

图书馆学刊 2018年6期
关键词:数据挖掘图书图书馆

殷建文

(珠海市图书馆,广东 珠海 519000)

1 图书馆读者阅读社区构建背景

1.1 图书馆阅读社区的内涵

在新媒体时代背景下,图书馆的阅读形式不再仅仅是以文本和图像等形式的阅读,取而代之的是集文字、图像与视频于一体的立体化阅读形式[1]。在阅读媒介上,也不再仅仅是纸质媒介,而是更多地采用数字阅读终端以及移动阅读终端。在交流方式上,也由传统的浅显交流,到如今的充分体现动态性、共享性、社会性以及参与性的多位一体的深入交流。随着图书馆的阅读形式发生变化,图书馆的阅读服务也要随之变革。阅读服务在图书馆的整体运营中应处于主导地位,其关键点在于有效地组织和开展阅读服务,以提升图书馆的社会地位,让更多的读者参与到阅读中来。因此构建图书馆的阅读社区势在必行,也符合图书馆阅读服务发展的潮流。

目前,国内图书馆读者阅读社区的构建主要研究点在于构建网上阅读社区,有学者认为,阅读社区是一种以交流为主要导向的网络阅读讨论组织系统[2]。构建图书馆的阅读社区有利于加强读者与图书馆之间的互动,通过读者与作者之间互动,读者与读者之间的互动,以更方便的网络形式开展阅读讨论,引导更多的读者进行深入的阅读和交流,从而有效地提升图书馆对于读者的吸引力和凝聚力。有学者研究认为,如今的阅读更多的是社交性阅读、个性化阅读;以阅读作为媒介,强调在阅读过程中的分享、传播和社交,通过社会化阅读创造更大的阅读价值。

1.2 图书馆阅读社区的现有问题

国内外到目前为止已经有一些流行的阅读社区[3],如国外的ZITE、FLIPBOARD、FPO等阅读社区,以及国内的超星阅读社区、当当读书以及网易云阅读等阅读社区。与传统的图书馆阅读方式相比,基于阅读社区的阅读方式更加注重读者之间的聚合,通过高效的互动体验,让读者在移动终端能够随时阅读,享受个性化服务,然而现有的读者阅读社区还存在较多的问题。第一,每个阅读社区中的阅读资源有限,都含有较高的同质化阅读信息,缺少优质的阅读资源,现有阅读社区都偏向于盈利性质,所以其涵盖的阅读资源在文学、娱乐和资讯范围内,缺少自然科学、工程技术等工科类别的阅读资源。第二,现有的数据挖掘技术仅仅只是挖掘阅读流程中的前端资源,挖掘的资源有限,对于读者阅读行为数据都缺少必要的挖掘,而这些行为数据恰恰能够解决很多专业性的问题。第三,现有阅读社区在互动流程上还不够完善,由于每个读者都有自己的观点,都可以通过系统进行交流,意见杂乱无章且没有经过充分考虑和验证,在社区的交流中有大量的低质量无意义的错误信息,导致交流的效率不高,交流的成本较大。

2 图书馆读者阅读社区构建思路与设计

2.1 图书馆读者阅读社区的构建思路

知识传承是图书馆的历史使命,需要全面构建基于读者需求的阅读社区系统,通过阅读社区系统能够更好地推广阅读,营造良好的阅读氛围,激发读者的阅读兴趣。另外,良好的阅读社区文化还能够传承文明,构建知识体系,升华民族的文化素质[4]。如今的传统图书馆存在缺少数字化的读者阅读社区系统、阅读活动单调、阅读资源不足、缺乏整体的系统规划、读者体验较差、缺乏深度交流等问题。现有问题在一定程度上影响图书馆推广全民阅读,也不利于新兴媒体对于电子图书馆的阅读推广。在新兴媒体的时代背景下,读者的阅读文化素养与习惯正伴随着阅读方式和阅读形式改变,因此图书馆构建基于数据挖掘的读者阅读社区势在必行。基于数据挖掘的图书馆读者阅读社区可以利用微博、微信等新兴媒体平台,引领读者大众进行阅读,让读者有机会了解更多的优秀作品,并能够及时解决读者在阅读中的疑惑。

图书馆读者阅读社区能够在阅读服务的基础上进行深入数据挖掘,再通过新兴媒体平台对读者的各项数据进行挖掘。根据数据挖掘的结果向用户推荐各种阅读资源,也可以进一步丰富图书馆的图书藏书量[5]。笔者认为基于数据挖掘的图书馆读者阅读社区构建框架包括5个要素,分别是读者、推广主体、图书载体、推荐渠道和品牌活动。图书馆阅读社区的5个要素中,读者是社区的核心,在图书馆阅读过程中要强调读者与读者之间的交流;推广主体是阅读社区的另一个主要功能点,包括对图书资源的推广以及构建社会公众志愿推广活动;图书资源是阅读社区构建的基础条件和保障,图书馆图书资源包括纸质版和电子版资源;推荐渠道是读者阅读社区赖以生存的主要功能,通过对图书馆读者的各项数据挖掘结果进行针对性的推荐,保障了阅读社区的良好生态;品牌活动是阅读社区活跃度的有力保障,通过构建品牌社区文化并扩展到全民阅读生态,能够保障图书馆的阅读社区获得良好的效果。

图1 图书馆读者阅读社区构建框架

2.2 图书馆读者阅读社区的设计

图书馆读者阅读社区的5个关键要素是在一定范围内进行组合和配置的,通过关键要素之间的相互作用,能够提高图书馆读者相互分享知识的意识,升华读者的阅读境界,让读者在获得知识的同时能够愉悦身心[6]。在新媒体时代背景下,图书馆阅读过程是一个复杂的网状结构,读者不再是一个个单独的阅读者,而急需在阅读过程中利用社交平台进一步理解、分享各自的阅读内容,提升阅读的效率,分享阅读的知识。图2给出了一个图书馆阅读社区的三层架构模型。

图2 图书馆读者阅读社区的三层架构模型

该模型分为3个层次,顶层的应用界面构建了读者操作系统,是面向读者的应用界面;中间层则是核心业务层,包括了阅读社区的主要业务流程,以及支撑图书馆阅读社区的数据挖掘的主要业务流程;底层是数据存储区,通过关联数据库存储数据,方便进行数据挖掘。在该架构模型中,读者通过统一的平台结构进入到读者阅读社区中,在阅读社区中读者可以通过一站式的方式对图书馆的图书资源进行检索、借阅和评价交流,读者的所有检索行为、借阅行为以及评价交流内容都会被记录下来,并存储在底层数据库中;其次,阅读社区系统将会根据读者的阅读行为,从阅读主题、著者、阅读题材和阅读系列4个主要方面进行数据挖掘和关联,并将挖掘结果推荐给不同的用户;与此同时,数据挖掘还会挖掘用户在社会网络上的自媒体内容,从挖掘结果中推断出不同用户的活动情景特征,并根据活动情景特征推荐相应的图书资源。根据该系统的实践与应用,图书馆可以在对读者用户的阅读、偏好以及行为数据挖掘的基础上,为读者用户推送符合其阅读需求的阅读资源,并提高图书馆资源的阅读量。

3 基于数据挖掘的图书馆读者阅读社区构建方案

3.1 社区图书资源的数据关联

虽然图书馆逐渐朝着数字化、智能化发展,但是纸质资源仍然是社区图书资源的基础数据。笔者分别对纸质图书和电子图书构建了独立的数据库,两个数据库之间缺乏数据上的关联。为了实现对读者进行纸质电子资源的一体化推送服务,需要整合现有的数据库,构建数据关联规则,以补充馆藏的不足并为读者提供丰富的图书资源。在构建数据关联规则上,主要构建两个部分,一是构建本地纸质电子图书数据,二是构建网络阅读社区的图书数据。

图3 读者社区图书资源的数据关联规则

在构建本地纸质电子图书数据中,指导思想是构建异构系统之间的数据关联服务,而不能简单地复制所有的数据。构建数据关联规则的具体方法是通过图书唯一识别号ISBN将两个数据库中的图书资源合并起来,然后分别为纸质图书和电子图书的ISBN号给出对应的ID号,最后记录图书的各项基础信息[7]。该方法能够极大地减少两个数据库合并过程中的冗余性,又能够有效地构建纸质电子图书的关联规则。当某个读者需要对应的数目字段时,可以通过“ISBN+ID”号来获得其喜爱的图书资源以及图书形式。

在构建网络阅读社区的图书数据中,同样可以采用ISBN号来构建关联规则,并将网络图书资源的ID号保存在本地数据库中。针对网络的不同社区,需要采用不同社区提供的批量检索资源的接口,对同关键词的检索结果进行存储和编号。纸质和电子图书数据库的重要作用一般是体现在关联分属于不同异构系统的图书数据上,虽然图书资源有不同的形式,但是可以为读者构建统一的图书检索、浏览和借阅的入口。

3.2 社区读者阅读环境构建

读者社区的阅读环境构建包括线下的图书馆环境构建和线上的社区环境构建。随着泛在知识环境的到来,读者对图书馆的环境需求更加多样化和纵深化。新兴媒体时代背景下的用户希望能够随时随地根据需求,通过多种途径、多种渠道,以低成本、更可靠地获取高质量的信息资源。因此,针对读者社区阅读环境的构建势在必行。

在对线下图书馆的环境构建上,主要是对图书馆员的再培养。因为随着图书馆网络社区化的实施,图书馆的角色迫切需要从仅仅提供图书服务和数据库等资源服务,转化到提供更具有信息附加效果的服务。这就需要图书馆的馆员不断学习新的知识,将自己培养成为具有丰富知识的复合型图书馆员,为更多的读者解决疑难问题。同时图书馆方应该定期开展培训讲座,聘请行业专家传授互联网、数据库和数据挖掘的知识。

在对线上社区环境的构建上,主要是构建阅读流程上的社区服务流程,包括检索流程、筛选流程、评价流程和反馈流程。检索流程是读者在使用阅读社区时通过各种方式从信息源处查询并挑选相关图书资源给读者,阅读社区服务还能提供信息加工服务,为读者删除一些不必要的信息。筛选流程则是对读者从各个信息源获取到的图书资源进行信息的相关性、可靠性以及适用性的判断,并从图书资源中筛选出有价值的信息传递给用户。评价流程则是对经过筛选之后的资源进行进一步筛选,让读者能够更进一步了解到图书资源的价值。反馈流程则为读者提供图书资源的梳理,虚化重组,并帮读者判断图书资源是否偏离阅读目标。

3.3 社区读者阅读行为数据挖掘

在图书馆读者阅读社区中,读者的阅读行为一般包括资源检索、图书浏览、借阅和评价等行为。为了有效地记录读者在社区中的阅读行为,首先要求读者登陆阅读社区,然后根据读者在社区中的操作将读者的行为都记录在数据库中,再通过数据挖掘技术将相关图书资源信息推荐给读者。在对社区读者阅读行为数据挖掘过程中,主要包括两个方面,一是记录读者的阅读行为,二是通过阅读行为挖掘并分析读者的关注资源。

在记录读者的阅读行为上,每个读者在阅读社区中的图书检索、借阅和评价行为应该被跟踪和记录。然而,由于读者在图书检索中将会产生大量的无关日志数据,检索信息重要性比图书借阅和评价的重要性低得多。所以,在记录读者阅读行为上仅仅记录读者产生的图书借阅和评价数据。其中,图书借阅数据包括两个方面,一方面是纸质图书的借阅数据,另一方面是电子图书的全文阅览数据。针对纸质图书的借阅,可以通过访问图书馆集成管理系统来获得读者各个图书资源的外借记录,而电子图书馆的借阅数据字可以通过跟踪读者是否点击全文阅览电子图书链接的行为来获取。图书评价数据一般分为图书评分、自定义分类和自由书评3种模式。其中,图书评分太直观没有记录价值,自定义分类信息有深度且内容主题突出,可以用于挖掘分析,自由书评的信息量太大难以挖掘,可以仅仅记录其中的关键词。因此,在记录图书评价数据上需要记录自定义分类信息和自由书评关键词。

在对阅读行为数据挖掘过程中,主要从4个方面进行数据挖掘,分别是主题偏好、作者偏好、题材偏好和系列偏好。其中,主题偏好是需要从阅读行为中挖掘出读者对于图书主题内容的喜爱程度,以及读者关注和阅读的该主题以外的其他图书。一般采用读者在撰写自由书评时的关键词来分析读者对于某个主题的偏好。粉丝偏好是从阅读行为数据中挖掘出读者对于某些著作的作者的喜爱程度,通过分析并统计读者的借阅数据即可完成对作者偏好的挖掘。题材偏好则是从阅读行为数据中挖掘出读者关注和阅读过程中比较相似的一些图书题材,由于图书的题材并不是以主题内容划分的,所以在挖掘过程中需要统计图书的功能类型,来确定读者真正喜爱的图书类型和功能。系列偏好是从阅读行为数据中挖掘出读者对于某个图书出版系列的喜爱程度,挖掘读者对于图书系列的偏好需要结合读者的自由书评和图书系列信息共同挖掘。为了更形象化地展示4种偏好挖掘的作用,图4给出了阅读深度和阅读广度上的4种偏好的分布。

图4 阅读深度和阅读广度上的4种偏好的分布

3.4 社区读者自媒体内容数据挖掘

互联网和智能技术的普及,还可以分析读者在社交网络中的自媒体内容数据,而这些内容数据已经成为了社区平台推荐系统的重要发展方向。在社区读者自媒体内容数据挖掘中,主要采用文本分析的方式对自媒体内容进行分析,针对社区读者应该分析文中的隐含主题词,主要包含4个阶段的分析流程,分别是下载字典、分词、删除停用词、构建词云。在下载词典的过程中,本系统采用R语言进行,该语言的相关软件为开源免费软件,可以从官方网站上下载,并安装该语言提供的字典包。字典包是对应行业的专业词库,在对自媒体内容分析时可以通过字典包对内容完成分词。在对自媒体内容进行分词时,采用R语言提供的Rwordseg工具包,该工具支持中文的分词过程,且功能强大,使用方法简单。社区平台可以直接为读者提供该工具包,读者并不需要了解该工具包的具体原理,只需要按照说明调用该工具包,即可完成对相应自媒体内容的分词。

一般来说,由于自媒体文本内容属于自然语言文本,所以在文本当中包含有大量的虚词,而这些虚词没有任何的实际意义,只是为了语句通顺而添加的辅助词,这些辅助虚词都与主题内容无关,所以需要在数据挖掘之前将这些词清洗掉,通过R语言提供的常用的虚词包将虚词清洗掉后,剩下的实词将作为文本挖掘的输入完成词云的构建。词云是一种场景的文本分析结构图,其运行方式是将所有的词语放在同一张图中并根据词语在文本中出现的次数来显示词语的大小,从而完成对文本的分析。在社区读者自媒体内容数据挖掘中,通过词云的排序即可统计出每个词出现的频次,进而从排在前面的词获取读者在自媒体内容中的主题词。

4 结语

为了应对日益发展的图书馆数字化、互联网化、智能化,笔者对基于数据挖掘的图书馆读者阅读社区构建进行了研究。从图书馆阅读社区的内涵和现有问题分析了构建读者阅读社区的背景,给出了构建读者阅读社区的思路与设计,分别从数据关联、阅读环境、行为挖掘和自媒体内容挖掘4个方面进行了构建研究。展望未来,在今后的图书馆读者阅读社区的构建上,还应该结合云计算与大数据分析等方法,朝着更智能、更有个性化的图书馆读者阅读社区方向发展。

猜你喜欢

数据挖掘图书图书馆
探讨人工智能与数据挖掘发展趋势
图书推荐
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
欢迎来到图书借阅角
图书馆
班里有个图书角
去图书馆
高级数据挖掘与应用国际学术会议
高级数据挖掘与应用国际学术会议