APP下载

关联规则应用下的高校图书馆图书推荐服务*

2018-01-30陈淑英徐剑英刘玉魏

图书馆论坛 2018年2期
关键词:关联规则图书

陈淑英,徐剑英,刘玉魏,山 洁

0 引言

图书馆信息服务模式正从面向馆藏资源的普惠信息服务向面向读者的个性化信息服务转变[1]。图书推荐服务是现代图书馆以读者为核心的个性化服务的重要内容。面对用户,如何将丰富的图书资源推荐给用户是图书馆一直思考的问题。大学生是高校图书馆的主要服务对象,图书馆通过动态跟踪用户在4年学习中的借阅数据,可以掌握不同专业用户处在不同年级时期的兴趣变化,预测用户偏好,进而进行图书推荐[2]。本文以某高校2011级大学4年图书借阅数据为依据,从看似杂乱无序的信息中提取有价值的信息,以关联规则进行数据挖掘,试图通过不同专业用户在不同年级时的图书关联规则分布情况,探索以专业为单位用户群体的有效的和有针对性的图书推荐服务策略,为用户提供个性化服务。

1 研究背景

数据挖掘是提取隐藏信息的过程[3],利用数据挖掘技术分析读者借阅数据,探寻读者需求规律,以实现图书推荐服务。关联规则由Agrawal等在1993年首次提出[4],是数据挖掘中重要的数据分析方法,通过对数据处理挖掘出数据集中项之间的联系,建立数据之间的相互依赖关系。关联挖掘技术是现代图书馆发展的关键技术,运用关联挖掘技术可以对读者的借阅数据进行分析,适时调整馆藏方向,使图书馆信息资源体系更加合理化;还可以发现读者的借阅模式和借阅偏好,为读者提供个性化的信息服务[5]。目前应用关联规则在图书借阅数据研究主要集中在两方面:一是对读者借阅图书种类数据关联分析算法的建立过程,以介绍方法为主[6-8];二是对关联规则方法的改进与推荐模型的研究[9-11]。其中,大多研究都是对关联规则技术问题的算法研究、模型的建立和通过实验验证推荐的准确性和可用性,而对于考虑属性之间的类别层次关系、时态关系、多维挖掘等其他属性的研究较少。本文以读者属性数据和借阅记录为基础,以时间维度为主线进行数据关联挖掘,在数据挖掘过程中,不仅关注关联规则的算法和结果,更加注重的是对结果进行分析。通过分析,发现数据中存在的各种有用信息,如用户阅读变化趋势及存在问题,提出相应的对策,改变现有的工作方式,开展图书推荐服务。

2 研究过程

2.1 研究流程

根据用户4年的借阅数据,应用关联规则沿着时间主轴跟踪挖掘分析用户学科专业、图书类型之间的关联关系,得出不同专业用户在不同年级借阅图书之间的关联性,通过关联规则分析掌握以专业为单位的群体用户的阅读倾向、偏好和需求,并以此作为开展图书推荐服务的依据和决策支持。通过行之有效的图书推荐策略展开图书推荐服务工作,让图书资源发挥最大效用,让图书馆的服务贯穿于用户四年的学习过程中,使用户在四年的学习中,不断提高自身的学习能力、实践创业水平以及综合素质。具体流程见图1。

图1 研究流程

2.2 数据获取

本文以某高校图书馆为例,采用分层抽样方法,按照分层抽样调查的比例要求,每个专业的抽样比例在30%左右。从2011级本科生中选取1200名用户,在图书馆图书借阅管理系统跟踪被抽样本用户从大一到大四在图书借阅系统的日志数据,共获取借阅数据27905条。抽样用户覆盖文学、理学、工学、医学、法学、管理学、经济学等学科的71个专业,时间从2011年9月入学到2015年6月毕业,通过分析2011级本科生不同专业的借阅数据,探究以专业为单位的图书借阅规律,并结合2011级教学计划中课程设置,开展图书推荐服务。

2.3 数据处理

根据研究流程,对抽样的1200名用户数据主要选取读者证号、专业、借阅年级(操作日期)、图书类型(中图分类号)及题名等,通过数据清理集成,预处理后得到相关整合数据,详见表1。

表1 每个用户4年借阅图书的预处理后数据

2.4 Apriori算法

Apriori算法最初仅用于单一维度下布尔型数据的关联规则挖掘。对图书借阅行为中的3个维度——用户、图书及时间,除关注不同图书类型关联外,还对年级和图书类型的关联感兴趣,需要进行多维关联规则分析。如果将多维属性的谓词集看作是维度内同属性的项集,可以藉由经典的单维关联规则算法处理多维属性间的关联[12]。在进行关联分析时,对读者所借阅的图书类型、图书类型和专业、图书类型和年级之间等方面挖掘这些数据之间的关联规则。Apriori算法是挖掘强关联规则的方法,主要功能是找出频繁项集。具体步骤为:(1)对于预处理数据,用Apriori关联算法,找出全部的频繁项集;(2)对频繁项集进行连接步和剪枝步;(3)得到最大频繁项集,去掉没有超过最小支持度的,剩下的又满足最小置信度,就是强关联规则[13]。

强关联规则可以挖掘隐藏在历史数据背后的有用的规则和潜在的信息。本文重点跟踪挖掘分析从入学到毕业的一个学习周期中,不同专业的用户群体在不同年级借阅图书的规律,发现在不同年级的读书兴趣、偏好和需求,如经常看的书籍,又如用户在借阅本学期开设课程相关图书时,还会去借阅的图书类别等。

3 结果分析与讨论

3.1 研究结果

2011级本科生中1200名用户连续4年的借书记录共计27905条,其中借阅了22类图书,密度为0.1725318。最常借阅的图书类型为I、K、H、T、B。155人的借阅数据为只借阅一类图书,202人的借阅数据为借阅两类图书。使用Apriori算法,设置最小支持度0.01和最小值置信度0.1,按年级(时间)维排序,构建以专业为单位的图书与年级(时间)的关联规则,并抽取有代表性的几个专业。具体结果如表2所示。

表2 各专业图书与年级(时间)的关联规则

3.2 结果分布

3.2.1 整体分布

在4年学习中,各个专业在不同年级时借阅图书关联程度较高的图书类型各不相同。

例如,纺织工程专业的用户:

{年级=大一}=>{图书类型=I24}

{年级=大二}=>{图书类型=I24、I26}

{年级=大三}=>{图书类型=TS10、I24}

{年级=大四}=>{图书类型=TS94、I24}

而数学与应用数学专业的用户:

{年级=大一}=>{图书类型=K82}

{年级=大二}=>{图书类型=O17、O15}

{年级=大三}=>{图书类型=I24、O21}

{年级=大四}=>{图书类型=O22}

据此,可以得出结论:专业不同,关联程度高的图书种类也有所不同,这是开展针对不同专业用户进行图书推荐服务的主要依据。

3.2.2 阶段分布

同一专业的用户在4年学习生活中,关联程度较高的借阅图书类型分布显示,用户在不同年级时期感兴趣的图书有区别,但也有一些其他类型的图书贯穿在整个学习过程中。比如纺织工程专业的用户,在大一、大二、大三及大四关联程度较高图书的有I24类,因此图书推荐工作应有长期目标和短期目标。

3.2.3 专业分布

各专业除在I类和H类图书显示关联程度较高,同时显示出和本专业图书有较高的关联性,如法学类专业的用户在大一、大二、大三及大四关联程度较高的都有D92,说明专业类图书的学习对用户很重要。

3.3 结果讨论

用户在4年学习过程中,会根据兴趣、偏好和学习要求等借阅不同类型的图书,但根据表2关联数据显示,关联程度高的图书种数与馆藏文献资源种类及总量相比却是微不足道的。究其原因,主要有以下几方面。

3.3.1 用户图书借阅缺乏系统指导

用户4年读书生活中,借阅数据总的趋向较符合其学习过程,但借阅图书的种类还是比较单一,在某一时间段借阅图书比较盲目,与其学习过程不太相符。

比如经济类专业的用户:

{年级=大一}=>{图书类型=I24}

{年级=大二}=>{图书类型=H31}

{年级=大四}=>{图书类型=I56}

数据显示,用户在一年级、二年级以及四年级学习过程中,关联程度高的借阅图书种类分别仅有I24、H31和I56。因此,可以通过分析数据,给出有针对性、合理性和系统性的指导,主动提供图书推荐服务,从而提高用户的借阅质量。

3.3.2 用户兴趣偏好缺乏积极引导

从表2中可知,关联程度高、概率较大的图书种类中,最常借阅的图书类型为I、K、H等。I类图书占的比例最大,用户在大一期间尽管专业不同,但借阅的大多以I24为主,并且在大二、大三及大四期间都有I类图书借阅的倾向。因此,应根据用户的兴趣爱好,对B、H、I、K等种类图书借阅给予积极引导。

3.3.3 用户专业学习积极性不够

表2数据显示,每个专业关联程度高的专业图书的比例比较低,用户在大二、大三及大四时多转向专业书籍,但是关联程度高的图书却不多,专业图书的借阅还是缺乏理想的阅读量。如临床医学专业,从大一到大四,关联度高的基本是H类,除了大三有R47类型图书,其他都是非本专业书籍,四年的专业图书阅读总量令人担忧。这就要求图书馆要仔细分析相关数据,根据用户专业的具体要求,了解用户的需求和兴趣点,做出准确的判断,进行专业图书的推荐,以满足专业用户的大学专业知识的学习和掌握。

综上,除了要建设更加合理化的信息资源体系,更重要的是掌握和了解读者的借阅模式和借阅偏好,通过图书关联规则的数据结果,为读者提供相关信息资源或引导读者查找所需资源,为读者提供优质的个性化的信息服务。因此,高校图书馆要认真分析用户的借阅数据,了解用户的需求,主动采用多种图书推荐服务模式,调动用户的阅读兴趣。图书馆要从被动等待用户借阅,转变为积极主动的深入到用户中去,实施图书推荐服务,拓展图书馆的工作方式和服务内容。

4 图书推荐服务策略

本次研究是通过对高校图书馆用户的直接调查,从用户借阅数据→关联规则→数据分析→信息需求→推荐服务的过程中,高校图书馆充分发挥教育和信息服务职能,为用户推荐所需的图书,同样也为馆藏图书寻找用户。图书馆根据关联规则分析结果,从以下几个方面开展工作,实现为读者提供优质的图书推荐服务。

4.1 制定每个专业四年的图书阅读规划

从表2关联规则可获知,用户四年的学习中,借阅图书较缺乏系统性、科学性及规律性。用户在大二、大三和大四阶段,课程设置中基本上都是专业必修课和专业选修课,在这个学习阶段用户要完成正常的专业课程学习、考研准备、课程设计、毕业论文及设计等等,基本上以借阅专业类图书为主,在这个时期,如果图书馆购置的专业类图书本专业的用户都不积极借阅,那么还会有其他专业的用户借阅吗?因此,图书馆要为购置的每本图书定位,找到其目标人群,这就需要分析研究用户阅读特征,包括用户来源、专业报考第一录取率和阅读倾向等,整合用户阅读兴趣及偏好,做到在用户四年学习的每个阶段都能给予较专业到位的帮助和指导。无论用户是出国深造、考研,还是就业,图书馆可以充分掌握其发展目标,与相应的院系联合,结合每个专业的教学计划,为图书寻找用户,建立以用户专业为单位的四年的图书阅读规划。

4.2 实施图书需求推荐

大一时期的用户,从高中进入大学,踌躇满志,为了扩展视野和提高文化素质往往读书的热情很高,但进入高年级,由于需求发生变化,用户有了个人的发展规划,对阅读的内容会有新的需求。因此,图书馆要对用户4年的图书借阅情况进行系统梳理和分析,结合用户不同年级的课程需求以及兴趣需求,在用户学习、生活、创新实践及提高个人素养等方面,及时给予指导。当读者借阅某类文献时,图书馆馆员可以将与其强关联的某类文献有目的、有准备、有策略地推荐给读者,并可据此建立相应的馆藏推荐系统,力求所采购的每一本书都能满足用户的需求。对不同专业用户和在不同年级时期进行定位,寻找所需的图书,实施图书需求推荐。

4.3 实施图书创意推荐

用户往往会根据自身的需求和兴趣借阅相关的图书。比如,通过对数学与应用数学专业的用户借阅数据进行分析,发现大一学生较多借阅K82类的图书,多属于用户兴趣;大二学生较多借阅O17、O15类图书,该专业大二正好开设与此类图书相关课程;大三时多借阅I24、O21类和大四时多借阅O22类图书也是此类情况。因此,图书馆要充分挖掘不同专业用户的行为、需求和兴趣,结合广泛的阅读推广活动和特定的主题元素,如节日、纪念日、专业学习阶段以及专业实习和实训,举办读书节,开展专题、专业阅读和书会等,并以此为契机进行创意推荐,打造自己的品牌[14],吸引用户。

4.4 实施专业图书目标推荐

通过表2进一步分析还发现,有些用户在4年的学习生活中,借阅数据不尽人意,专业书籍的阅读比较少,这就给图书馆提出了很高要求。首先要了解学校的专业学科设置和专业教学计划,细分目标群体,与院系合作建立学科馆员制度。其次可定期到院系举办书会,开展类似“主题资源指引”“主题馆藏选介”“学科主题资源”等推荐活动[15],介绍相关专业图书信息资源,与用户积极沟通,搭建互动平台,实施专业图书目标推荐。

4.5 完善借阅数据分析管理和馆员业绩激励制度

每年定期将每个专业的用户借阅图书关联分析结果和上届同期数据进行比对,及时了解用户的目的、需求和兴趣,根据用户意愿反馈及时调整每个专业的图书阅读规划和相应的图书推荐内容。在深入做好借阅数据分析的同时要做好数据管理,把图书馆内部信息与数据管理起来,为了使数据处理更科学、系统和统一,要加强工作流程的管理,力求实现相关业务流程计算机管控和自动化管理,降低人为因素,固化管理流程。图书馆要逐步形成自己的管理系统,采用智能管理的数据挖掘系统,实现图书借阅数据分析的智能化,既为用户提供有效的推荐服务,也为图书馆提供有效和准确的分析决策依据。为此,馆员业绩激励制度的健全就显得尤为重要,这样才能面向全校用户,合理分配馆员,发挥图书馆员的专业特长,向用户提供服务,为用户推荐所需图书。同时为提高馆员工作的积极性,应及时统计图书借阅情况,查看馆员的业绩,对馆员工作的质量和成效做客观、全面的评估。

5 结语

高校图书馆利用关联规则挖掘技术分析借阅信息,可以准确判断用户的借阅行为,了解和掌握不同专业用户群体在不同年级阶段的兴趣特征、现实需求以及潜在需求;同时可根据该学校的专业结构、学科建设和用户特点进行以专业为单位的图书推荐服务,并让推荐模式更适合现代读者的个性化的习惯,吸引读者访问图书馆[16]。图书馆为用户做好图书推荐服务,是图书馆由被动转向主动服务模式的体现,但如何将研究方法和图书推荐在图书馆推广应用成为一种常态业务工作,是本研究团队今后进一步研究的内容。

[1]盛宇.基于微博的学科热点发现、追踪与分析——以数据挖掘领域为例[J].图书情报工作,2012(8):32-37.

[2]马文峰.数字图书馆个性化信息服务的探索[J].图书馆杂志,2003(5):30-32.

[3]周肆清,欧阳烽.数据挖掘在高校数字图书馆应用的可行性分析[J].高校图书馆工作,2007,27(5):36-38.

[4]Han J M,Kamber M.Data Mining Concepts and Techniques[M].北京:机械工业出版社,2010.

[5]任贤姬.关联规则挖掘技术在图书借阅服务中的应用研究[J].情报科学,2010(5):729-731.

[6]彭仪普,熊拥军.关联挖掘在文献借阅历史数据分析中的应用[J].情报技术,2005(8):40-44.

[7]丁雪.基于数据挖掘的图书智能推荐系统研究[J].情报理论与实践,2010(5):107-110.

[8]茹文,忻展红.图书馆借阅数据分类信息的关联性研究[J].北京邮电大学学报(社会科学版),2016(1):14-19.

[9]李默,梁永全.基于标签和关联规则挖掘的图书组合推荐系统模型研究[J].计算机应用研究,2014(8):2390-2393.

[10]李胜,王叶茂.一种基于本体和位置感知的图书馆书籍推荐模型[J].现代图书情报技术,2015(3):58-65.

[11]马宏惠,张平.图书馆流通信息多层关联规则挖掘法的优化与应用[J].图书情报工作,2008(7):94-97.

[12]钟勇,秦小麟,包磊.一种基于多维集的关联模式挖掘算法[J].计算机研究与发展,2006(12):2117-2123.

[13]Yin Z,Gupta M,Weninger T.A unified framework for link recommendation with user attributes and graph structure[C].International Conference on World Wide Web,2010:1211-1212.

[14]姚显霞.基于读者问卷调查的高校阅读推广活动评价与分析[J].图书馆论坛,2013(3):144-147.

[15]覃丽金,吉家凡,唐朝胜,等.主题式学科化服务模式研究——结合海南大学图书馆的案例分析[J].图书馆论坛,2014(4):23-29.

[16]马仲兵.基于关联规则的高校图书馆个性化推荐模型[J].新世纪图书馆,2013(7):42-44.

猜你喜欢

关联规则图书
撑竿跳规则的制定
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
数独的规则和演变
图书推荐
“一带一路”递进,关联民生更紧
欢迎来到图书借阅角
奇趣搭配
让规则不规则
班里有个图书角
智趣