基于定量判别方法在高校图书借阅信息群中行为数据挖掘的应用
2012-02-01刘宇初
刘宇初
北京师范大学,北京 100875
1 研究背景和意义
随着信息资源的飞速增长和公共信息服务理念的变化,用户越来越需要个性化、多元化的信息需求,例如网上书店的图书推荐、搜索引擎中的查询词关联等的产生,正是这种个性化需求的产物。与之相比,作为阅读密集型群体集中的高等院校,其图书馆的服务和对馆藏图书资源利用仍存在发展不足的问题。高校图书馆的使用者有其特殊的群体特征,例如专业、学历、身份、年龄层次具有明显的群体差异。这些特征使高校图书馆的借阅服务不同于普通网络书店的用户群服务,它具有自己的模式、特点有待于研究与发现。同时,用户也希望进入网站后看到的书籍都是自己感兴趣的,而不同用户通过同一搜索关键字所搜索的结果应该是不同的,每个用户进入网站后能够享受到更贴近自己的服务,从而可以使用户在浩瀚的书海中方便、快捷的找到自己需要的资源。
与此同时,随着数据库技术的迅速发展以及数据库管理系统在图书馆的广泛应用,图书馆积累了大量的读者对资源的历史访问数据。这些数据背后隐藏着许多有价值的信息,图书馆记录的书的借阅信息,可以从两方面对图书馆个性化推荐服务做出贡献:一是图书推荐,包括利用不同借阅者借阅书籍的相似性来决定书籍的推荐和通过借阅者个人的借阅行为分析借阅者兴趣走向,并进行相关推荐;二是形成“共书者网络”帮助用户形成社交群体网。而目前多数图书馆并未将这些历史借阅数据进行有效的利用,由此而带来的大量优秀图书资源的隐蔽性问题也时刻影响着读者对于图书馆的满意度及图书资源的应用广泛度。
因此,利用对图书借阅数据的分析处理,以“书”和“借阅者”为实体,通过对读者的借阅兴趣发现从而为高校图书馆的个性化推荐服务的进一步完善与发展提出建议,这也将逐渐成为当前及未来有关高校图书馆研究热点问题之一。
本研究基于高校读者用户图书借阅兴趣、行为的发现,挖掘相同借阅读者群、借阅时间段内的关联关系,分析影响用户借阅行为的因素。一方面找出借阅行为的影响因子和影响程度大小;另一方面进一步分析列表中数据之间的关系,找出借书频次较多的读者列表和借书频次最多的时间段,进而为后期进一步构建读者借阅兴趣模型提供数据基础、为图书馆工作人员根据用户的兴趣需求制定相应的个性化推荐服务等提供理论依据。
2 研究方法和实验设计
2.1 对象说明
数据来源是北京某高校图书馆,时间范围为2008年~2010年,记录总数约60万条,原始数据字段如下:
证件号 学历及所在院系 借书日期 书名 索书号本研究中需要根据统计内容将数据字段分别删减为以下两类:证件号 借书频次 借书频率以及:借书日期 日借书频次
其中,“学号—借书频次”列表需要统计出每位读者(即每个学号)在2008年至2010年间总借书频次及频率,并将其进行降序排列;“日期—借书频次”列表需要统计出从2008年~2010年每天的借书频次,为进一步的分析处理做铺垫。
2.2 具体操作描述
1)分析借书频次较多的读者
由于“学号—借书频次”列表中数据共1 409位读者数据,总量约27万条,数量较大,为了将数据进行准确定位,首先需找出借书频次和频次的四分位点、八分位点、十六分位点,并统计出介于两个相邻十六分位点间的区间频率之和,依据区间频率大小,划分借书较多的读者范围。
2)分析借书频次较多的时间段
通过纵向与横向两个时间轴进行综合比较:
(1)纵向时间轴
依次统计以月份、周数为单位的借书频次,绘制折线图,分别比较在相同年份不同周次、不同月份的借书频次大小和趋势,同时将“月份—借书频次”、“周次—借书频次”分布图进行比对分析,找出其相同点与不同点,分析借书高峰期出现时间。
(2)横向时间轴
①分析一周之内借书频次最高日
由于2009年数据较全,故将2009年本科生“日期—借书频次”数据作为整体样本进行分析,将其划分为51周,其中,每一周以星期日作为开始日,星期六作为结束日,统计这51周内(除去日期不全的星期)从星期一到星期日每天的借书频次平均数,并将其进行排序处理,绘制折线图。
②分析2008年和2009年借书频次的变化。
分别将2008年和2009年的“月份——借书频次”趋势图进行分析比较,找出其相同与不同之处,并分析可能的原因。
3 统计结果与分析
3.1 借书频次较多读者
根据统计结果可以看出,借书频次在451(含)以上的占到了总借书频次的18%以上,而其人数仅占总借书人数的6.4%;借书频次在381(含)以上的占总借书频次的30%左右,其人数占总借书人数的12.5%;借书频次在278以上的达到总借书频次的50%以上,而其人数占总借书人数的25%;因此,由分析可以界定其7/8分位点为判断借书人数较多的基准线,即借阅书籍频次超过380的读者为借书频次较多读者。
3.2 借书频次较多时间段
3.2.1 借书次数与月份、周次之间的关系
借书频次与月份和周次之间的关系总体上的趋势是相同的,而“借书频次—周次”较“借书频次—月份”之间的关系更为细化一些。从折线图中可以得出如下结论:借书高峰期一般出现在9月、10月和3月、4月左右,借书低谷期一般出现在7月、8月和1月、2月左右,而相对应的,借书高峰期也正是普通高校学生开学的日期,借书低谷期对应的则是普通高校学生的放假日期。从周次频次图中,可以清楚的看到,上半年借书高峰出现在第8周,下半年出现在第36周;同时,在第2周和第26周左右会出现一个小高峰,可知该星期学生正值备战期末考试期间,借书频次会有所增加。
3.2.2 一周之内日借阅频次关系比较
通过对借阅频次结果进行纵向排序,可以得出,一周之内借阅频次由大到小的日子依次为:星期一、星期二、星期五、星期四、星期三、星期日、星期六。可以看出,每一周的周一为借书最多的日期,而星期六同学们借书的倾向相对较小。
3.2.3 2008年与2009年借书频次变化比较
将2008年和2009年借书频次与月份之间的关系绘制成折线图,并将其做以比较可以分析得出不同年份之间借书趋势的变化关系。由于2008年数据缺少8月和9月的相关情况,因此结果并不具有很强的典型性。但从总体折线图走势上可以看出,每年借阅书籍的高峰期出现时间大致相同,都为开学初的3月和9月,而借阅书籍次数较少的时间段则为学生放假的1月份、2月份和7月份、8月份。数量上,2009年较2008年借阅书籍平均次数有所减少,造成此类现象的原因可能是由于信息化的普及和网络的便捷,使得纸质化书籍逐渐在学生们日常阅读范围内所占比例逐年减少。
4 结论
根据定量判别结果,在挖掘借阅读者与借阅频次之间的关系中,规定借阅书籍频次超过380的读者为借书频次较多读者;在挖掘借阅时间与借阅频次之间的关系中,可以看出,借书高峰期一般出现在9月、10月和3月、4月左右,借书低谷期一般出现在7月、8月和1月、2月左右,上半年借书高峰出现在第8周,下半年出现在第36周;同时,在第2周和第26周左右会出现一个小高峰,可知该星期学生正值备战期末考试期间,借书频次会有所增加。同时,每一周的周一为借书最多日,而星期六读者借书的倾向相对较小。
根据已有研究基础,为进一步构建读者借阅兴趣模型,还需进一步完成的工作是:
1)根据图书馆的历史借阅数据以“书”和“借阅者”为实体建立图书借阅模型,以此为基础分析变量,找出借阅者与借阅者、借阅者与书、书与书之间的关系,形成“共书者网络”;2)基于“共书者网络”进行分析,挖掘其隐含的关联规则,从而分析热门书籍及其所属学科特征、书的借阅时间分布、书的借阅频度分布、“共书者”的各项特征,进而分析影响用户借阅行为的因素;3)通过对影响读者借阅行为因素的分析结果建立基于共同兴趣的书目推荐模型,为读者进行热门书籍推荐、相关联书籍推荐、为图书馆资源配置提出建议等服务。
[1]王伟,张征芳.基于数据挖掘的图书馆读者行为分析[J].现代图书情报技术,2006,11:51-60.
[2]FeiYan,MingZhang,JianTang,TaoSun,ZhihongDeng,and LongXiao,”Users’Book-Loan Behaviors Analysis and Knowledge Dependency Mining “.
[3]刘勘,尹承明,陈凡.图书借阅信息的分析与挖掘[J].计算机科学,2008,35:139-141.
[4]陈华月,朱征宇.基于用户近期兴趣视图的个性化推荐[J].计算机工程,2005,10.
[5]蔡会霞,朱洁,蔡瑞英.关联规则的数据挖掘在高校图书馆系统中的应用,2005,27:85-88.
[6]熊拥军,刘卫国,张建中.基于资源分类树的读者兴趣模型设计与实现[J].现代图书情报技术,2005,3:328-331.
[7]黄晓斌.基于协同过滤的数字图书馆推荐系统研究[J].大学图书馆学报,2006.
[8]闵敏.层次凝聚算法在商品个性化推荐中的应用 [J].电脑知识与技术,2006,2.