基于数据挖掘的大学生阅读行为分析
2018-12-27吕继续丛静
吕继续 丛静
摘 要:随着人民生活水平的不断提高,阅读越来越受到人们的关注,但如何选择适合的书籍阅读是困扰我们的一大难题。针对这一难题,文章采用关联性规则算法对大学生文学类小说阅读行为数据进行挖掘,寻找不同书籍与不同人群之间的潜在规则。为大学生阅读提供较为科学的书籍推荐目录。
关键词:关联性规则 文学类型小说 吸引力 推荐
中图分类号:G43 文献标识码:A 文章编号:1672-3791(2018)06(b)-0212-02
世界文明传承至今,可以说好书很多,浩如烟海。但不同的人,对于不同的书产生的兴趣也是不同的。所以说人们很难找到能让他们很感兴趣的书籍[1]。文章以文学性小说为研究对象,以大学生这一个群体作为统计样本,研究不同书籍对不同人群在吸引力这一属性上的关联。通过数据挖掘技术,根据不同学生的阅读偏好,给出适合他们的个性化推荐列表。文章采用问卷调查的方式收集数据,然后通过关联性规则算法对大学生文学性小说的阅读行为数据进行分析,挖掘其中潜在的价值。
1 数据来源与样本特征
问卷内所选的64本书籍是参考豆瓣评分8分以上的小说推荐名单选取的,调查结果显示未对调查对象产生影响的书仅有3本。充分表明所选书籍具有一定的客观性和代表性。问卷调查时间是2018年5月5日,问卷通过社交软件以及网络发放回收,共收回问卷209份,有效问卷209份,回收率100%。如表2所示,调查对象男女比例均衡,表明数据分析结果的价值不会受到性别的干扰。如图1所示,可以看出调查对象覆盖11个省,其中主要集中在江苏省、辽宁省、湖北省三个省份,地域上南北分布大体均衡[2]。
2 算法阐述
采用一种发现频繁项集的基本算法,APRIOR算法寻找潜在的关联规则。结合问卷数据具体阐述该算法的实现。
2.1 数据预处理
使用Pandas库的read_csv函数导入数据集book.csv。首先对数据进行清理,筛选出个人选择大于1本书籍的数据。一定程度上排除调查者应付答卷的行为,提高数据的价值密度。最后从书籍的本身角度出发,基于推荐的最终目的,我们只关注对读者產生影响的人数大于5的书籍。由于数据量较大,只展示部分数据,见表3。
2.2 生成频繁1项、k项集
由于频繁项的长度为1,我们可以通过统计data中各个元素出现的频次,直接生成频繁1项集。
k>1时,根据得到的频繁(k-1)项集,生成频繁k项集。当数据记录的长度很长时,算法需要逐个检查频繁k项集是否为空。另外,我们在具体任务中寻找的频繁项长度也不会过长,因此我们选择通过控制k的取值来获取指定的频繁k项集集合。文章在此取k<=3。具体来说,整个过程分为三步:首先是连接步,我们将频繁(k-1)项集与自身连结,生成k项候选集 。接着是剪枝步,剔除含有非频繁项子集的项集。我们使用先验性质对候选项集进行过滤,减少运算量。这个性质就是:频繁项集的所有非空子集必然是频繁项集,生成最终结果的中遍历数据集data,最后对最终的元素进行统计,保留支持度大于最小阈值(min_support=2)的频繁项。
项集的子集可以通过排列组合来得到,反复上述过程 得到完整的频繁k项集集合,直到达到停止条件,集频繁k项集为空。
2.3 关联规则
生成频繁项集之后,我们可以直接得到同时满足最小支持度和最小置信度的强关联规则[3]。也就形如“书籍A对读者产生影响,那么书籍B也会对该读者产生影响”的结论。例如,对于频繁项集{'A','B'}来说,关联规则A→B 的置信度如下所示
接下来,针对每个频繁项集,生成关联规则(包括条件和结论),并计算相应的置信度[4]。
2.4 分析结果展示
根据上述思路操作最后我们得出满足设想的结果,根据置信度我们就能在大学生选择书时进行科学有效的推荐。因为数据过大,只展示前四组的运行结果,如表3所示。
3 结语
文章主要通过问卷调查的数据获取方式,以及关联性规则算法的数据挖掘方式,对大学生阅读文学性的小说行为进行分析。从结果中发现喜欢看《三体》的人一般都喜欢看《盗墓笔记》,喜欢看《偷影子的人》和《傲慢与偏见》的人一般会喜欢看《百年孤独》那么我们就可以给看过《三体》的人推荐《盗墓笔记》。同样如果读者看过《傲慢与偏见》、《偷影子的人》却没有看过《百年孤独》我们就可以给他推荐《百年孤独》,还有很多类似的数据结果。
根据这些所得的结果也就能够达到我们的智能推荐的目的,为大学生在选择该方面书籍时提供较为科学的参考。
参考文献
[1] 王连喜.一种面向高校图书馆的个性化图书推荐系统[J].现代情报,2015,35(12):41-46.
[2] 张尔升,侯惠丹,孙庐山.知识获取、学习行为和管理者能力提升——来自MBA学员的数据分析[J].河北经贸大学学报(综合版),2016,16(3):56-61.
[3] 孙云帆,齐美玲.数据挖掘在教育应用中的浅析[J].商场现代化,2012(24):161-162.
[4] 姜永超.基于数据挖掘的学生选课及学习行为分析算法研究[J].现代电子技术,2016,39(13):145-148.