APP下载

数据挖掘在高校图书馆个性化推荐服务中的有效应用

2018-12-17徐静

电脑知识与技术 2018年25期
关键词:个性化推荐高校图书馆数据挖掘

徐静

摘要:该文阐述了数据挖掘技术在高校图书馆中应用,结合图书馆的实际特征以及优势,为读者提供个性化的推荐服务,作为一种较为有效的技术手段,可以在根本上提升高校图书馆的服务质量与水平。文章通过对现阶段高校图书馆数据挖掘技术的简单分析,论述了其主要的任务与方法,对高校图书馆服务中数据挖掘技术的应用与方案设计进行阐述。

关键词:数据挖掘;高校图书馆;个性化推荐;服务

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2018)25-0012-02

随着数字图书馆的建设与发展,图书馆的电子资源库在不断地完善,电子图书的购买量也在不断地增多,各种数据的海量增加,使得读者无法精准的获得自己的想要的信息数据资源。而数据挖掘技术是一种较为有效的基础手段,可以实现高校图书馆的个性化发展,转变传统的被动服务模式,进而构建一个良好的数字资源环境。

1 高校图书馆数据挖掘技术任务及常用方法

1.1 分类发现

在数据挖掘中分类是一项重要的任务,目前多为经济应用。利用分类技术可以构建分类函数以及模型,此种模型可以将数据库中的数据进行映射处理,在预测中应用分类可以对历史数据进行分析,了解今后的变化趋势,进而进行精准的判断分析,综合实际状况进行准备处理。构造分类器,就要有训练样本数据集作为输入的基础。训练样本数据集由一组数据库记录或者元组构成,其中每个元组就是一种通过相关字段数值构成的特征向量。分类器的主要构造方法有机器学习方法、神经网络方法等,其应用的统计方法主要是贝叶斯法以及非参数统计法等,其对应的知识表示则主要就是判别函数以及原型的实例。

1.2 聚类发现

聚类就是将一组中的个体基于相似状态进行类别的划分,其主要目的就是缩小相同个体的差距,将不同类别的个体差距拉大。聚类的方法主要有机器学习方式、面向数据库的方法以及统计方法等。在机器学习中应用的聚类可以称之为无监督方式,相对于分类学习的方式来说,其使用的数据是未标记的,主要就是通过聚类学习算法对其进行自动的确定,其主要的统计方式主要有系统聚类法、分解法等。

1.3 数据总结

数据总结就是对数据的浓缩,将整体以及繁琐的数据进行紧凑的总结,相对于传统的数据挖掘方式来说,其方法较为单一,就是将数据在各个字段之上进行求和处理,了解其平均值,再对其进行简单的分析处理。

2 高校图书馆服务中数据挖掘技术的应用

在高校图书馆服务中数据挖掘技术的作用主要体现在可以完善信息资源库,提高信息资源的利用效率。利用数据挖掘技术构建完善的高校图书馆大数据挖掘方案,合理使用数据挖掘技术的应用重点与技术手段,具体如下:

2.1 完善信息资源建设

通过数据挖掘技术对各种信息进行挖掘处理,获得的内容就是图书馆读者群体的基础信息。为了提升图书馆个性化的服务质量,完善信息资源的检索服务,要对各个方面的信息资源进行收集整理,进而构造完善的个性化服务资源。在实际应用中,要对读者的阅读需求以及阅读方向进行了解,对各项信息资源进行有效的补充与完善,提升图书馆的个性化服务特征。

2.2 提高信息资源的利用效率

高校信息资源的采集与处理尤为重要,其直接关系到图书馆的综合实力。图书馆如果涵盖了丰富的信息资源,就会吸引大量的读者。传统的信息采集都是通过人工的方式开展的,因为个体差异导致其信息资源采集受到各种因素的干扰。通过现代化的数据挖掘技术,可以对高校图书馆的内部资源进行系统的分析梳理,综合具体状况具体分析,给出合理的建议,进而为读者的阅读提供方便。这样不仅仅可以提升图书馆的利用率,也可以在根本上改善读者的阅读体验。

2.3 高校图书馆大数据挖掘方案设计

在利用数据挖掘技术进行高校图书馆方案的设计过程中,可以基于Hadoop大数据分析基础平台、利用MapReduce/Spark作为计算框架对其进行个性化的服务设计。在整个大数据挖掘方案的设计中,其主要的模块为数据收集、角色构建、实现算法以及结果存储、前端应用等,主要分为在线部分以及离线部分,包括数据特征选取、个性化服務算法选取等相关内容。

2.3.1 在线部分

1) 数据收集

基于开源分布式文件系统HDFS以及HBase数据库管理系统基础之上,进行高校图书馆的大数据存储以及数据信息的读写操作。其中HDFS文件系统就是一个具有高扩展性、高稳定性且高可靠性的大规模的数据分布存储管理系统,可以为上层的应用程序提供逻辑较为完整的大规模的数据文件信息。而HBase则是基于HDFS之上的一种分布式的数据库,可以解决结构化以及半结构化甚至非结构化的大数据的数据存储问题,可以实现实时的读写以及随机的访问处理。

用户的各种行为就是个性化服务算法的信息来源基础,对此必须要对用户的访问日志进行收集整理。同时,用户应用的检索以及推荐的引擎系统中的数据也会被系统记录分析,主要用于对今后的算法进行优化处理。

2) 前端应用

前端应用主要就是对网页接收以及移动设备推进的各种请求的处理,在对其进行处理之后要综合实际状况推荐后台的引擎传递,在获得其后台的返回结果之后再反馈给用户。通过网络平台上的关联数据技术手段,结合海量的语义网络知识库系统,对其进行实时的检索分析,可以为用户提供实时性、交互性的个性化信息服务。

2.3.2 离线部分

1) 角色建模

角色建模主要可以分为用户建模以及文献建模两种类型。其中用户建模就是综合用户的人口统计学信息以及用户的行为数据构建完善的用户画像模型,了解用户的短期以及中长期的兴趣以及趋势等。而文献建模则是综合文献自身的领域属性特征,结合用户访问的文献信息数据,构建基础的文献画像模型,其主要的目的就是刻画用户本质特征。用户建模以及文献建模其主要的方式就是本体建模方式以及非本体建模两种方式,这两种建模方式可以通过Spark/MapReduce计算框架实现,而其模型主要就是通过HBase数据库对其进行分布式的存储以及检索。

2) 算法实现和结果存储

推荐、检索以及推送算法都是以已经建立的用户模型以及文献模型为基础,利用不同的方式对其进行计算分析,进而寻找可以与用户以及输入信息匹配的文献内容,通过大数据挖掘技术对其进行优化,可以提升个性化服务的质量,进而提高用户的使用满意度。

Mahout则是一种以Hadoop以及MapReduce计算框架为基础的具有扩展性的软件包,其主要的作用就是处理高校图书馆大数据。Mahout可以为推荐引擎提供了一些可扩展的机器学习领域的经典算法,涵盖了聚类、分类、频繁集等挖掘算法;可以利用降维方法对各项信息进行降维处理,解决高校图书馆的高纬度问题;可以实现用户推荐以及物品推荐,为用户提供个性化的信息服务。

2.3.3 数据特征选取

在实际应用中,无论应用本体建模还是非本体的建模方式,用户建模以及文献建模的重点就是信息数据的特征选取,在掌握对象数据的基础特征之后可以通过模型对其进行分析处理,通过基于内容的方式、用户行为的方式、专业知识的方式以及社交网络等方式了解其相似度,进而提供个性化的服务。鉴于现阶段高校图书馆中并没有形成较为完善的社交网络系统,在实际应用中可以综合内容以及行为特征进行分析处理。其内容特征则主要包括了文献的标题、类别、用户的背景以及兴趣等内容。用户行为则主要就是用户的浏览、下载以及借阅的文献历史记录。二者可以实现有效的互补,例如,在用户流量不足的时候其主要的内容特征就是首选,无需了解用户的访问记录,就可以解决大数据挖掘系统中存在的问题与不足;而在用户具有较为充足的流量的时候,则可以对文章自身进行挖掘,了解其存在的潜在语义,提供更为精准的推荐内容。

2.3.4 个性化服务推荐算法选取

高校图书馆要想提供高质量的个性化服务,需要合理的应用推荐算法并保障算法的精准性、高效性以及稳定性。

1) 准确性。在推荐系统推荐过程中,其自身的准确性主要就是受到用户的数量以及物品之间数量比例因素的影响。在一般状况之下,小部分相似度较高的用户,其价值要高于相似度较低的用户。在高校图书馆中的主要用户多为学生、教师以及相关行政人员,不同的类别可以进行精准的划分处理,通过对学生的不同专业的分析了解用户之间的区分状况,通过基于用户的协同过滤的方式进行推荐,可以提升高校图书馆个性化推荐的效果与质量。

2) 高效性。在一般状况之下,多数的数据挖掘部分就是离线计算,对于实时返回的结果并没有严格的要求,而在现阶段的发展中必须对实时数据挖掘结果的计算时间提出一定的要求。因此,必须要提升挖掘的效率与质量。在用户数量高于物品数量的时候,物品的相似度计算其消耗的资源要小于用户之间的相似度的计算,因此,物品的协同过滤效率也更高。反之,则既有用户的协同过滤更为高效。因为在高校图书馆中应用的文献数量要高于实际的用户数量,则可以应用协同过滤的方式进行处理。

3) 稳定性。物品以及用户在持续变化,在系统中,如果其物品集合的稳定性高于用户集合的稳定性,则可以通过基于物品的方式进行处理,进而避免频繁信息數据的计算以及更新。如果状况相反,则要通过基于用户的方式进行处理。在高校中,学生的数量是变化的,学生的用户也随着新生入学以及毕业而出现变化,而图书馆的书籍以及文献都会出现不同程度的变化,从稳定性的角度对其进行分析,可以综合实际状况合理的应用。

3 结束语

在大数据时代,高校图书馆的个性化服务还是存在一定的问题与不足,通过大数据挖掘技术的应用,可以完善信息资源建设,增强信息资源的利用效率,综合实际状况合理地设计高校图书馆大数据挖掘方案,进而精准的分析用户的不同需求,进而提高用户的满意度,这样才可以为高校图书馆用户提供高质量的信息服务,具有一定的应用价值。

参考文献:

[1] 柳益君,何胜,冯新翎,等.大数据挖掘在高校图书馆个性化服务中应用研究[J].图书馆工作与研究,2017,(5).

[2] 王哲.数据挖掘技术在高校图书馆个性化服务中的应用研究[D].重庆大学,2012.

[3] 杨雪霞.数据挖掘技术在高校图书馆管理系统中的应用研究[J].软件,2011,32(4).

[4] 项尔津.高校图书馆个性化服务中数据挖掘技术的应用研究[J].兰台世界,2014,(29).

[5] 李静.数据挖掘技术在高校图书馆个性化服务中的应用研究[D].2012.

【通联编辑:唐一东】

猜你喜欢

个性化推荐高校图书馆数据挖掘
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
基于GPGPU的离散数据挖掘研究