APP下载

高校图书馆个性化服务中数据挖掘技术的应用

2015-05-13孙燕泰州职业技术学院图书馆江苏泰州225300

图书馆学刊 2015年4期
关键词:数据挖掘个性化图书馆

孙燕(泰州职业技术学院图书馆,江苏泰州225300)



高校图书馆个性化服务中数据挖掘技术的应用

孙燕
(泰州职业技术学院图书馆,江苏泰州225300)

[摘要]个性化服务即根据信息用户的知识结构、信息需求、使用行为、习惯偏好等为其提供的信息服务。分析了数据挖掘技术在高校图书馆中应用的必要性与可行性,总结个性化服务的表现形式,并提出数据挖掘技术的具体应用流程。

[关键词]高校图书馆个性化服务数据挖掘

[分类号]G252.6

个性化服务是根据信息用户的知识结构、信息需求、信息使用行为、习惯偏好等为其提供与其个性化需求相符的信息服务,图书馆数据库中积累了大量的读者借阅行为数据,而利用数据挖掘技术可以将其中隐含的关联规则的知识充分挖掘出来,根据读者的个性、特点发掘出读者的借阅倾向,为个性化信息服务提供指导。

1图书馆应用数据挖掘技术的必要性与可行性

1.1数据挖掘技术

数据挖掘即从大量的、随机的、模糊的实际应用数据中,挖掘出其潜在的、事先不为人所知的、有用的数据,数据挖掘的过程就是发现知识的过程,其主要包括关联分析、聚类、分类、预测、时序模式等5个方面[1]。

关联分析即找出两个或以上变量之间同时出现的规律、因果结构,即通过其他事物可对某个与之相关的事物做出预测。数据挖掘关联分析的主要作用就是分析海量数据中潜在的关联规则,对于高校图书馆个性化服务而言,即从图书馆数据库中发现相关的关联规则,针对用户的信息需求做出准确预测,提高信息推送的针对性,便于用户获取所需的信息。

聚类即将数据库中的一组个体按照相似性归结为若干类型,应用于图书馆系统中,就是将相似的文献集中在一起,用户在搜索相关文献时可以查阅更多其他相关内容,便于其总结、归纳;在个性化服务中还可以通过聚类汇总用户所需的特定信息。

分类与聚类相似,是按照分析对象的属性建立类组,用户查阅资料的过程中,每种信息的重要程度有所不同,通过分类可以将用户所需求的知识分为高度需求、中度需求及低度需求。在高校图书馆个性化服务中要对用户的使用规律做出预测,即根据用户历史查阅记录对用户所需的文献种类、特征等做出预测。

时序模式主要是通过时间段对用户的访问记录、检索过程做出标志,再通过时间序列将重复率较高的内容挖掘出来,以预测其下个信息需求,提高用户查阅资料的便利性。

1.2图书馆中应用数据挖掘的必要性与可行性分析

图书馆应用数据挖掘技术的必要性体现在以下几个方面:

首先,信息化需求。用户的借阅记录、检索记录均存储于图书馆数据库中,需要利用数据挖掘技术将这些海量数据转换为有用的知识信息,以便于馆员做出决策。

其次,图书馆的管理需求。传统图书馆系统仅能为用户提供简单的访问、检索等功能,这些功能无法满足图书馆个性化的技术要求,因此要利用数据挖掘技术将用户借阅数据中隐含的关联性发掘出来,从中发现有用的知识信息。

最后,用户服务的需求。数字化图书馆的发展越来越迅速,用户通过图书馆获得的资源也越来越丰富,如何从海量的信息资源中发掘出对用户有用的知识信息,仅依靠传统的图书馆管理系统无法解决这一问题,因此要利用数据挖掘技术对用户的借阅记录进行分析,从中获得更多有价值的信息,以提高图书馆的服务质量及馆藏利用率。

而在图书馆个性化服务中应用数据挖掘技术也是可行的,一方面很多图书馆已具备比较好的物质条件及人才条件,这些均是图书馆个性化服务中应用数据挖掘技术的必要条件,而且政府在经济方面、政策方面也为数据挖掘的应用提供了更多保障;另一方面,近年来数据挖掘技术也有了长足的发展,其足以为图书馆的个性化服务提供必要的技术支持[2]。图书馆数字化发展过程中需要采集、购置更多的数据资源,而利用数据挖掘技术可以为图书馆资源建设提供指导作用,挖掘图书馆的历史借阅记录,可进一步了解用户的借阅习惯、阅读兴趣及信息需求,并且可以对不同图书之间的关联性进行深入分析,图书馆员根据这些信息记录、分析结果等提供指导,可以提高图书资源分配的合理性,对馆藏布局进行优化。由此可见,数字化图书馆个性化服务中应用数据挖掘技术十分必要。

2图书馆个性化服务的具体体现

高校图书馆个性化服务是指根据每个用户的专业、爱好、研究方向、探索领域及特殊服务为其提供更具针对性的信息服务,帮助用户查阅更加完整的信息资料,便于其学习、研究[3]。其中,高校图书馆个性化服务的模型如下[4]。

图1 高校图书馆个性化服务模型

高校图书馆个性化服务具体体现在以下3个方面:①用户可根据自己的需求定制相关信息,以保证其在图书馆中能够查阅到相关资料;图书馆利用数据挖掘技术发现用户的兴趣爱好,为其定制个性化的访问空间。用户访问图书馆数据库时会将其兴趣爱好间接地反映出来,如果用户不感兴趣,在页面停留的时间会较短,停留时间较长则说明比较感兴趣;利用用户的浏览路径信息时间即可将用户对信息资源的感兴趣程度发掘出来。②提高图书馆资源利用率。利用数据挖掘技术可以识别图书馆网站内频繁访问的路径及用户访问次数较多的页面,可以将新书信息、重要的分类信息放在这些路径上,从而向用户主动推送其所需要的信息资源,提高图书的利用率。③优化链接结构,提高用户应用的便利性。对Web log进行挖掘,可以发现用户访问页面的相关性,增加联系比较密切的网页之间的关联性;发现用户的期望位置,如果用户访问期望位置的频率高于对实际位置的访问频率,则可在二者之间建立导航链接,优化站点。④查新服务与定题服务。传统图书馆主要通过查询光盘数据库、文献数据库等进行查新服务,而随着网络技术的不断发展与应用,外部网络信息发布及更新的速度远远超过图书馆内部网络,因此要加强网络平台的建设,以保证服务结果的真实性与可靠性。数字图书馆在进行查新与定题服务过程中,可以利用可视化技术为用户提供在线即时信息分析。

3图书馆个性化服务中数据挖掘技术的应用

图书馆个性化服务数据挖掘技术的应用流程如下:建立读者数据仓库——数据收集——挖掘算法的选择——挖掘结果的显示——对结果的评价。具体如图2所示[5]。

图2 图书馆个性化服务中数据挖掘技术的应用流程

3.1建立读者数据仓库

数据挖掘过程中,在确定了挖掘目标后,即开始进行数据准备,从大量数据中选择一个与需挖掘目标相关的样板数据子集。此时需要建立一个数据仓库,其主要作用是将所有挖掘目标所需的数据保存其中,如果未建立数据仓库直接进行数据挖掘,可能会导致挖掘失败,因此数据挖掘的前期工作大部分用于准备数据,因此建立数据仓库是一个至关重要的准备工作[6]。高校图书馆个性化服务中应用数据挖掘技术,第一步就是建立用户的兴趣库及图书馆自身的特色资源数据库。用户使用图书馆的过程中,必然会产生大量的借阅记录,访问图书馆网站会留下访问记录,这其中均潜藏了大量有意义的信息。

3.2数据收集

在建立用户兴趣库及特色资源数据库后,必须对这两个数据库中的数据进行分析、调整,以保证原始数据的质量,从而保证数据挖掘结果的质量。数据收集即数据的分析与调整可以分为数据抽取、数据清洗及数据转换等3个步骤。其中数据抽取的主要作用是将与挖掘目标相关的数据信息搜索出来;数据清洗则是对数据进行噪声消除、重复记录的消除及推导计算缺值数据等。图书馆每天会产生大量的用户相关的数据,并非所有的数据均对整个挖掘处理过程有正面作用,有些数据可能会对挖掘效果产生负面影响,因此剔除这些无用的数据十分必要。数据转换的主要作用是精减数据维数,从初始特征中分析出真正有用的特征,通过数据转换可有效减少数据挖掘时需要考虑的变量数[7]。

3.3选择算法及建立模型

数据挖掘过程中不同的算法可能会实现同一个任务,但过程却大相径庭,因此要根据数据的特点、实际运行系统的要求选择适用的算法。有些用户比较倾向于获取描述型的、容易理解的知识,有些用户则希望获取预测型知识,因此要针对不同的用户选择对应的算法,之后就要进行数据挖掘模型的建立。通过对用户分类、聚类及时间序列的分析,将每类用户的普遍性需求及个性化需求抽象出来,从而建立一系列的关联规则模型。一个模型完成后不一定可以立刻解决问题,需要对其进行反复验证,如果可以解决问题证明模型有效;如模型存在缺陷,则要通过反馈对模型进行修改、调整,或者选择新算法,建立新模型,对不同的模型进行全面考察。

3.4结果解释与知识表示

在建立数据挖掘模型后,可利用建立挖掘模型时所用的算法规则进行运算,即可产生数据挖掘结果,图书馆只需对挖掘结果进行可视化、可理解化处理即可。要将抽象的数据解释成易读、易懂的结果,图书馆决策者及管理者即可根据可视化的挖掘结果进行决策。比如图书馆新引进了一批考古专业的学术论文,由数据挖掘模型分析结果可知,该批论文的查阅者90%均为考古专业的老师与学生,其他专业的师生查阅率不到10%,根据这一结果,即可将论文信息传递给考古专业的相关用户,以提高信息推送的针对性。

3.5结果的验证、应用及评价

产生挖掘结果后需要进一步实践,以验证结果的有效性与可用性,及对模型的实用性进行评价,并且挖掘结果还具备预测未来数据的功能。上一步的结果解释经过实践后,可对应用过程进行跟踪了解,获得用户的反馈信息,对结果的实用性进行验证。需要注意一点,即一个数据挖掘的模型与已有数据完全相符比较困难,且并非所有的环境、每个时间节点均适用于同一个数据挖掘模型,因此要对挖掘结果做出评价,如经过用户的反馈,数据挖掘出来的结果可以解决问题,实现了最初的挖掘目标,满足了用户需求,则可判定该模型是合理的。挖掘结果可以满足用户的要求,用户就会做出满意的反馈,将这一反馈信息提供给决策者即可做下一步的实施,完成该阶段后,图书馆就基本上实现了以用户为中心的个性化服务的数据挖掘过程。不过某些情况下模型的评价结果可能不尽如人意,即数据挖掘的结果无法满足用户的要求,这种情况就要由系统进行重新处理,重复上述步骤,重新抽取数据、选择另外一种数据转换方法、设定新的数据挖掘参数值、选择另外的挖掘算法等。由此可见,数据挖掘的过程是一个不断反馈的过程,体现出反复性的特点。

4 结语

从某种程度上讲,个性化服务模式是图书馆传统被动服务的变革,其遵循“一切以用户为中心”的服务理念,真正实现了“用户需要什么,图书馆就提供什么”的主动的服务模式,可以预见,个性化服务模式必将成为数字图书馆技术发展的主要趋势。现阶段,我国网络用户数量呈几何倍数增加,用户的需求也呈现多样化、复杂化的特点,图书馆只有向其提供更具针对性、个性化的信息服务,才能满足其越来越高的信息服务要求。在海量的信息资源中,数据挖掘技术可以提供极具智能化的个性服务,因此已逐渐成为数字图书馆建设中非常重要的技术支持与保障。当然,数据挖掘技术还属于一种新兴技术,尚存在一些不足与缺陷,比如数据的可视化、数据挖掘语言的标准化、多层次、多种类知识的高效挖掘方法等,这些均是后续需要不断探索与研究的课题。但是我们相信,未来的数字图书馆建设过程中,数据挖掘技术的作用将越来越不可替代。

参考文献:

[1]邓爱东.数字图书馆个性化服务模型研究[J].图书馆学研究,2011(4):93-94.

[2]邓守微.基于数据挖掘的数字图书馆个性化服务[J].图书馆学研究,2012(1):231-233.

[3]汪琴,王婷.数字图书馆个性化服务系统研究[J].情报理论与实践,2013(6):87-90.

[4]熊拥军.数据挖掘在数字图书馆个性化服务中的应用[D].长沙:中南大学,2012:13.

[5]夏南强,张红梅.基于数据挖掘的数字图书馆个性化服务[J].图书馆学研究,2011(1):32-34,43.

[6]周军.基于数据挖掘的数字图书馆个性化服务系统的构建[J].图书馆学研究,2012(3):15-17.

[7]骆颖.基于数据挖掘的数字图书馆个性化服务[J].黑龙江科技信息,2012(5):92.

孙燕女,1982年生。本科学历,馆员。研究方向:图书馆管理、图书馆情报。

·文献考略·

收稿日期:(2014-11-26;责编:杨新宽。)

猜你喜欢

数据挖掘个性化图书馆
探讨人工智能与数据挖掘发展趋势
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
坚持个性化的写作
图书馆
上汽大通:C2B个性化定制未来
同桌宝贝
满足群众的个性化需求
去图书馆
高级数据挖掘与应用国际学术会议
高级数据挖掘与应用国际学术会议