APP下载

基于智能Agent的数据挖掘在数字图书馆中的应用

2014-05-05任长贵

教育教学论坛 2014年17期
关键词:数据挖掘预测数字

任长贵

(湖南女子学院,湖南 长沙 410000)

【信息技术】

基于智能Agent的数据挖掘在数字图书馆中的应用

任长贵

(湖南女子学院,湖南 长沙 410000)

文章分析了数据挖掘与智能Agent的含义及特点,提出了利用智能Agent、数据挖掘技术对数字图书馆中的用户资料及访问web时的当前请求进行预测分析,据此获取用户兴趣爱好、访问习惯,预测用户行为,挖掘用户潜在需求,减少用户访问延迟,提高用户获取信息的效率,为其提供主动的个性化信息服务。

数字图书馆;数据挖掘;智能Agent;用户需求预测

随着Internet的应用与普及,互联网已发展成当今世界上最大的信息库。网络资源的急剧膨胀为数字图书馆提供了巨大的信息源,它在为用户获取信息提供途径的同时,也增加了用户有效信息利用的难度及速度。数字图书馆如何利用先进信息处理技术,解决资源的无序性、分散性、冗余性,从web巨大的资源中快捷、准确地挖掘出用户所需信息及潜在需求,为用户提供主动的个性化信息服务,已成为人们关注的焦点。其中数字挖掘、智能Agent技术便是解决这一问题的重要技术之一。

近年来,图书情报界在数字图书馆建设中,对数字挖掘(Data mining)及智能Agent(Intelligent agent)有关理论与技术的应用研究已纷纷开展起来。本文拟对基于智能Agent的数据挖掘系统在数字图书馆中的应用模式进行分析探讨。

一、数据挖掘与智能Agent含义及特征

1.数据挖掘(Data mining)又可称作数据中的知识发展(Konwledge Database),是通过分析各种数据源,从中提取出有价值的、新颖的、有用的,并被人们理解的模式的处理过程。它融合了计算机学、数据库、人工智能、文献统计等多个领域的理论和技术。数据挖掘常用的算法有:聚类法(Chattering)、分类法(Chissifieation)、遗传算法(Generic Algorithms)及关联规则算法(Associationword)。

2.数据挖掘特征。(1)能对大量的待处理数据进行分析处理,如抽取、转换、过渡,以满足用户需求。(2)具有高效的查询效率,为用户提供决策支持。(3)能对不同类型的数据进行分析处理。网络文献数据格式各异,如文本、声音、图像等。结构模式有结构化、半结构化及非结构化。(4)可发现数据中规则动态信息。(5)能有效地组织和管理数据。

3.智能代理含义及特征。智能代理(Intelligent agent)常被形象地称作能思维的软件,是指模拟人类行为,能够根据所感知的环境自义运动并提供相互的程序。在网络范畴内定义为在网络环境下代理用户或其他程序,以主动服务方式持续完成一组操作的机动软件实体。它可定时和交互地执行与目的有关的计划,对网络环境变化做出反应。智能Agent特征主要有:高度智能化、自主学习性、协作性和代理性。

二、基于智能Agent的数据挖掘在数字图书馆的应用

数字图书馆(Digital library)即对信息进行搜集、转换、描述,并以计算机可处理的数字化形式存储馆藏信息和网络化、数字化信息,以智能化的信息检索方式和统一的检索界面,利用先进的信息处理技术和互联网,提供各种语言兼容的多媒体远程数字信息的信息服务机构。数字图书馆含三大要素:数字化支持技术、数字化资源和数字服务。

近些年已有多种数据挖掘系统应用于数字图书馆建设中,尽管他们各有特色,但智能性均不够理想,需进一步完善。多智能代理的出现因具有高度智能性、协作性和代理性等特点,能完成较复杂的应用而越来越受到人们的青睐。本文提出一个基于智能Agent的数据挖掘系统在数字图书馆中的应用模式。该模式主要指数字图书馆根据本信息服务站点用户的历史数据(此数据包含用户兴趣爱好、访问习惯)及当前请示,有针对性地预测用户行为,即在用户浏览Web当前页面时,结合浏览轨迹,将预测内容放至本地高速缓存cache中(用户需要时可直接从高速度缓存中下载),利用智能Agent及数据挖掘的原理和技术,挖掘出用户感兴趣的模式及潜在需求,从而减小用户的访问延迟,提高检索效率,为用户提供主动的个性化信息服务。由于智能Agent本身的特点融合于数据挖掘过程中,使数据挖掘模式具有智能性、协作性、使数据挖掘模式具有智能性、协作性、交互性等特点。基于智能Agent的数据挖掘系统在数字图书馆中的应用模式及其功能模块,如图1所示。

图1

1.数据源:主要来自数字图书馆高速缓存Cache中用户的历史数据。

2.数据预处理Agent:主要功能是分析数字图书馆中的用户历史数据,在用户浏览Web当前页面时,将预测内容放至本地高速缓存cache中,进行预测分析,抽取出用户感兴趣的模式及潜在需求(从而减小用户的访问延迟,提高检索效率),数据预处理可完成任务确定、模型设计、数据分析、数据抽取、数据处理和数据交换。数据抽取和数据处理一般包括消除无用数据及重复记录等操作,推导缺值数据,完在词干抽取、词条切分等处理和数据交换。数据交换过程一般包括特征选择过程和与具体实现有关的数据格式变换过程。(1)数据挖掘Agent:主要功能是完成对数据预处理模式的识别,即发现新的模式或规则,并将结果传递给人机界面Agent。挖掘的主要任务是分类、聚类和关联规则发现等。(2)人机界面Agent:提供分析人员与用户交互的友好界面,当数据挖掘Agent发现用户适用资源时,人机界面Agent会即时将结果以可视化或自然语言的方式表现出来,以便于用户了解和观察。(3)模式评估Agent:主要是实现对挖掘Agent得出的模式进行评估和解释。模式评估Agent实时监测用户的行为,对用户的行为提供在线预测,利用用户行为预测法进行分析。挖掘Agent所得模式,并非为用户最终所需资源,模式有可能是冗余的,也可能是错误的,数据挖掘是一个反复的过程。用户可对模式进行评判,如果不满意,便通过人机界面Agent反馈于挖掘Agent,进而调整挖掘内核操作,对模式进行优化,直至满足用户的需求目标。(4)挖掘模型知识库:它是数据挖掘的一个规则集合,能根据不同的挖掘要求选择最有效的挖掘算法或几处算法的序利组合。兴趣关联知识库中的兴趣关联规则算法指出了从某一词条(兴趣)转向其他词条(兴趣)的可能性,利用兴趣关联规则可对数字图书馆中的用户行为预测,预测用户感兴趣的页面,设计智能型的用户服务界面,由被动服务变主动服务。挖掘模型知识库可不断融入新的规则,以增加系统的智能性。

基于智能Agent的数据挖掘在数字图书馆中的应用,可实现信息的搜集、预处理、挖掘、查询评估、自动提取等功能,可提供用户浏览模式和潜在兴趣等模式,使数字图书馆成为一个智能型、主动性的信息提供库。

三、结语

利用智能Agent与数据挖掘技术对数字图书馆中的用户历史资料及访问Web时的当前请求进行预测、分析,以获取用户兴趣关联规则,预测用户行为,挖掘用户潜在需求,有助于提高用户提供主动的个性化信息服务,有助于提升数字图书馆建设中对用户行为的预测、分析与研究工具有广泛的应用前景。

[1]柳胜国.我国互联网信息挖掘研究现状[J].图书馆学、信息科学、资料工作,2002,(7).

[2]韩立新,等.基于Agent的面向Internet的信息检索系统的设计和实现[J].情报学刊,2002,(3).

[3]张晓林,等.基于Web的个性化服务机制[J].现代图书情报技术,2001,(1).

[4]李曼,等.基于Agent的个性化主动信息服务研究综述[J].图书情报工作,2002,(8).

[5]刘燕平,等.基于Agent的网络信息智能检索研究[J].图书情报知识,2003,(3)

[6]敖广武.数据挖掘理论和开发[J].信息技术,2003,(6).

[7]吉根林,等.数据挖掘技术及其应用[J].南京师范大学学报,2002,23(2).

[8]邹涛,等.www上的信息挖掘技术及实现[J].计算机研究与发展,1999,(8).

[9]http://www.d-library.com.cn/index.isp

[10]http://www.csls.org.cn

[11]http://www.las.ac.cn/index.jsp

[12]http://www.c79.cnki.net.oldcnki/index4.htm

[13]http://www.Lib.ruc.edu.cn

G642.0

A

1674-9324(2014)17-0233-02

猜你喜欢

数据挖掘预测数字
无可预测
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
基于GPGPU的离散数据挖掘研究
数字变变变