APP下载

基于用户需求分析的数字图书馆知识发现系统研究

2014-01-13张为江天津图书馆天津300201

图书馆理论与实践 2014年9期
关键词:数据库图书馆数字

●张为江(天津图书馆,天津300201)

基于用户需求分析的数字图书馆知识发现系统研究

●张为江(天津图书馆,天津300201)

知识发现;用户需求;数字图书馆

知识发现系统是数字图书馆个性化信息服务的实现手段之一,本文以用户需求为中心,从知识服务平台、用户知识行为分析平台、知识发现平台、数字图书馆资源等方面对数字图书馆知识发现系统进行了论述。

在数字图书馆服务中,如何提高资源系统的利用率以及如何进行更加人性化的主动知识服务一直是信息行业研究的重点课题,许多信息服务机构推出了从研究资源或知识本身的逻辑关系出发,进一步结合用户的部分检索需求构建的主动服务的知识发现系统,虽然在一定程度上解决了用户在浩如烟海的信息资源中获取信息困难的问题,却没有从根本上从用户需求的角度出发,深入研究和分析用户的使用习惯、知识取向,从而无法真正完全保证用户获取到信息的准确性,更谈不上在对用户的知识内涵进行分析的基础上开展个性化的主动知识服务,用户仍然在大量信息超载的情况下面临选择困难。[1]因此,在信息爆炸的时代,研究基于用户需求分析的新一代数字图书馆知识发现系统,帮助用户摆脱信息超载困境是数字图书馆知识服务的必然选择。

1 知识发现概述

1.1 概念

知识发现(KnowledgeDiscoveruom Database,Kdd)是确定数据中有效的、新颖的、有潜在应用价值的、基本可理解的模式的高级处理过程。知识发现对大量的数据进行处理、分析和挖掘,寻找各类数据间潜在的关联和规律,把用户对数据的利用从简单的检索查询提升到帮助用户发现潜藏在数据背后的信息与知识。[2]尤其重要的是,知识发现通过数据关联,帮助用户在数据海洋中发现了无法找到的和无法知道的知识。

1.2 知识发现的功能

(1)概念描述就是对某类对象的内涵进行描述,明确概括出对象的特征,可分为特征性描述和区别性描述。特征性描述要求指出描述对象的共同特征;区别性描述要求指出不同类对象之间的区别。(2)关联分析指发现数据间的相关程度,从某一数据推断出另一数据,发现其重复出现的知识模式。(3)聚类分析是依据物以类聚的原则,将本身没有类别的数据聚合成不同的类,由此导出规律和典型模式。聚类的目的是使属于同一类的数据尽量相似,不同类的数据差别尽可能大。(4)自动预测趋势与行为就是对数据进行扫描,寻找潜在的预测信息,发现其隐藏的模式,以便对未知数据进行归类。(5)偏差检测就是对数据库中一些带有偏差的异常记录进行描述,如:分类中的反常实例,不满足规则的特例等。

1.3 知识发现的过程

知识发现过程虽然有多种描述,但只是在组织和表达方式上有所不同,在内容上并没有本质区别,主要包括以下步骤:(1)确定知识发现的挖掘对象、目标和任务;(2)搜集、提取数据,建立关键性指标数据库;(3)根据知识发现任务,对数据进行合法性检查与清理,去除掉与知识发现无关的数据;(4)根据知识发现的目标和任务选择数据挖掘的算法;(5)将知识发现的结果用可视化的形式表示,并让专家和用户进行评价。以上步骤需要经过多次反复和修改,以便最终形成高效可用的知识发现结果。

2 知识发现系统发展现状

知识发现系统是数字图书馆个性化信息服务的实现手段之一,虽然国内外有很多类似的知识发现服务系统,但这些系统大多是以资源为核心研究对象。例如:Series Solution公司的“资源发现系统Summon”和超星公司的“学术发现系统”,就是以文献资源为基础,进行数据处理和分析展现给读者。文献资源虽然是揭示各信息资源关联关系的立体知识体系,却忽略了对用户需求行为的深度分析。

除了以资源为研究对象的系统外,也有以用户为中心设计的知识发现服务系统,但这类系统对用户的分析要么局限于用户最初注册时的自我需求定制,要么局限于一些简单的统计数据。例如:登录次数、下载页数、浏览次数等,这类分析远远不能精确地、动态地分析出用户的知识结构和使用习惯,从而影响到知识发现系统提供信息的准确性。

基于用户需求分析的数字图书馆知识发现系统则是采用追踪用户对各个数据库的使用过程的方式,记录用户使用数据库的关键信息和阅读轨迹,以用户使用数字图书馆的行为轨迹作为主要研究对象,通过挖掘各类数据库与用户行为之间的立体关系,分析和归纳用户自身的特点,如不同的知识背景、知识取向和使用习惯等,据此建立以用户需求为关联的知识体系,从而发现用户获取知识的规律,以便用最有效的方式为用户提供系统发现的知识信息。[3]

由此可以得出,数字图书馆知识发现系统以独特的视角将用户行为分析和知识发现两个并行的研究方向有机地结合起来,统一到主动的知识服务上面来,是完全根据用户的需求对数字图书馆的资源进行揭示、组织和聚类,主动知识发现的服务平台。

3 数字图书馆知识发现系统的应用意义

3.1 有效提高数字图书馆资源利用率和用户使用效果

数字图书馆知识发现系统通过全程记录用户利用数字图书馆的知识行为轨迹,如:检索关键词、关键词出现频率、用户登录频率、检索频率、下载页数、浏览时长等指标,建立用户知识行为数据库,运用分类、聚类、关联分析等方法,研究出用户的需求,如使用习惯、知识背景及知识取向,据此采用知识关联对知识进行组织、管理。具体地讲,就是在把知识A推送给用户的同时,将与之相关的知识B推送给用户,不仅有效地提高知识B的利用率,而且更重要的是让用户发现了所需要的知识B。这种以数据驱动的服务理念提供的知识无疑将有效地提高数字资源的利用率和用户的满意度。

3.2 实现信息服务到知识服务的飞越

数字图书馆知识发现系统通过分析图书馆用户的知识行为数据库,发现其知识结构和利用知识的规律,将此规律作为数字图书馆资源的智能化聚类和关联的规则,利用知识发现技术在显性和隐性的资源中对可用知识进行收集、选择、关联和升值,使知识发现系统提供的服务不仅仅是面向数据库的简单检索、查询和调用,而是实现个性化的主动的知识发现和推送。同时,通过大量分析用户的知识行为数据库,发现用户共有的需求特性及其之间的相互关联规则,进而还可利用已有的数据对用户未来的活动进行预测,发现今后的阅读趋势,从而引领用户获得更有用的知识,以满足用户的实际和期望需要,实现从获取信息到知识的飞跃。[2]

3.3 进一步推动信息资源和数据库的建设

通过分析用户利用数字图书馆的知识行为,发现用户的知识行为规律,将此规律应用于知识发现平台,最终使用户获得隐藏于数据背后的具有新颖性的、潜在的、有价值的知识。整个过程既包括用户知识行为的规律,又包括知识被发现的规律,这两个规律完全以用户为中心,聚焦用户需求,相辅相成,不仅对今后数据库的构建提供理论支持,而且对数字图书馆的资源组织、建设具有很强的现实意义和指导意义,促使海量的数字图书馆信息转变成能最大限度满足用户需求的资源。

4 数字图书馆知识发现系统框架设计

数字图书馆知识发现系统是以资源检索为目标的资源服务系统转变为完全面向用户需求的、主动发现和推送知识的系统。它主要由四部分构成,即知识服务平台、用户知识行为分析平台、知识发现平台和数字图书馆资源。见图。

图 数字图书馆知识发现系统框架

4.1 知识服务平台

知识服务平台是数字图书馆知识发现系统的入口,用户通过它访问数字图书馆资源以达到检索、定制、获取信息与知识的目的,同时通过广泛深入采集用户的浏览、检索轨迹,生成用户利用数字图书馆的知识行为数据库。知识服务平台集成了图书馆多种信息技术手段,如集成检索、个性化推送、数字参考咨询、知识交流等服务,它更能体现用户参与交互的特征,是图书馆提供知识服务的人机交互平台。

在数字图书馆知识发现系统框架中,人机交互平台是用户与知识发现系统之间通信的接口,其设计占据非常重要的地位。以满足用户需求为基础的交互是在充分考虑用户的体验及感受的前提下设计的,它严格以用户为中心,不只关注形式和内容,更多的是通过记录用户利用数字图书馆的过程,来准确描述用户需求,从而以最有效的方式向用户推送知识信息。[4]对用户而言,人机交互平台必须是一个简洁、易操作、且操作界面相对友好的平台,并可将用户的问题定义及知识发现结果以可视化的方式展示给用户。

4.2 用户知识行为分析平台

用户知识行为数据库包括用户个人信息库和用户知识行为记录库。用户个人信息库是指用户的注册信息和系统预设的用户需求定制等数据。用户知识行为记录库用于记录大量用户的检索、阅读的知识行为,这部分记录利用数字图书馆日志、用户cookie进行提取和收集。

然而,并不是所有的用户行为数据对知识发现都是有用的,用户知识行为分析平台主要负责分析用户知识行为数据库,通过统计学分析用户知识行为指标,对大量用户阅读习惯进行聚类,然后根据聚类得到的各类指标的相关性、逻辑性,对数据进行过滤,去除无效数据,保留一些能够体现用户对资源感兴趣的信息,从而发现用户知识行为的内在联系和普遍规律,研究发现能够表现用户知识行为规律的关键功能指标,如检索关键词、加入收藏等,由此就可以推断出该用户在某一段时间的浏览偏好,并将用户对数据库需求的分析结果发送到知识发现平台。

在整个系统模型中,用户可以对信息需求和推送的知识进行选择和修改,这一过程将被记录生成新的用户知识行为数据库,用户知识行为分析平台也将重新进行分析、定位用户的现实与潜在需求,经过如此反复地反馈、修改、再反馈、再修改,用户知识行为规律将更加贴近用户要求。用户知识行为数据库的建立要经过必要的修整与调节过程,使数据库趋于科学合理,同时只有经过比较长时间数据积累的用户知识行为数据库才能真实反映用户的知识背景、知识取向和使用习惯等,对其进行采集、处理是知识发现的基础。

4.3 知识发现平台

知识发现平台是数字图书馆知识发现系统的核心,以各类结构化、半结构化和非结构化数据为底层,利用数据仓储、数据挖掘和搜索引擎等技术手段,全面揭示数字图书馆中各种文献之间的内在关系。众所周知,各类数据不是孤立的,数据间存在着千丝万缕的联系,这些联系就是知识关联的基础,知识关联就是在海量数据中发现数据项之间的关系。通过知识关联,用户可以获得更多信息,直到发现用户真正需要的知识,知识关联是知识发现和知识创造的起点。

知识发现的结果不仅取决于知识结点之间的逻辑关系,取决于知识之间的有机关联,更取决于用户对知识的需求和利用规律。知识发现平台依据用户知识行为的分析结果,建立以用户需求为关联的知识体系,并深入挖掘大量数据资源背后的信息,以便发现用户需要的、有效的知识。知识发现是数字图书馆服务的更高层次,是主动信息服务的基础。

4.4 数字图书馆资源

数字图书馆资源是知识发现系统最基础的设施,位于整个系统的最底层,主要包括图书馆各种不同类型、不同地域的数字资源和未挖掘的知识,它们是为用户提供信息服务和知识发现的基础。

[1]曹树金.基于用户需求的图书馆用户满意实证研究[J].中国图书馆学报,2013(5):60-72.

[2]刘建涛.数字图书馆用户行为研究[D].武汉:武汉理工大学,2007.

[3]彭春红.基于用户体验价值的高校图书馆服务创新[J].情报探索,2011(9):108-110.

[4]景卫红.数字图书馆个性化信息服务研究[J].图书情报工作,2010(S1):160-161,183.

G250.76;G252.0

A

1005-8214(2014)09-0083-03

张为江(1969-),女,情报学硕士,天津图书馆副研究馆员,发表论文数篇。

2014-06-26[责任编辑]王岗

本文系2014年度文化部科技创新项目(项目编号:2014k jcxxm05)的研究成果之一。

猜你喜欢

数据库图书馆数字
图书馆
答数字
数据库
数字看G20
数据库
数据库
数据库
去图书馆
成双成对
数字变变变