数据挖掘技术在高教园区信息资源共建共享中的应用

2010-05-03张锡椿

图书馆学刊 2010年12期

张锡椿

（温州医学院图书馆，浙江温州 325037）

上世纪90年代以来，全国兴起了一股兴建大学城或者高教园区的热潮，这一方面标志着我国高等教育从精英教育向大众化教育的转变；另一方面也提高了高等教育的办学效益，优化了教育资源的合理配置。大学城或者高教园区通常是由一所或多所大学为核心，整合其他高校后形成具有整体功能、扩散效益的高素质人才教育社区，园区内各高校既独立办学又合作共享。

随着网络和计算机技术的蓬勃发展，文献信息资源的传播载体和渠道日益多样化，利用成本和难度也相应增加。大学城和高教园区的建设，在地域环境和管理体制上为文献信息资源的共建共享提供了有利条件。而高校图书馆集中了高校教学与科研所需的绝大部分学术资源与文献信息资源，是主要的信息资源集散地。如何有效地利用自动化、数字化、网络化的高科技工具和资源，提高文献信息资源的共享率，是当前高教园区图书馆建设中面临的一个重大问题，是亟待解决并将产生社会效益的新课题。

1 信息资源共建共享存在的问题

高教园区图书馆信息资源共建共享是指各高校图书馆利用园区的地域和环境优势，本着“优势互补、互通有无”的理念，在资源建设、管理和利用等方面进行合作，从而达到以较少较合理地投入而能更全面、有效地为园区内所有师生提供信息资源服务，以保障教学和科研的信息需求。

目前，大多数城市的高教园区还处在建设与完善阶段，园区内各学校图书馆的信息资源共建共享模式还在探讨与实践过程中，归纳起来，主要存在以下几个亟待解决的问题：1.1 管理体制问题。随着我国高等教育改革的深入，现阶段各高校面临着各种各样的压力与挑战，比如教育部组织的本科教学评估等，对各高校的文献资源都有硬性规定，如果没有满足这些条件，将对各高校产生极大的影响，包括学校的地位和知名度、教育部或地方政府的经费投入额度、学生招生人数等等，因此在现行条件下让各高校完全放弃自己长期形成的馆藏是不太现实的。

1.2 观念意识问题。长期以来各高校图书馆由于受传统图书馆“以藏为主”思想的影响，基本采取自给自足的“农耕式”文献资源建设方式，造成了“只希望共享而不愿意共建”的不合理现象，资源共建意识淡薄，只重视本单位文献信息资源的建设与发展，而忽视园区整体上的协调与合作。

1.3 组织协调问题。纵观温州地区的高教园区，虽然各高校处于同一个地域，但各高校行政隶属不尽相同，又缺乏一个权威性的组织机构进行总体的宏观管理和统筹规划，使得校际之间缺乏有效的沟通与协调，反映在文献信息资源共建共享上就是“各自为政，重复建设”。

1.4 标准规范问题。当前，我国图书馆文献信息资源的标准化和规范化进程缓慢，缺乏全国统一的分类、著录、标引和检索标准以及计算机系统规划，各馆根据自身发展的需要购置了不同的自动化系统，导致各单位、各系统之间的数据资源难以共享。同时，各高校图书馆受到经费、人员、技术等各种客观条件的影响和制约，自动化的程度和规模也相差很大，很难组织起区域性的系统间网络信息服务。

2 数据挖掘的概念

数据挖掘（DataMining，DM）是从存放在数据库、数据仓库或其他各种信息库中的大量数据中发现有趣知识的过程，是知识发现过程的一个基本步骤。简而言之，数据挖掘就是从大量数据中提取或“挖掘”知识。它融合了信息检索、人工智能、机器学习、统计学、数据可视化以及数据库技术等多个领域的理论和技术，是信息技术产业最有发展前途的交叉学科之一。

数据挖掘任务可分为两类：描述和预测。描述性挖掘是指描述要挖掘数据的一般性质及“可信性”度量。预测性挖掘是指通过对当前数据进行推断与分析，以作出预测及可行性度量。

数据挖掘的原始数据既可以是结构化的，如对象——关系数据库和面向特殊应用的数据库；也可以是半结构化的，如文本、图形、图像及多媒体数据库；还可以是非结构化的，如万维网或局域网上的新闻、邮件、文件、Web日志等。

数据挖掘所得到的信息应具有先未知、可实用和多检索这3个特征：①“先未知”性是指该信息是事先未曾预料到的，或者仅有模糊印象的，即数据挖掘是要发现那些不能靠直觉发现的甚至是违背直觉的信息或知识。②“可实用”性是指该信息可以给人们的某种决策提供相对有用的参考与建议，也有可能与原先决策相反。③“多检索”是指该信息有一定的表达模式和用户界面，可供个人或机构多方面自由检索。

数据挖掘所用的数据分析方法可粗分为统计分析、机器学习、神经网络、模式识别和数据仓库等5种方法。其中应用很广泛的是关联规则分析法和决策树分析法以及基于密度的方法。复杂的数据挖掘系统通常采用多种数据分析方法，结合各方法的优缺点，以达到最大限度最准预测地发现知识。

3 基于数据挖掘技术的高教园区信息资源共建共享

基于数据挖掘技术的高教园区信息资源共建共享即以图书馆自动化集成系统为基础，以读者使用数据以及其他网络相关数据为研究对象，将这些原始数据提取并集成化，然后建立模型进行加工和分析，挖掘出潜在的、有用的、可理解的信息和知识，用来指导图书馆日常工作及决策工作。

信息资源共建共享的基础和前提是“共建”，只有园区各高校全心全意地参与信息资源共建，才能更有效地实现资源“共享”，否则到头来只会是一句空话。信息资源的共建，牵涉到园区各高校的自身利益，没有哪所大学能接受“不公平”的共建，也没有哪所大学能无私地共建，而数据挖掘技术可以对各高校读者的使用情况及分类资源的利用率作出预测和评估，以坚强的数据基础为各高校在资源共建上的决策提供支持与参考。

用此方法来处理信息，易于综合分析读者的使用情况，对图书馆信息资源共建共享模式的有效建立有指导意义。在实际应用中，图书馆采用数据挖掘技术的目的是搜集、分析高教园区各高校文献资源的利用情报，并把每个高校的情报综合起来，然后采取统计分析、技术群组、文本挖掘、组合理论等技术，对其进行综合分析及评估，并以统计图谱、关联图谱和技术报告等形式展现出来。

数据挖掘一般需要经历以下6个阶段：原始数据提取、数据预处理、数据整合、建立分析模型、数据挖掘操作、知识表达和解释，如图1所示。

现阶段，高教园区文献信息资源共建共享采用的较为合理的做法是：以各高校图书馆本身具有的馆藏为基础，各馆对今后新收藏的文献信息资源实行统一采购、统一加工和统一配置。各成员馆要统筹规划，分类收藏相关文献，重点收藏本校重点学科及重点发展学科的文献，在经费允许的情况下，适当收藏本校师生使用率较高的非专业文献，以达到较高的经费使用性价比和共享满足程度。

3.1 原始数据提取。以各高校图书馆自动化集成系统的数据作为主要数据源，辅之以数据库使用数据及Web页面、文本等其他类型的数据，这是数据挖掘技术的前提。

3.2 数据预处理。原始数据由于其本身的复杂性及无关联性，并不能被直接使用，否则数据挖掘得到的分析结果质量将难以得到保障，所以数据预处理是数据挖掘的必要环节。数据预处理主要是处理数据中的遗漏，避免有噪音数据、空缺数据和不一致数据的侵扰，并对脏数据进行清洗。

3.3 数据整合。与传统的分析方法相比，数据挖掘技术是一种更高级的分析过程。而未经预处理过的数据，并不能直接使用，必须通过各种转换方法转换成数据挖掘可以使用的有效数据形式。数据整合就是根据分析需求，通过算法将原始数据预处理后形成的新数据经过融合和集成，重新构建一个数据全面、准确而又合乎分析需求的数据库过程。在此基础上，再对数据进行分析处理，得到结果的分析层次及质量将大大提高。

3.4 建立分析模型。数据经过整合后，就是用数据挖掘工具读入数据并从中构造出一个有效的分析模型，并在数据集中选出部分数据对模型进行测试验证，根据验证结果对模型进行评估，反复对模型进行修改，直至找到最有利于此种数据挖掘的模型。分析模型类型各异，根据所用数据挖掘工具的不同，也会有很大的差别。

3.5 数据挖掘操作。做好上述准备工作后，将进入最重要的一环：利用选好的数据挖掘工具在数据中挖掘知识。这个过程可以自动化，由系统根据数据自行发现它们之间的某种联系；也可以人工化，加入用户交互过程，根据分析人员的假设，搜索数据来验证假设的正确性。

3.5.1 馆藏量与学科分类关系（如图2所示）。在保持各高校原有馆藏不变的情况下，图书馆新馆藏要与本校的学科设置相关联。

3.5.2 读者兴趣点分析。学科馆藏是各高校图书馆的立馆之本，各馆都在各自的范围内尽量多藏，以满足师生的学科需求。在此基础上，各高校读者的兴趣爱好也不尽相同，可根据挖掘出的信息配置相应的馆藏。

3.5.3 读者借阅规律分析。高校读者的图书借阅都有一个时间段，如果是学科图书，读者会集中在某个时间来借阅，这就要进行分析，才能进行最佳调配。如在一定时间段可从其他高校“借用”某种或某类馆藏，以满足读者的临时需求。

3.5.4 借阅习惯关联分析（如表1所示）。目的是找出各高校读者中隐藏的有趣的阅读习惯关联网，用来指导资源共建工作，重点配置读者感兴趣的图书，以有限的经费发挥最大的功用。具体操作方法包括关联矩阵和关联图。

表1 读者对某些图书需求的最优模糊矩阵

3.6 知识表达和解释。根据最终用户的决策目标，将分析结果以用户容易理解的方式（图和表）把挖掘到的最有价值的知识呈现出来，并且提交给图书馆决策者和个人，使之可以洞察读者的动态，为图书馆日常业务工作提供参考。

4 结束语

数据挖掘技术是一种决策支持过程，它主要基于人工智能、机器学习、统计学等技术，在各个领域得到了广泛应用，取得了很好的社会效益。笔者将数据挖掘技术引入高教园区信息资源共建共享过程当中，从各种不同的数据来源中，挖掘出有用的知识，使之帮助图书馆决策者调整馆藏策略，有效地进行资源共建，更好地实现资源共享。但是任何一种方法都不可能解决所有问题，基于数据挖掘技术的高教园区信息资源共建共享的方法还存在着一定的难题和局限，还有待进一步研究。

[1] 鲁黎明.高教园区文献信息资源共建共享模式研探.图书馆理论与实践，2005（2）：91-92.

[2] 金胜勇，于淼.基于共建共享的文献信息资源建设理论构建.中国图书馆学报，2006（4）：72-75.

[3] 黄修龄.大学城环境下图书馆信息资源建设的理念与实践模式.图书情报知识，2004（1）：45-46.

[4] 罗玉英.大学城图书馆实现资源共建共享的对策.图书馆杂志，2006（10）：50-51.

[5] 危薇，陈如好.试论大学城高校文献信息资源共建共享体系的功能与模式.情报探索，2007（4）：34-36.

[6] 王桂芹，黄道.数据挖掘技术综述.电脑应用技术，2007（2）：9-14.

[7]JiaweiHan，MichelineKamber.数据挖掘:概念与技术.北京：机械工业出版社，2007.

[8] 高巨山，仲伟伫.高校数字图书馆构建中的数据挖掘应用研究.中国教育信息化，2008（3）：81-82.

[9] 潘小枫.数据挖掘技术及其在数字图书馆建设中的运用.图书馆理论与实践，2006（4）：105-106.

[10] 牛根义.国内图书馆数据挖掘研究.现代情报，2009（1）：128-133.