预测模型对多校区图书馆典藏规划的启示

2014-06-26聂飞霞

河南图书馆学刊 2014年3期

关键词：预测

聂飞霞

关键词：预测；多校区图书馆；典藏规划

摘要：随着高校图书馆的多校区发展，图书馆典藏工作迎来了新的挑战。文章提出了运用预测技术对图书借阅量进行预测分析，从而使多校区图书馆的典藏工作更加科学有效的方法。

中图分类号：G250.78 文献标识码：A 文章编号：1003-1588（2014）03-0118-03

进入2012年，“大数据”这个专有名词开始出现在人们的视野中，各行各业的专家学者开始提出“大数据时代”所带来的挑战。那么，何谓“大数据”？目前业内对“大数据”一词仍没有统一的定义，但笔者认为，大数据（Big Data）就是指随着某一行业的发展而不断增长的数据量，它并不是一种技术，而是人们对庞大繁杂数据的一个称谓。由于其量的庞大，使得我们经常所用到的统计分析功能已经无从下手。所以，在“大数据”时代，一种技术再一次得到升温，那就是数据挖掘技术。

数据挖掘（Data Mining）技术在1998年作为一种数据处理技术概念被提出，并在上世纪末开始活跃于各个领域[1]。其在图书馆领域的应用晚于诸如通信、银行等其他行业，但数据挖掘技术在其他领域的广泛应用，给其在图书馆的应用打下了良好基础。作为图书馆工作的重中之重，随着RFID （Radio Frequency Identification）射频识别技术在图书馆的应用，使得典藏工作更加科学系统化。然而，由于国内很多大学图书馆都实行了多校区办馆，在适应了高校现有的多校区办学的现状的同时，却给典藏工作带来了前所未有的挑战[2]。面对因为多校区办馆而激增的流通数据，如何从这些庞大的数据源中发现真正有利于多校区典藏规划的信息呢？如何使得多校区典藏工作更加科学有效呢？数据挖掘的分析方法主要有分类、预测、关联规则、聚类分析、回归、顺序规则、时间序列和决策树。这些分析方法都可以用来建立一些模型，这些模型可以用来描述数据之间的联系以及模式[3]。笔者主要介绍如何将数据挖掘技术之一的预测技术应用于多校区典藏规划中。

1 如何建立多校区典藏预测模型

预测，即Forecast。预测技术是通过已知数据来了解事物今后发展情况和走势的技术。建立预测模型的方法有很多，常用的方法有回归分析预测、趋势外推预测、基于神经网络的预测和时间序列预测等。

1.1 分析预测目标以及确定预测时间

多校区办馆导致了图书馆典藏机制面临重大的挑战——[KG*4]一类图书放到哪个学区才能使其被充分利用。因此，笔者的分析目标就是图书需要的科学摆放区域，而预测时间选择为十二年。

1.2 预测前期的资料采集与调研

图书馆典藏工作中的图书摆放模式有两种，一种是按照内容的摆放，例如分类排架；另一种是按照图书的形式摆放，例如装订方式排架等[4]。目前，高校图书馆运用较多的是按照索取号排架的方法。由于索取号是由分类号和著者编号组合而成，因此在进行数据挖掘的前期可以对图书进行分类号的特征采集，这有利于我们下一步预测方法的选择。以西北大学图书馆的借阅数据为例，由于西北大学图书馆有南区图书馆和北区图书馆两个分馆，需要预测某一特征的图书某一年在南北分馆的借阅量，以此来确定典藏地点的分配（见表1）。如表1所示，北校区图书馆借阅量为Nyi，南校区图书馆借阅量为Syj，表1为某类特征值图书两校区借阅数量统计。

1.3 选择一种适用方法

如表1所示，特征采集过程中两个校区的借阅量是我们要预测的对象。预测建模的诸多方法中，回归分析预测建模中的一元线性回归预测方法可以应用到多校区借阅量预测中。

1.4 对预测结果的分析与评估

通过一元线性回归预测方法，我们可以预测到一个分类号在两校区的借阅趋势。这里应该对预测的结果进行分析与评估，确定结果是否符合预测的要求，并运用预测模型进行检验，以此来比较本次预测的精确度。

[HS2]2 一元线性回归预测模型的应用

一元线性回归分析是处理两个变量x（自变量）和y（因变量）之间关系的最简单的模型，研究的是这两个变量之间的线性相关关系[3]。一元回归的公式为：

yi=a+bxi+ui（i=1，2，…n）

其中u是一个随机变量，称为随机项；a、b是两个常数，称为回归系数（参数）；i表示变量的第i个观察值，共有n组样本观察值。

由于需要预测某一特征的图书在两个分馆的借阅量，所以本次预测因变量y分别设为y1（北校区图书馆借阅量）、y2（南校区图书馆借阅量）。在得到预测结果y1和y2后，通过设计SQL语句来比较y1与y2的结果值，从而返回典藏地点的推荐值。以下为一元回归预测的具体过程（见表2）。

3 预测模型对多校区典藏规划的启示

3.1 预测前期工作简单化

该预测模型前期数据准备工作为数据的特征提取，这里提取了图书的分类号作为分析的目标。例如：需要分析“数据挖掘技术与应用”这一类的书，我们提取到的特征为TP274，以TP274为分析目标在图书馆自动化系统中统计出分析范围内（十二年）的借阅量。

3.2 预测模型应用简单化

预测模型建立起来后，典藏工作人员只需将分析范围内（十二年）的借阅数据输入模型，系统会自动生成回归方程（如y1[DD（-*5]∧[DD）]=20.9895+1.217x），只需要选择需要预测的年份（如2014年），就可以得到某一类图书在某一年内在各个校区的借阅量预测结果。

3.3 对非典藏领域的启示

该预测模型建立起来后，可以预测某特征类型的图书的多校区借阅量，可以指导典藏规划实施图书的具体布局。对于借阅量在某一阈值以下的图书，典藏部门可以对该类图书进行剔旧或者下架处理，而采访部门可以少量购买或者不予购买。同时，对于借阅量大于某一阈值的图书，典藏部门可以开设特色化服务进行推荐，而采访部门可以通过增加复本或增加同类书来满足读者的要求。

参考文献：

[1] Han Jiawei，Kamber Micheline.数据挖掘：概念与技术[M].北京：高等教育出版社，2001：42-60.

[2] 贾宇群，李桂祥，刘东燕.多校区模式下高校图书馆文献资源的布局与管理[J].情报科学，2009（3）.

[3] 陈燕.数据挖掘技术与应用[M].北京：清华大学出版社，2011：72-80