APP下载

读者借阅行为的时间序列分析及预测

2013-04-25

河北科技图苑 2013年5期
关键词:时序校区差分

张 淼

(华南师范大学图书馆 广东 广州 510631)

1 研究背景与目的

随着信息研究范式从“以系统为中心”到“以用户为中心”的转变[1],对用户信息行为的全面分析日益成为图书馆学研究的热点。读者的借阅行为是读者最主要的信息行为之一,对读者借阅历史行为的客观记录进行分析,可以改变读者工作主观经验积累的现状,也是图书馆开展深层次服务工作的前提条件。同时,随着图书馆信息化的发展,馆藏信息资源的购买数量、比例分布都发生了明显的变化,对读者借阅行为的发展趋势进行分析和预测,可以了解纸质馆藏借阅的发展情况、变化规律,完成预测未来行为等决策性工作。而时间序列分析,作为统计分析预测的方法之一[2],可以对读者借阅行为进行良好的分析与预测。

2 研究方法及研究对象

所谓时间序列分析(Time Series Analysis),是一种动态数据处理的统计方法,该方法基于随机过程理论和数理统计学方法,研究随机数据序列所遵从的统计规律,以用于解决实际问题[3]。时间序列分析方法丰富多样,有不同的流派和方法,其中简单回归分析法、趋势外推法、指数平滑法等都是产生时间较长且较简单直观的分析方法。而B-J算法的ARMA、ARIMA模型等则是较新的、近期才逐渐受到关注的方法。这些方法对时间序列有着不同的考察角度,因而有着自己适合的分析领域和用途。本文根据读者借阅数据的序列特点,选取其中适合的三种模型分别进行比较分析。

通过华南师范大学图书馆(以下简称本馆)汇文文献信息服务系统中的统计模块,以2000年1月1日到2011年12月31日为限,收集一校三区图书馆(石牌校区、大学城校区、南海校区)11年以来的纸本中文图书的借阅信息,分别进行统计整理与分析。本研究使用SPSS17.0作为统计分析工具。

3 时间序列分析与预测

3.1 时序特性分析

为了建立适宜的时序模型,首先需要对序列的特性进行分析,即对时间序列的随机性、平稳性、季节性的判断分析。图1是根据正在流通的中文图书的借阅数据绘制的时序曲线图,即时序分布图。

图1 时序分布图

从图1直观地看,数据从2000年开始慢慢走高,在2008年开始回落,之后渐渐走低。序列是带有明显的趋势性、波动性、伴有周期性的季节变动的非平稳数据,且波动幅度不断增大。由于序列中数据较多,可以继续利用自相关函数图(自相关函数图是序列平稳性考察中首当其冲的图形工具,对识别时间序列的各种非平稳性和确定时序模型中的参数有非常重要的作用[2])进行序列判断。图2是本序列的自相关函数图,由图2可知,25阶自相关函数值大部分超出随机区间,序列为非平稳序列,具有趋势性、波动性变动,并在k=6、12、18、24处取值较大,再次确认序列具有明显的季节性。

图2 自相关函数图

运用时间序列分析法的关键就是模型选择,根据时间按序列的特性选择一个与实际过程相吻合的模型结果,即模型选择[3],不同的时序分析方法采用不同的工具选择模型。根据本序列的时序特征分析,可以初步选定三类模型:传统时序分析中的指数平滑模型(假设为A型)、随机时序分析中的ARIMA模型(B型)、季节分解模型(C型)。接下来分别阐述并比较三种模型。

图3 预测残差

3.2 指数平滑模型

指数平滑模型是在B-J方法产生之前最为常见的一种方法,它是在加权移动平均法的基础上形成,可以对不规则数据加以平滑,从而获得其变化规律和趋势,以此对未来的数据进行预测[4]。主要有三种方法:Simple、Holt、Winter。这些模型在其趋势和季节构成方面是不同的,根据对趋势和季节的不同假设,可任一选择相应的模型对不规则构成的时间序列进行平滑处理[5]。本序列采用季节性指数平滑WINTERS。统计结果显示:平稳的R方值为0.681,R方为0.853,从两个R方值来看,该指数平滑模型的拟合情况比较良好。残差的自相关图(ACF)和偏自相关图(PACF)如图3所示,可见两个图形都没有显著的趋势特征,故可以初步判断本序列所用模型比较适当。预测结果和拟合图形输出如图4所示,可以看出观测值与预测值的拟合情况,最初的几年拟合良好,之后前期不如后期。这与指数平滑模型的特点一致,指数平滑法的不足是模型有一定的不确定之处,预测只根据部分数据,对全部数据中的信息利用不足,因此如果是对2012年预测,可以选取比较临近的数据进行预测。下面介绍的ARIMA模型将对序列的整体趋势利用得更充分。

图4 指数平滑模型拟合值图

3.3 ARIMA随机时序模型

ARIMA是自回归综合移动平均模型(Autoregressive Integrated Moving Average Models),是随机性时间序列分析的代表性方法[2],也是时间序列分析模型中非常通用的方法[6],最常用于含有季节成分时间序列的分析[7],对于同时存在趋势性和季节性的序列,其模型一般记为 ARIMA(p,d,q)(P,D,Q)s,其中P、Q为季节性的自回归和移动平均阶数,D为季节差分的阶数,s为季节周期。ARIMA实际上是建立在平稳序列基础上的,因此首先要对非平稳数据转换为平稳序列。

3.3.1 数据平稳化处理

平稳化指根据序列的特点和分析的需要对数据进行必要的变换处理,目的使序列的特征体现得更加明显,利于模型的选择,包括阶差分、季节差分、对数转换等。过多平稳化处理的数据不能真实的反应数据的特点,但如果平稳化不足,也会给后面的预测带来很大的误差。由以上分析可知本序列具有趋势性及季节变动,可进行一阶逐期差分,发现序列在K=6,12时,自相关系数均较大,具有季节变动,对一阶差分序列再进行一阶季节差分,再绘制差分后序列的自相关图和偏自相关图,如图5、6所示,序列的趋势、季节变动消除,序列已基本平稳。

图5 平稳化后的自相关图

图6 平稳化的偏自相关图

3.3.2 参数确定

接下来,根据前面进行的差分过程,尝试建立ARIMA模型,并考察模型效果。AMIMA的完整形式是 ARIMA(p,d,q)(P,D,Q)s。平稳化处理中进行一阶逐期差分和一阶季节差分,得到了一个基本平稳的序列。于是模型中d和D应同时取1;从自相关图5看,1阶以后函数值明显趋于0,呈拖尾性,可取q为1,而12阶的函数值明显不为0,因此Q可取1;再看偏自相关图6,前3阶函数值均显著不为0,之后慢慢趋于0,因此P可取3或4,而第12阶值在线以内,因此P可取0。于是得到初步的模型形式为:ARIMA(3,1,1)(0,1,1)12或 ARIMA(4,1,1)(0,1,1)12,比较以后可选前者,模型分析结果如图7所示。

图7 ARIMA模型拟合图

3.4 季节分解模型

以上两种模型都是把季节性周期作为序列利用中的一个成分在预测时加以利用,而季节分解模型目的是将季节因素提取出来,从而更便于对剩余序列做进一步的分析[2]。季节分解法认为,时间序列有4种成分,分别是:趋势性T(Trend)、季节性S(Seasonal)、周期性P(Periodicity)和不规则波动性I(Irregular Variations)。这些成分通过不同的组合方式影响时间序列的变化,通常分为加法模型和乘法模型。加法模型的一般形式为Y=T+S+P+I,乘法模型的一般形式为Y=T×S×P×I。由于本序列具有趋势性及明显的季节性,因此在季节分解中应引入趋势因素、季节因素,序列上下波动幅度有增大的趋势,这点提示可以采用乘法模型。基本过程为先通过移动平均消除序列中的季节性和其他波动,再剔除趋势因素,计算出季节指数(SAF),之后剔除季节成分,得到季节调整的序列(SAS),再进行平滑处理得到循环波动序列(STC),最后根据STC值进行线性回归,预测2012年的借阅量。由SPSS进行季节分解,可以得到四个新变量:ERR(误差项)、SAS(季节调整)、SAF(季节指数)、STC_1(周期变化指数)。季节指数如图8所示,每年的2月是寒假,是借阅量第一个最低点,之后3月份开学是整年中借阅量最大的月份,之后一路走低,到8月份是整年借阅量的最低点,暑假开学后由于各类考试的增多,借阅量不断走高。对获得的STC值进行SPSS中的专家模型预测,将预测值与季节指数相乘,最终得到2012年的预测值。

图8 季节比率图

图9 季节分解法拟合图

4 分析、预测及结论

4.1 各模型比较分析

对历史数据拟合效果分析,由图4、7、9可以看出,三种模型的拟合效果都不错,他们对2012年预测如表1所示,将表格作折线图如图10所示。从三种模型对借阅量的拟合与试预测效果看,ARIMA模型的精度高于传统模型;在传统模型中,WINTERS指数平滑法效果略好于季节分解法。ARIMA模型适用于短期预测,若预测借阅量下一年各月的变化,在外界环境相对稳定的情况下,从实用的角度可选用 ARIMA(3,1,1)(0,1,1)12预测较好,若预测借阅量一段时期的变化,ARIMA模型可能不如传统时序模型。

表1 2012年1-11月借阅实际值与各模型预测值

图10 2012年1-11月借阅实际值与各模型预测值

4.2 各校区馆藏、借阅量比较分析

利用时间序列图的比较分析仍然可以发现一些有趣的结论,例如,对石牌校区、大学城两校区的馆藏及借阅年度增长量进行比较分析,如图11。可以看出,2006年到2012年两校区的馆藏增加量基本相同,两条曲线基本重合,都呈现逐渐下降的趋势,这主要是由于购书经费的减少以及采购策略的变化(逐步减少对纸本资源的购买力度,扩大电子资源的购买)。与之相应的两校区的借阅增长的幅度也逐渐下滑,下滑速度比馆藏的下滑速度更为明显。到2008年,由于当年政府招标采购出现误差造成新书到馆延迟,上半年基本没有新书入库,而上半年正是学生撰写毕业论文,导致2008年与2007年相比借阅量大幅下滑,增长量开始出现负值。

图11 两校区馆藏与借阅的增长量

另外,本馆近年来在暑假期间坚持开放,逐年延长开放时间,结合石牌校区借阅库室的划分,将社科书库(A-F与 H)、理科书库(N-Z)、文艺书库(IJK类)、教育书库(G类)的各年8月份借阅量及总量绘制在一起,如图12所示。2008年以前有波动,之后借阅量逐步升高,但2012年突然下滑,其中可能的原因与2012年暑假前夕将本馆的自修室取消有关。暑假期间是考研等各类考试的准备期,来馆自修也会间接地借阅图书。当然,读者借阅量的变化与馆藏入库新书量的变化、入馆人数是否有关,相关的程度又如何,还需进一步的验证。例如,可以对两校区2006年到2012年馆藏的增加量与借阅量进行一个积差相关(皮尔逊相关),可以得到二者在0.01水平(双侧)上显著相关,相关系数(r)=0.688,二者呈正相关。

图12 石牌校区历年8月份借阅量

4.3 图书馆应建立长效而深入的分析机制

从时间序列分析的预测结果看,读者借阅量的变化容易受到各种环境因素的干扰。例如,本研究中2004年我馆本科评估时购买大量的图书补充进来促使当时的借阅量上升明显,2008年由于招标采购的政策问题导致年底才有新书入库从而使当年借阅量大幅下降,2012年暑假石牌校区库室调整关闭自修室导致8月份借阅量显著下滑。而外部环境的剧烈变化造成借阅量的波动都会对时间序列预测结果的精度产生影响。可以说,目前读者工作的开展更多地停留在主观经验的积累,这种形式的积累不利于传承,不利于应用,也使得政策决策缺乏客观依据。那么如何客观有效地把握馆藏利用的动态规律、读者阅读心理与行为的内在机制呢?基于图书馆自动化信息系统,对其积攒的大量馆藏及利用数据进行客观、深入、长效的统计分析就是一种思路,这种分析不是短期的、个体馆员的零散行为,而是长期的、深入的图书馆的机构行为。将图书馆的统计分析成为各级馆员都能动态掌握的工具,作为工作的常态进行开展,将读者借阅看成是有生命的有机体,倾听其中传递的声音,制定相应灵活、适用于本馆的规则与决策,使读者工作变得鲜活。

[1]李桂华.信息服务设计与管理[M].北京:清华大学出版社,2009:1-245.

[2]薛微.SPSS统计分析方法及应用[M].北京:电子工业出版社,2004:402-407.

[3]冯力.统计学实验[M].大连:东北财经大学出版社,2008:134-142.

[4]刘震,吴广,丁维岱,等.SPSS统计分析与应用[M].北京:电子工业出版社,2011:339-363.

[5]吕振通,张凌云.SPSS统计分析与应用[M].北京:机械工业出版社,2009:253-257.

[6]胡平,崔文田,徐青川.应用统计分析教学实践案例集[M].北京:清华大学出版社,2007:30-34.

[7]黄润龙.数据统计分析——SPSS原理及应用[M].北京:高等教育出版社,2010:310-318.

猜你喜欢

时序校区差分
成都医学院新都校区南大门
成都医学院新都校区一角
基于Sentinel-2时序NDVI的麦冬识别研究
数列与差分
山东大学青岛校区
基于FPGA 的时序信号光纤传输系统
我校临安校区简介
一种毫米波放大器时序直流电源的设计
基于差分隐私的大数据隐私保护
相对差分单项测距△DOR