基于数据挖掘的图书订购预测
2013-09-26谢丹玫翁淳光
谢丹玫 陈 麓 金 蕾 翁淳光
(1.上海电机学院图书馆 上海 200045;2.重庆医科大学图书馆 重庆 400016)
·资源建设·
基于数据挖掘的图书订购预测
谢丹玫1陈 麓2金 蕾2翁淳光2
(1.上海电机学院图书馆 上海 200045;2.重庆医科大学图书馆 重庆 400016)
用相关分析和回归分析方法,挖掘图书馆的图书流通数据与图书订购数据的联系,建立该联系的数学模型,并提出一种以建立的模型为工具由流通数据的分布预测图书订购资金分配的方法。
数据挖掘 相关分析 曲线拟合 数学模型 图书流通
数据挖掘是挖掘隐含于数据中的知识和数据间的联系。本文将用相关分析和回归分析方法,挖掘图书馆图书流通数据与图书订购数据之间的联系,建立该联系的数学模型。图书馆图书流通反映了读者对图书的需求,图书的订购相当于供给。图书流通与图书订购的关系,相当于需求与供给的关系。需求决定供给,这是商品经济的规律。图书流通分析的重要方向是分析图书流通与订购的关系,也就是要挖掘图书流通数据与订购数据的关系(联系),由流通指导订购。
研究图书流通与图书采购的关系,用图书流通的分布指导采购资金的分配,使采购资金的分配建立在更加科学合理的基础上,避免图书采购的主观性和片面性,最大限度地满足读者需求,是图书馆图书采购工作应该追求的目标。
近年来张亮等研究者提出了“图书馆预测学”的概念[1,2],还对“流通-采购-剔旧”提出了灰色预测模型[3]。本文的研究属于图书馆预测学的范畴,以重庆医科大学图书馆的图书流通与采购数据为例,挖掘流通数据与采购数据的关系,提出以流通导向采购的观点。
1 数据来源与数据预处理
1.1 数据处理工具
数据处理工具为SPSS13.0中文汉化版。原始数据由金盘图书集成管理系统4.015版导入。
1.2 数据来源
原始数据来自重庆医科大学图书馆的中文图书流通数据与订购数据。统计时间为2001年至2010年。原始数据由金盘图书集成管理系统4.015版,按中国图书馆图书分类法逐类统计输出。流通数据由其中的流通控制模块输出。订购数据由典藏管理模块和采购编目管理模块输出。基础数据(一次数据或原始数据)如表1 A、B、D和F列。由基础数据通过SPSS计算出的二次数据如表1 C、E、G和J列。
表1 原始数据及二次数据
① 流通率指图书流通(借阅)册数的百分率,即该类图书流通册数与流通图书的总册数之比的百分数表示。C(i)= 100*B(i)/ΣB(i)。下同。
② 订购率指图书订购册数的百分率: E(i)= 100*D(i)/ΣD(i)。下同。
③ 订金率是指图书订购金额的百分率: G(i)= 100*F(i)/ΣF(i)。下同。
④ 平均书价是指将流通图书的价格统一换算成统计年代内平均书价: H(i)= F(i)/D(i)。下同。
⑤ 流通价值是指将流通书籍的册数按统计时间内平均书价折算成价值的流通,流通价值计算为: I(i)=B(i)*H(i)。下同。
⑥ 流通价值率即流通价值的百分率:J(i)=100*I(i)/ΣI(i)。下同。
1.3 数据预处理
(1)图书均价计算
由于不同种类图书的均价不同,同样流通一册的流通价值是不同的。因此我们把流通册数按10年的订购均价(由订购金额(F)/订购册数(D)算出)作为流通图书的平均价格:
H(i)=F(i)/D(I)
(1)
式中,H(i), F(i), D(i)列向量见表1至表4。
(2)流通价值的计算
以流通册数计算效益不很合理,因为有的类型的书价低(如语言类,均价<20元,文学类,均价<26元,见表1中的I列),有些类型的书价高(如医学类,均价>46元)。就流通价值来讲,一本医学书的流通就价值约相当于两本文学类图书的流通,因此折算成以流通册数×图书均价的流通价值(即表1的J列的流通金额)比较合理。这样,图书的流通相当于价值的流通。流通价值I(i)的计算如下:
I(i)=B(i)*H(i)
(2)
式中,I(i), B(i), H(i)列向量见表1至表4。
表2 按投入率和流通价值率的排序结果
注 * 投入率G(i)即订金率。
(3)流通价值率
流通价值率J(i)是指流通价值的百分率。J(i)计算如下:
J(i)=100*I(i)/ΣI(i)
(3)
(4)排序分析
表2给出了按流通价值率J(i)和按投入(订金)率G(i)的降序排序结果。可以看出,医药卫生类都是排第一,这同本校是医学类院校相吻合。
2 相关分析
一般来说,没有读者借阅因而没有流通率的图书是不需要再订购的,因此订购与流通应该有线性相关性。相关性好,说明订购符合流通的需求;否则可改进订购资金分配以符合流通需求。表1所列例子的流通价值率J(i)列与订金率(投入率)G(i)列的百分比的相关系数rJG按下式计算[4-6]:
(4)
对于去除了均值的数据,有
(5)
如果rJG>0.95,则评价为极高度相关;如果0.95≥rJG≥0.80,则评价为高度相关;如果0.80≥rJG≥0.50,则评价为中度相关;如果0.50≥rJG≥0.30,则评价为低度相关;如果rJG<0.30,则评价为极弱相关;rJG=0,则评价为不相关,或相互独立,或相互正交。用SPSS分析流通价值率J(i)与订金率G(i)的相关性的结果摘要如表3,相关系数rJG=0.8862,表明J(i)与G(i)接近高度相关。
表3 流通价值率J(i)与订金率G(i)的相关分析结果摘要
3 曲线拟合
相关分析只是从总体上评价了流通价值率J(i)与订金率G(i)的线性相关性。为了解决由流通预报投入(订购)的问题,必须要知道流通与订购的定量关系,即建立由流通预报订购的数学模型。我们假定流通价值率与订购率的线性相关关系是通过原点(0,0)的一条直线,可建立一种特殊的线性预报数学模型,即正比模型*见EXCEL软件包的LINEST()函数的帮助文档[6]:
(6)
(β*J(i)-G(i))2=ε
(7)
的值最小。根据求极值方法可得:
(8)
由表1的对应数据可算得,β=1.0329,故(7)式变为:
(9)
(10)
表(4)中的RES(i)列表示相对残差,RES(23)=7.1667为相对残差平方和。应该注意的是,相对残差平方和与样本数有关,故可以认为,采用平均相对残差平方和估计拟合优度更为恰当,因为该参数既不与样本大小有关,也不与样本的数值大小有关,只与拟合的优劣有关。表4中,RES(24)=0.3258即表示平均相对残差平方和。
表4 正比回归方程的预测值及其方差和相对残差
4 加权系数
(11)
则
(12)
W(i)的计算结果列于表4的W(加权系数)列。可以计算出Max(W(i))=W(20):航空航天=2.8749,Min(W(i))=W(9):文学=0.3722。有了加权系数W(i)后,就能使我们能明显看出,加权是否合理,使图书订购人员能更科学地、更主动地调整加权系数,以使图书订购建立在更加合理和科学的基础上。应该指出的是:这些都是假定投入分配应与流通成正比的条件下得到的。该模型压低了文学类具有高流通的图书的权重系数是合理的。
5 投入效益
图书馆具有图书资源综合利用的优点,闲置更少。我们使用投入(订购)效益来量化这种优点。投入效益定义为流通价值率J(i)与订金率G(i)之比。投入效益X(i)计算如下:
X(i)=J(i)/G(i)
(13)
对于原始数据G(i),投入效益列于表4的Xo(i)列,对于预测数据 ,投入效益列于表4的Xp(i)列。可以看出,平均预测效益Xp(24)(=0.9681)大于平均原始效益Xo(24)(=0.8580)。总体预测效益Xp(23)(=21.2993)大于平均原始效益Xo(23)(=18.8770),这意味着按统计预测优化投入(订购金额)分配提高了效益。对于分项目的效益增减情况,列于表4的Δ(i)列,“+”号表示预测效益大于原始效益,“-”号表示预测效益小于原始效益。由表4可见效益减少的有5项,效益增加的有17项。表4的预测效益的均值表明,流通价值率略低于投入(金额)率,原始效益更低一些。这项指标可以客观评价图书馆参加流通图书的利用效率。
6 讨论
(1)原始数据的选取
本文中选取来进行分析的成对数据是由原始数据流通价值I(i)与订购金额F(i)经归一化后导出的二次数据流通价值率J(i)和订金率G(i),皆是百分值。这样做的优点是预测的结果也是百分值。如果假定未来一年的流通率不会改变,就可以由式(10)确定下一年的订购金额分配,与下一年整体投入多少无关。不过应该首先使归一化,但是归一化的结果就是J(i)。这个结果正可由(10)式说明。
(2)加权系数的使用
增大加权系数,意味着加大投入。如医药卫生,现有的加权系数为1.351 0,流通价值率为37.395 1。如果我们将加权系数调到原系数的2倍:2.702 0,则投入应调为:新加权系数*正比系数(公式(8)的β)*流通价值率=2.7020*1.0329*37.3951=104.3658,就是说要提高投入2倍。由于某种原因(如馆藏数据[6]、专业倾向等)调整了加权系数后,要重算与流通有关的数据,包括流通金额和流通价值率,因为这时流通有关的数据分布将有变化。
(3)流通数据的预测
以现有流通数据预测未来一年的订购数据,隐含下一年的流通数据与现有的流通数据在统计上是相同的。这样做也有一定的合理性:流通数据一般比较稳定。但是,下一年的流通数据一般与现有数据不完全相同。更细致一些的做法是选择适合的预测模型,用过去的流通数据预测未来的流通数据。只要客观环境没有剧烈变化,这种预测有一定的合理性。但预测毕竟是预测,再好的预测模型也不会与实际结果完全相同。 本文研究流通与订购的关系是为了使订购计划建立在更加科学合理的基础上,更有效地使用资金,使订购与流通的关系更加符合市场经济规律。
[1] 张 亮,宫 宇. 试论图书馆预测学[J].图书馆界,2006(3):33-36.
[2] 张 亮. 图书馆预测学论纲[J]. 现代情报,2010(5):18-20.
[3] 陶 然,张 亮. 图书馆文献相对平衡流动系统灰预测模型构建[J]. 情报探索,2011(10):23-26.
[4] 王 璐. SPSS-统计分析基础、应用与实践[M]. 北京:化学工业出版社,2010:170-217.
[5] 薛 薇. 统计分析与SPSS应用[M]. 北京:中国人民大学出版社,2001:185-217.
[6] 向 阳,谢邦昌. 统计学方法与应用[M]. 北京:中国人民大学出版社,2009:118-150.
(责任编校 骆雪松)
Data-mining-basedPredictionoftheBookOrderingofLibraries
Xie Danmei1, Chen Lu2, Jin Lei2, Weng Chunguang2
1. Shanghai Dianji University Library, Shanghai 200045, China; 2. Chongqing Medical University Library, Chongqing 400016, China
The relationship between the data of book circulation and that of book ordering was mined by means of correlation and regression analysis and a mathematical model of the relationship was built. And a fund allocation method was proposed for the prediction of book ordering by the built model and the distribution of the circulation data.
data mining; correlation analysis; curve fit; mathematical model; book circulation
G253
谢丹玫,女,1968年生,副研究馆员,发表论文16篇;陈 麓,男,1971年生,馆员,发表论文2篇;金 蕾,女,1972年生,馆员,发表论文4篇;翁淳光,女,1953年生,研究馆员,发表论文39篇。
猜你喜欢
——以沈阳理工大学图书馆为例