图书借阅量的智能计算研究
2017-09-02马微
摘 要:图书借阅量是评价图书馆服务的重要参考指标,而数据分析与智能计算可以得到图书借阅量与入藏量的某种拟合关系。通过数据降维处理与人工智能训练,可以量化这种拟合。最后,对图书馆员提出相应的改善措施,进而提高图书的借阅量。
关键词:图书;借阅量;智能计算;数据分析
基金项目:陕西省教育厅专项科研计划项目(编号:16JK1521)。
0 引言
高校图书馆的图书借阅量是评价其服务的重要参考指标,如何更好地服务高校师生阅读,提高图书馆文献资源的使用量,是图书馆员需要思考的重要问题。因此研究图书馆图书借阅量的统计数据,分析其发展变化规律,对于图书借阅量的管理工作具有重要意义。
国内诸多学者对图书借阅量开展大量研究工作。田梅采用支持向量机作为建模工具,利用混沌时间序列理论对图书借阅流量行为进行建模[1]。张惠玲为精准获取各类图书的剔旧书龄,构建图书平均借阅次数和书龄之间的回归模型[2]。邹梅利用神经网络技术,通过分析影响图书借阅量的几大要素得到最可靠的逻辑表达式,进而预测下年度的借阅量[3]。邓奇强等对依据文献老化定律,利用TP类图书的老化曲线方程预测其借阅量[4]。李静利用Excel函数,阐述了回归方程的计算方法及图书馆借阅量的预测趋势曲线[5]。
在上述研究中,已有学者采用智能计算方法,如支持向量机、神经网络技术等,但这些方法技术依然存在一些缺点,在输入数据维度较高时,容易导致其计算网络结构臃肿,造成训练拟合欠缺[6]。而数据降维方法可以优选出与目标因素关联度较高的影响因素,从而剔除影响较小的指标,达到简化学习网络结构的目的。因此,本文混合數据降维和智能方法探讨图书借阅量计算。
1 图书借阅量
图书借阅量是全校师生借阅图书的总册次数,影响其数值的因素有很多,最为直接的即为图书馆新入藏的图书数量。新入藏的图书数量是由文献资源建设部门进行调研后展开订购工作,其采购工作主要是按照中图法的22个基本大类进行。由于每年采购图书的数量种类不同,因此每年这22个大类的新入藏图书量也有相应的变化,从而直接影响到该年的图书借阅量。而通过历年的数据分析其规律变化,可以获取到图书借阅量与这22个基本大类图书入藏量的某种拟合关系。
2 研究步骤
为了获取上述这种拟合关系,文章通过数据分析与智能计算进行探讨。研究步骤主要包括下述几个方面:数据预处理,获取历年的图书入藏量与借阅量;数据降维,将图书入藏量的22个数据尽可能保留其特征分布的情况下,减少数据输入数量;智能方法训练,主要采用人工神经网络等方法对已有数据进行训练拟合;测试,将训练好的人工神经网络进行测试,验证其正确性。
2.1 数据降维
数据降维是指高维数据化为低维度数据的操作,常用的数据降维方法有2种,灰色关联分析与主成分分析,分述如下:
(1)灰色关联分析:根据因素之间发展趋势的相似或相异程度来衡量因素间关联程度的一种方法。其计算步骤包括:a.确定参考数列和比较数列;b.无量纲化处理;c.求灰色关联系数;d.求关联度,即关联系数的平均值;e.关联度排序。
(2) 主成分分析:一种线性输入降维技术,它的目的是将高维数据投影到较低维空间,即求得一个k维特征的变换矩阵,这个变换矩阵可以将特征从高维降到低维。特征向量都是正交的,通过求取样本矩阵的协方差矩阵,可以获得协方差矩阵的特征向量,构成变换矩阵。
2.2 智能方法训练
智能方法训练主要是对人工神经网络进行训练,通过已知的输入数据和输出结果(图书借阅量)对人工神经网络进行学习。常用的人工神经网络有BP神经网络以及近年兴起的深度学习,分述如下:
(1)BP神经网络:多层前馈神经网络,信号前向传递,误差反向传播。根据预测误差调整网络权值和阈值。拓扑结构一般为3层的神经元单位组成,其训练步骤包括:a.网络初始化;b.隐含层输出计算;c.输出层输出计算;d.误差计算;e.权值更新;f.阈值更新;g.判断算法是否结束,若没有结束,返回b。
(2)深度学习[7]:深度学习架构由多层非线性运算单元组成,每个较低层的输出作为更高层的输入,可以从大量输入数据中学习有效的特征表示。深度学习具有许多优点:a.实现高变函数等复杂高维函数的表示;b.减少计算的复杂度;c.人类大脑皮层的最好模拟;d.在类似的不同任务中重复共享使用。典型的深度学习模型有卷积神经网络、DBN和堆栈自编码网络。
2.3 测试
为了检验智能方法计算的准确性,需要对数据进行测试,与真实结果比对后才能确定智能计算的有效性。一般将数据分为3个部分:训练集(60%),验证集(20%)和测试集(20%),其中训练集和验证集的数据用于智能方法训练种,然后用没有参加训练的测试集数据对训练好的智能方法进行计算获取输出结果,以此评价智能计算方法的优劣。
在得到训练好的有效智能计算方法后,可以通过输入今年预定采购的图书入藏量计算相应的图书借阅量,不断调整22个大类图书的入藏数量,将得到不同的借阅量值。因此,也帮助图书馆员进行服务整改措施,最终达到提高图书借阅量的目的。
3 结论
文章通过数据分析与智能计算阐述如何研究图书借阅量与入藏量的拟合关系。通过数据降维处理与智能方法训练,可以量化这种拟合。在得到训练好的有效智能计算方法后,可以通过输入预定采购的图书入藏量计算图书借阅量。不断调整这些图书入藏数量,将得到不同的借阅量值,进而对图书馆员如何提高图书借阅量有一定启示。
参考文献
[1]田梅.基于混沌时间序列模型的图书借阅流量预测研究[J].图书馆理论与实践,2013(7):1-3,26.
[2]张惠玲.基于书龄分析的图书剔旧实证研究[J].图书馆论坛,2013,33(4):126-129.
[3]邹梅.利用神经网络技术预测图书借阅量[J].兰台世界,2013(20):135-136.
[4]邓奇强,熊燕,郭锋.文献老化在图书馆书目挖掘中的应用研究[J].图书情报工作,2013,57(6):91-96.
[5]李静.Excel函数图表功能在文献统计预测中的应用[J].内蒙古科技与经济,2017(1):97-99.
[6]史峰,王小川,郁磊,等.MATLAB神经网络30个案例分析[M].北京:北京航空航天大学出版社,2010:11-20.
[7]刘建伟,刘媛,罗雄麟.深度学习研究进展[J].计算机应用研究,2014,31(7):1921-1928.
作者简介
马微(1988-),男,汉族,陕西铜川人,硕士,助理馆员,研究方向:数据分析,图书情报。endprint