基于小波支持向量机的图书馆借阅量预测
2020-06-30余梦媛
余梦媛
摘 要: 当前图书馆借阅量预测方法无法描述混沌性等非平稳变化特征,导致图书馆借阅量预测错误差大,为了改善图书馆借阅量的预测效果,設计了基于小波支持向量机的图书馆借阅量预测方法。首先对当前国内外图书馆借阅量的预测研究现状进行分析,找到引起图书馆借阅预测误差大的原因,然后收集图书馆借阅量预测的历史数据,并通过混沌分析算法对历史数据进行重新构造,并引入小波支持向量机实现图书馆借阅量预测模型的建立,最后与其它图书馆借阅量的预测方法在相同环境进行对比测试。提出的方法可以对图书馆借阅量的变化特征进行深度挖掘,图书馆借阅量预测精度超过95%,高于对比方法图书馆借阅量预测精度,获得更加可靠的图书馆借阅量的建模和预测结果。
关键词: 图书借阅量; 混沌性特征; 数据挖掘; 混沌分析算法
中图分类号: TP 393 文献标志码: A
Prediction of Library Loan Volume Based on Wavelet Support Vector Machine
YU Mengyuan
(Department of Library, Henan Polytechnic Institute, Nanyang, Henan 473000, China)
Abstract:
Current library borrowing forecasting methods cannot describe the non-stationary change characteristics such as chaos, which leads to great error in library borrowing forecasting. In order to improve the forecasting effect of library borrowing, a library borrowing forecasting method based on wavelet support vector machine (WSVM) is designed. Firstly, this paper analyzes the current situation of the prediction of library borrowing volume at home and abroad, finds out the reasons for the large error in the prediction of library borrowing volume, then collects the historical data of library borrowing volume prediction, reconstructs the historical data through chaotic analysis algorithm, and introduces the wavelet support vector machine to establish the prediction model of library borrowing volume. Finally, it establishes the prediction model of library borrowing volume. The forecasting methods of library borrowing volume are tested in the same environment. The presented method can deeply mine the changing characteristics of library borrowing volume. The prediction accuracy of library borrowing volume exceeds 95%, which is higher than that of the comparative methods. It can obtain more reliable model and prediction results of library borrowing volume.
Key words:
book borrowing; chaotic characteristics; data mining; chaotic analysis algorithm
0 引言
随着高校招生规模的不断扩大,高校学生人数猛增,高校图书馆使用频率越来越高,而图书馆借阅量预测结果是衡量一个学校图书馆信息系统一个重要评价指标[1-3]。图书馆借阅量的预测可以帮助图书馆管理人员了解学生喜欢那类图书,可以对图书进行有效管理,提高图书馆中图书的利用率,同时可以帮助学生快速借到自己真正需要的图书,因此图书馆借阅量的建模和预测结果对图书馆智能化管理具有重要研究意义[4-6]。
针对图书馆借阅量的建模和预测问题,国外的研究起步比较早,而且技术也比较成熟,而国内的研究虽然起步比较晚,但是我国投入了大量的人力、财力对图书馆借阅量的建模和预测问题,发展势头十分好[7-8]。图书馆借阅量的建模和预测研究可以划为两类2方法,一种是基于线性理论图书馆借阅量的预测方法,主要为回归分析算法、灰色模型等,它们通过对图书馆借阅量相关数据进行分析,估计图书馆借阅量预测模型的参数,对于小规模图书馆,其它预测效果比较好[9],但是对于大型图书馆,它们借阅量预测精度比较低,这是因为现代图书馆借阅量不只具有线性变化特征,由于受到学生、图书馆环境、图书种类等影响,具有一定的混沌性,这样无法建立精确的图书馆借阅量预测模型。另一种是基于非线性理论图书馆借阅量的预测方法,引入了混沌分析算法、神经网络、对图书馆借阅量的变化特征进行分析和描述,相于线线预测方法,该类方法的图书馆借阅量的建模和预测效果更优[10-12]。但是神经网络是一种基于经验风险小化的非线性预测方法,对图书馆借阅量的历史数据规模有要求,因此图书馆借阅量预测结果不太稳定,而对于复杂多变的图书馆借阅量,混沌分析算法只能从一个方向对其特征进行描述,图书馆借阅量预测效果有待改善,因此图书馆借阅量的预测仍然是当前高校和各种科研院所关注的焦点[12-14]。
针对混沌分析算法、神经网络等图书馆借阅量的预测方法预测错误差大的难题,以高图书馆借阅量预测精度为目标,提出了基于小波支持向量机的图书馆借阅量预测方法,引入数据挖掘技术中的小波支持向量和混沌分析算法联合对图书馆借阅量进行预测,通过采用具体图书馆借阅量历史数据对该方法性能进行测试。本文方法能够有效描述图书馆借阅量的变化特征,图书馆借阅量预测精度超过95%,远远高于图书馆管理系统中对借阅量预测精度要求,而且预测效果要明显优于其它方法,验证了本文方法的可行性和优越性。
2 基于小波支持向量机的图书馆借阅量预测模方法
2.1 混沌分析算法
现代图书馆借阅量不只具有线性变化特征,由于受到学生、图书馆环境、图书种类等影响,具有一定的混沌性,如果直接将图书馆借阅量的历史数据xi,i=1,2,…,N进行建模,那么无法准确找到图书馆借阅量的历史数据隐藏的变化特征,因此采用混沌分析算法对图书馆借阅量的历史数据xi,i=1,2,…,N进行分析和处理,实现重新构造,得到一个新的对图书馆借阅量的历史数据,即建模的学习样本,具体如式(1)所示。
式中,m表示图书馆借阅量的嵌入维数,τ表示历史数据的时间延迟数量。
2.2 数据挖掘技术
当前数据挖掘技术的类型很多,状态回声网络、极限学习,支持向量机等,其中支持向量机的建模效果以用通用性更好,因此本文选择其进行图书馆借阅量的建模和预测。图书馆借阅量历史数据样本数量为:n,它们组成一个集合:{(xi,yi),i=1,2,…,n},采用函数φ(x)对图书馆借阅量历史样本进行映射,并建立如下形式图书馆借阅量预测的回归方法如式(2)所示。
式中,ω为权值向量,b为偏置向量。
要得到图书馆借阅量预测结果,首先要对ω和b进行准确估计,通过引入惩罚参数(C)得到如下的最小化形式如式(3)所示。
2.3 小波函数
从式(6)可知,要建立最优的图书馆借阅量预测模型,就需确定最合理核函数k(x,xi),当前核函数很多,但是都有它们各自的局限性,而小波函数具有较好的性能,本文选择其构建最合理的核函数k(x,xi)。小波函数ψ(x)通过平移因子a和伸缩因子b是到许多小波函数组合,具体如式(8)所示。
2.4 图书馆借阅量预测步骤
(1) 针对一个具体的大学图书馆,与图书馆管理系统的管理员进行联系,从图书馆管理系统中导出图书馆借阅量的历史数据。
(2) 采用混沌分析算法对书馆借阅量的历史数据进行分析和处理,确定图书馆借阅量的嵌入维数和历史数据的时间延迟数量。
(3) 根据图书馆借阅量的嵌入维数和历史数据的时间延迟数量,建立图书馆借阅量建模学习样本。
(4) 初始化小波支持向量机的参数,如惩罚参数(C)的值,小波函数的a和b的值。
(5) 采用小波支持向量机对图书馆借阅量建模学习样本进行训练,建立图书馆借阅量预测模型。具体如图1所示
3 图书馆借阅量建模和预测的实例研究
3.1 图书馆借阅量数据来源
为了分析基于小波支持向量机的图书馆借阅量预测方法的性能,采用某大学图书馆的日借阅量历史数据进行实例分析,具体如图2所示。实验平台为:Intel 酷睿i9 9900K CPU,影驰ONE 240G SDD 硬盘,芝奇Ripjaws4 DDR4 8G RAM, Win10 OS。
3.2 图书馆数据的混沌分析算法处理
采用混沌分析算法分析对图2中的图书馆借阅量历史样本数据进行分析,得到图书馆借阅量的嵌入维数和历史数据的时间延迟值分别为:10和7,根据它们的值建立图书馆借阅量学习样本数据,选择最后100个数据作为验证样本,其它为拟合样本。
3.3 本方法的图书馆借阅量预测性能分析
采用数据挖掘技术对图书馆借阅量的历史数据进行拟合和预测,结果如图3所示。
对从图3可知,本文方法的图书馆借阅量拟合效果要优于验证效果,但是它们的图书馆借阅量预测精度均相当高,可以满足图书馆管理的实际应用要求。
3.4 与其它图书馆借阅量预测性能对比
为了体现基于小波支持向量机的图书馆借阅量预测方法的优越性,选择回归分析方法、RBF神经网络的图书馆借阅量预测方法进行对比测试。统计它们的图书馆借阅量预测精度以及建模时间,结果表1所示。
对表图书馆借阅量预测精度和建模时间进行分析可以知道
(1) 本文模型的图书馆借阅量拟合和预测精度要优于回归分析方法、RBF神经网络的图书馆借阅量预测精度,降低了图书馆借阅量预测误差,图书馆借阅量预测结果更加可信。
(2) 本文模型的图书馆借阅量建模时间要小于回归分析方法、RBF神经网络的图书馆借阅量建模,提高了图书馆借阅量建模速度,图书馆借阅量建模效率得到明显改善。
4 总结
为了解决当前图书馆借阅量的预测方法存在的缺陷,设计了小波支持向量机的图书馆借阅量预测方法,在相同环境下,与其它图书馆借阅量的预测方法进行了对比测试,本文方法提高了图书馆借阅量预测精度,而且高于对比方法的图书馆借阅量预测精度,图书馆借阅量的建模速度更快,具有广泛的应用前景。
参考文献
[1] 马蕾. 基于流通数据分析的高校图书馆馆藏资源建设研究——以长江大学武汉校区图书馆中文图书为例[J]. 农业图书情报学刊, 2016, 28(11): 37-41.
[2] 胡乌仁. 大数据环境下高校图书馆读者阅读趋势及特点分析——以内蒙古师范大学图书馆为例[J].内蒙古财经大学学报, 2016, 14(4): 144-148.
[3] 茹文,忻展红. 图书馆借阅数据分类信息的关联性研究[J]. 北京邮电大学学报(社会科学版), 2016,18(1):14-19.
[4] 乔慧君,周筠珺. 高校图书馆借阅率与学生学习状态关系研究[J].大学图书馆学报, 2015, 33(1): 55-60.
[5] 张丽萍,杨琳,王雨荷.基于用户借阅行为的馆藏资源使用挖掘研究[J].图书馆理论与实践, 2014,21(9):9-12.
[6] 赵楠. 高校图书馆读者借阅行为分析及导读策略研究[J]. 赤峰学院学报(自然科学版), 2014, 30(10): 96-97.
[7] 邹梅. 图书借阅量下降原因及对策[J].吉林工程技术师范学院学报,2013,29(7):54-55.
[8] 姬曼姝. 高校图书馆流通借阅现状的统计分析——以内蒙古师范大学图书馆为例[J].图书情报工作,2013,57(S1):178-181.
[9] 吴佳慧. 高校图书馆馆际借阅服务影响效应的实证测度——基于南京部分高校圖书馆的调查数据[J]. 图书馆,2018(11):99-105.
[10] 许志荣,陈倩,过榴晓. 基于时间序列分析的高校图书馆借阅量研究——以江南大学图书馆为例[J].农业图书情报学刊, 2018, 30(10): 107-110.
[11] 宋妍,肖希明. 基于GM(1,1)模型的大学图书馆文献借阅量预测与分析[J]. 云南师范大学学报(自然科学版),2018,38(6):35-39.
[12] 王蓉.基于云计算平台的高校图书馆借阅信息管理系统[J].现代电子技术, 2018, 41(13): 182-186.
[13] 李树青,庄光光,秦嘉杭,等.借阅场景下图书专业性质量测度方法和图书个性化推荐服务方法[J].图书情报工作,2018,62(11):53-63.
[14] 刘春霞.支持向量机的用户借阅行为分析——以河南理工大学图书馆为例[J].图书情报导刊,2017,2(8):1-8.
(收稿日期: 2019.05.10)