基于决策树算法的高校图书馆借阅逾期预警系统
2023-07-17胡少霞
胡少霞
(泰山护理职业学院,山东 泰安 271000)
0 引言
为了最大限度地提高图书的有效利用率,高校图书馆实施科学的管理措施是十分必要的。从图书利用率的角度分析,借阅逾期是主要的影响因素之一[1]。出现借阅逾期的原因如下:一方面是学生借阅时间的设置低于实际阅读需求时间,导致难以按时还书;另一方面是时间较长,学生或教师忘记了图书的具体借阅日期以及规定的还书日期[2]。针对上述2 种情况,结合实际的图书馆管理需求,在图书借阅逾期前实施及时有效的针对性预警是十分必要的。针对该问题,文献[3]提出了一种以GSM 为基础的图书馆借阅逾期自动系统,该系统具有良好的实际应用效果,但是其应用的前提是借阅时间统一,这在一定程度上降低了图书馆的借阅服务质量;文献[4]提出以人数为基础的预警平台设计研究,具有良好的预警效果,但是其预警的全面性仍存在进一步提升的空间。对上述图书馆借阅逾期预警系统进行分析后可以发现,进一步加深相关研究仍然具有十分重要的现实价值。
以此为基础,该文充分利用决策树算法的优势,提出了一种基于决策树算法的高校图书馆借阅逾期预警系统设计研究,并通过对比测试分析了该设计系统的预警效果。
1 决策树(Decision Tree)分类算法及构建
决策树又称判树。它是一种与流程图相似的树结构。在这一树结构中,每一个内部结点代表一个属性上的测试,每一个分支代表一个测试输出,而每一个叶子结点代表一个类或类分布。对未知的样本数据进行分类,应先从树根入手,对这个对象的特征进行逐个检测,然后沿着这个分支一直往下进行,直到抵达某个叶子结点,这个结点所表示的类就是这个对象所属的类。
在数据仓库建立后,首先应依据决策树构建的目标提取修正如表1 所示的多维数据集。从表1 中选择年份、姓名、图书借阅率以及文理科属性作为类别标识属性,从候选属性中选择“图书借阅率、文理科”作为决策树的决策属性集。由表1 可知,初始时刻属于u1图书借阅率类和u2文理科类的实例个数分别为57 个和43 个,因此可得到公式(1)。
表1 训练样本
式中:u1为图书借阅率;u2为文理科类的实例个数;P为类别属性出现预警的概率。
给定样本的信息嫡如公式(2)所示。
图书借阅率=“0”,正例为18,反例为6,其信息嫡如公式(3)所示。
图书借阅率=“1”,正例为29,反例为9,其信息嫡如公式(4)所示。
图书借阅率=“2”,正例为9,反例为18,其信息嫡如公式(5)所示。
同上述其他公式一样列出过程
图书借阅率=“3”,正例为1,反例为10,其信息嫡如公式(6)所示。
如果选取图书借阅率作为分类属性,那么条件嫡如公式(7)所示。
2 硬件设计
2.1 储存装置设计
基于高校图书馆借阅数据规模和数据流量较大的特点,高校须对相关借阅数据进行完整、有效地储存,才能够切实保证借阅逾期预警系统实现对全体成员的全覆盖[5]。针对此问题,该文将具有标准6U 5HP VPX 架构的FKG-VPXV7-M8 作为系统的存储装置。表2 为FKG-VPXV7-M8 的基本运行参数设置情况。
表2 FKG-VPXV7-M8 的基本运行参数设置情况
结合表2 中的参数信息可以看出,FKG-VPXV7-M8 具有带宽高、容量大的特点,其提供的标准exFAT 文件系统可以对高校图书馆借阅数据进行采集、记录、存储以及管理。借助上述配置,FKG-VPXV7-M8 还具有实时记录功能、数据回放功能、数据访问功能、文件在线管理功能、自检及故障检测功能和异常容错保护机制等功能。
2.2 开发板设计
为了实现对高校图书馆借阅逾期情况的及时预警,须结合借阅信息对相关数据进行适应性分析,因此需要功能强大的开发板作出系统的核心。该文选择Xilinx Zynq-7010 的MYC-Y7Z010-V2 作为系统的开发板,其搭载了ARM+FPGA全可编程处理器,且完美支持4.14.0 内核的Linux OS 系统,采用94PIN(FPGA)邮票孔连接,具有较高的抗冲击性能。除此之外,MYC-Y7Z010-V2 的ARM 与FPGA 通信方式采用了AXI 高速片上总线通信机制,在吉比特级带宽的支持下,避免了传统ARM+FPGA 架构的通信限制。图1 为MYC-Y7Z010-V2的FPGA 接口设置情况。
图1 MYC-Y7Z010-V2 的FPGA 接口设置
MYC-Y7Z010-V2 的FPGA 外设接口包括串口、以太网口以及视频接口,可有效满足应用阶段预警系统的拓展性需求。
3 软件设计
3.1 提取借阅数据
为了实现对高校图书馆借阅逾期情况的全面预警,首先需要准确提取相关借阅数据[6]。该文分别从图书的角度和用户的角度开展该项工作,对不同角度提取的结果进行匹配,以确保提取结果的完整性。首先以图书为核心进行借阅数据提取,具体的提取方式如公式(8)所示。
式中:f(x)为以图书为核心的借阅数据提取结果;xi为i类图书的现有馆藏数量;x0为i类图书的实际馆藏数量;k为损耗系数;e为允许误差参数[7-8]。
其次,以用户为核心进行借阅数据提取,具体的提取方式如公式(9)所示。
式中:g(x)为以用户为核心的借阅数据提取结果;n为参与图书借阅的用户总量;∑xi为单一用户的图书借阅总量[9]。
以上述不同角度高校图书馆借阅数据提取结果为基础,对提取结果的完整性进行分析,当f(x)=g(x)时,表示提取的数据结果可靠,可以执行后续的预警分析;当f(x)和g(x)存在差异时,要对具体的差异数据进行核对,具体的核对方法是在图书馆借阅系统中查阅相应的信息,从而有效提取高校图书馆借阅数据,为后续的预警效果提供保障。
3.2 基于决策树的借阅逾期数据分析
结合第2.1 节提取的数据信息,该文在开展借阅逾期预警的过程中引入了决策树算法对具体借阅状态进行分析。图2 为该文构建的决策树算法执行流程。
图2 基于决策树的借阅逾期预警流程
基于决策树的借阅逾期预警流程,先对数据进行清洗,按照目标借阅时间对提取的借阅数据进行预处理,具体的处理方式可以表示为公式(10)。
式中:p(x)为处理后的借阅数据信息;sim()为一致性函数;t为目标借阅时间设置情况;x为目标节约类别。
当借阅时间一致时,结合图书馆的管理需求,设置具体的预警标准,决策阶段主要是根据借阅时间与当前时间差进行的,如公式(11)所示。
式中:Δt为借阅时间与当前时间差;t'为当前时间;t0为借阅时间。
以此可以对借阅逾期数据进行分析。
3.3 借阅逾期预警
计算结果与预警标准之间的关系,确定预警动作,如公式(12)所示。
κ=Δt-T(12)式中:κ为预警动作执行判断参数;T为设置的预警标准。
预警动作的具体执行标准见表3。
表3 预警动作执行标准
根据表3 可以对高校图书馆借阅逾期情况进行有效预警。
4 系统测试
4.1 测试环境设置
该文以某高校的实际图书馆管理系统数据为基础测试数据,对应的数据信息中涵盖用户整体借阅数据、用户信息数据以及具体的图书信息数据。在测试过程中,考虑到原始数据的规模较大,直接利用其进行测试对应的时间开销较大,因此,该文随机选取了其中9 个月的借阅数据作为最终测试数据。对于测试数据中存在的残缺记录及不完整信息,应结合相关资源进行修补,并通过校园卡号对其进行标志处理。最后进行测试的18 425 条有效记录,将其按照目标借阅时间进行划分,主要可分为5 类,对应的时间分别为15 天、1 个月、40 天、50 天以及2 个月。将上述数据分组导入SQL Server,可以作为测试阶段差异化测试环境构建的基础。在上述数据的基础上,该文以受测试图书馆的管理要求为基础,对距离借阅时间小于7 天的情况进行预警处理,同时考虑到实际借阅情况的差异性,设置了不同的测试数据构成,具体见表4。
表4 测试数据构成设置
除此之外,在测试过程中,该文还设置了对照组,对应的预警方法分别为文献[3]系统和文献[4]系统。在此基础上,对比3 个系统的预警效果,可以对该文设计系统的性能作出客观评价。
4.2 测试结果与分析
该文分别统计了不同系统的预警效果。具体的测试结果见表5。
表5 不同系统预警结果统计表
由表5 可知,在3 个不同预警系统的测试结果中,借阅逾期情况的预警效果随着数据构成复杂程度的不断提高,均出现了不同程度的下降。其中,当测试数据的目标借阅时间构成为一种(测试组1)时,3 个系统均实现了对借阅逾期情况的100.00%预警,且并未出现错误预警的情况。但是随着测试数据目标借阅时间构成的逐渐多元化,文献[3]系统对于借阅逾期情况的预警效果逐渐下降,其中,正确预警率最小值达到了94.74%(测试组5),错误预警率最大值达到了34.74%(测试组5);文献[4]系统对借阅逾期情况的预警效果虽然比文献[3]系统高,但是也呈逐渐下降的发展趋势,正确预警率最小值达到了95.24%(测试组4),错误预警率最大值达到了21.05%(测试组5)。相比之下,该文设计系统的预警效果表现出了较高的稳定性和可靠性,其中,正确预警率始终为100.00%,错误预警率最大值也仅为3.16%(测试组5),与文献[3]系统和文献[4]系统相比,具有明显优势。综合上述的测试结果可知,该文设计的基于决策树算法的高校图书馆借阅逾期预警系统可以实现对不同环境借阅逾期情况的全面预警,具有良好的实际应用效果。
5 结语
该文提出的基于决策树算法的高校图书馆借阅逾期预警系统设计研究,在设计阶段充分考虑了图书馆借阅信息规模以及流量上的属性特点,并以此为基础对硬件进行了针对性设计。该文还结合借阅逾期的判定标准,在软件设计阶段引入决策树算法,根据用户的实际借阅时间实现对不同逾期情况的全面预警。借助该文对高校图书馆借阅逾期预警系统的设计,希望能为高校图书馆借阅服务工作的开展提供有价值的帮助,最大程度地提高图书馆资源的有效利用率。