APP下载

基于向量空模型的数字图书信息分类系统设计

2021-05-20况书梅王莉莉

现代电子技术 2021年10期
关键词:数字图书板卡准确率

况书梅,王莉莉

(重庆工商大学融智学院,重庆 401320)

0 引言

向量空间模型是一个把文本文件表示为标识符向量的代数模型,主要应用在信息过滤、信息检索、索引以及相关排序过程中[1]。数字图书馆是用数字技术处理和储存各种文献的图书馆,从结构的性质上来讲,数字图书馆是一种多媒体的分布式信息系统,它能够将不同载体、不同地理位置的信息资源通过数字技术进行储存,进而方便用户使用。为了增强数字图书馆的使用性,对数字图书馆内的各项文献进行分类,使用者可以更加方便快捷地查询得到所需的信息[2]。

在向量空间模型的控制下,设计一种数字图书信息分类系统,能够为不断优化的数字图书馆各项性能提供帮助。国外针对数字图书信息分类系统研究起步较早,各个发达国家大学研究者在各个算法的支持下,现已形成了支持不同功能的信息分类系统[3]。国内在设计数字图书信息分类系统方面起步较晚,从整体的技术水平上来讲,该项技术还处于发展阶段,仍需不断研究发展。

1 信息分类系统硬件设计

1.1 CPU 板卡的设计

数字图书信息分类系统处理的数据信息较多,所以在设计CPU 板卡时,选用型号为MPC755 的处理器,中央数据处理芯片选用MPC107 桥芯片,将SDRAM 作为储存电路的核心,以FPGA 作为CPU 板的控制器,在看门狗电路的控制下,连接一个支持总线协议芯片ARINC659,最终形成的硬件结构如图1 所示。

图1 CPU 板卡结构

在图1 所示的板卡结构控制下,处理器MPC107 接口拓展桥芯片,为了增强核心数据处理器的响应速度,控制处理器外部连接一个二级缓存,桥接芯片外部管脚连接一个数量级为60 的线路,芯片另外一侧连接互联网PCI 接口[4]。控制芯片内部的中央控制单元串联一个寄存器,寄存器负责调和中央控制单元外围逻辑模块的发送数据量。为了增强CPU 板卡上数据的存储量,在板卡上SDRAM 储存电路上并联两个User FLASH 存储器、一个Boot FLASH 存储器以及一个非易失性储存器,控制SDRAM 负责储存信息分类时产生的指令数据,User FLASH 存储器1 负责储存图书信息类别属性的数据,User FLASH 存储器2 用来储存系统登录用户的数据信息,Boot FLASH 存储器负责储存系统引导分类时产生的冗余数据,非易失性存储器则用来储存分类系统启动时的配置信息[5]。在不同性质用途的控制下,设定上述存储器的容量,存储容量大小如表1 所示。

表1 储存器容量大小

在上述储存器容量控制下,在各个芯片的总线路上设置一个复位监控芯片,负责监控整个CPU 板卡的工作状态。在控制板接收到数字图书信息时,监控芯片会将该图书信息数据转化为信号,控制看门狗输入管脚连接FPGA 中的硬件总线,设定FPGA 寄存器中的计数数值为5,一旦达到该数值,复位芯片发出控制信号,完成一次复位,此时数字图书信息在硬件结构上完成一次分类[6]。在设计CPU 板卡后,连接板卡各个硬件元件形成一个稳定运行的硬件连接电路。

1.2 硬件连接电路

在上述硬件板卡的控制下,数字图书信息存在多种冗余资源输出,所以在设计硬件连接电路时,设计一个输出电路,实现硬件结构对数据的容错功能[7]。在各个硬件元件的线路电压处放置不同数值的电阻,维持各个硬件元件的电压稳定,设定整体电路的电压数值在3.3~8 V 之间,在硬件元件少的支路上放置低阻抗且数值为10 Ω 的电阻,控制在相同时刻下,输出一个驱动负载,形成的输出电路,如图2 所示。

图2 输出电路

在图2 所示的输出电路结构控制下,控制板卡内控制处理器连接管脚6,数字图书信息通过管脚2 进入到核心的处理单元中,经过核心硬件的处理后,经由管脚5 输出。控制核心处理板通过FPGA 总线连接存储器构成的储存电路,在存储器自带功能的控制下,实现硬件电路的外部扩展[8]。在线路总线的另一侧采用异步串行的接口方式,合理布局CPU 处理板与储存电路走线位置。结合RS 422 标准四线制规范数字图书信息数据的走向。使用处理器与桥芯片集成的UART 模块功能,设定电路内的电平转换形式。

系统硬件电路采用一个整体电源模块进行供电,在储存电路以及输出电路的控制下,将硬件的供电需求划分为两个部分,第一个部分为整体的硬件电路供电,第二部分为CPU 板卡内的芯片处理器供电,在整体电源与硬件芯片的连接线路上放置一个电压转换器,为了满足硬件元件与电路之间的稳定,稳压器选用型号为AM S1084⁃3.3 V 的三端稳压器[9],最终完成对图书信息分类系统硬件的设计。

2 信息分类系统软件设计

2.1 利用向量空模型构建信息分类规则

在利用向量空间模型构成信息分类规则时,转化数字图书信息为空间向量[10],假设一次分类过程中数字图书信息集中含有n个数字图书信息文档,每个信息文档中含有m个不同的特征项,各个特征项相互独立,则存在如下数量关系:

式中:t表示信息特征项;wk表示特征项在图书信息中的权重。假定(t1,t2,…,tm)是一个y维的坐标轴,根据其内部不同的坐标数值,计算得到数字图书信息的特征向量,则其可表示为:

式中:Vd表示文本中的特征向量;其余参数含义不变。整合相同数值的信息为一个集合D,该集合可表示为:

在上述处理过程下,就形成一个数字图书信息转化的过程,转化过程如图3 所示。

图3 数字图书信息转化过程

在图3 所示的信息转换过程中,箭头的起始点为数字图书信息所在的文件,在向量空间模型的处理下,参照不同的数据特征,形成了不同的方向[11],以一个方向为一个分类类别,为了排除冗余数据的干扰,计算相同方向上图书信息数据的相似度,计算公式可表示为:

式中:i,j分别表示相同方向的信息;wik,wjk表示其特征向量。将信息数据相似度作为一次标准化处理,计算2 个数据点间的明氏距离,计算公式可表示为:

式中:xik,xjk分别表示信息数据所在x坐标轴数值大小;p表示度量数值。以相似度数值为冗余数据筛选规则,定义数值大小相差不超过0.5 的信息数据为一组,最终实现对数字图书信息的分类。完成数字图书信息分类后,实现分类系统的功能模块。

2.2 功能模块的实现

在构建的信息分类规则下,以相同规则下的图书信息样本为实现对象[12],构建一个停用信息过滤模块,构建的过滤模块如图4 所示。

图4 停用信息过滤模块

在图4所示的停用信息过滤模块下,根据式(3)计算得到相似度数值,删除特定词汇表中数值小于3 的词汇[13]。根据不同的数值,计算其对应的匹配度,计算公式可表示为:

式中:N表示待匹配的所有信息;A,B,C分别表示不同类别的信息项;其余参数含义不变。将停用信息筛选出后,利用软件线程池的LinkList 链表作为线程分类任务[14],在ThreadPool 接口处形成如图5 所示的分类过程。

图5 分类功能实现

在图5 所示的分配过程下,左边的运行链组抽取MTQueue 中的数字图书信息进行处理,最终通过invokeLater(·)输出一个数字图书信息的对应的类别[15]最终完成对基于向量空模型的数字图书信息分类系统的设计。

3 系统测试

3.1 实验准备

整合图书信息后,采用MacBook Pro MD 103 CH/A,选用的硬件开发设备参数如表2 所示。

表2 PC 机设备参数

在表2 的各项参数控制下,根据分类系统内的各个功能模块实现的情况,采用交流电压进行供电,转化为不同数值大小的电压进行供电,连接承载数字图书信息分类系统的内核,连接情况如图6 所示。

图6 内核连接方式

由图6 所示的内核连接方式下,针对不同的程序模块,调试信息分类系统的软件设备,调试完毕后,搭建系统的测试环境,形成的测试环境结构如图7 所示。

在如图7 所示的结构下,使用文献[8]中的信息分类系统、传统信息分类系统以及文中设计的信息分类系统进行实验,对比三种信息分类系统的性能。

3.2 结果及分析

基于上述实验准备,假定三种分类系统待分类的图书信息的类别为经济、生活、军体、社会、文学以及政法,每项图书信息种类准备50 条,定义分类得到的标识符与准备图书信息内的标识符相同时,即为一次成功分类过程,计算并统计在三种信息分类系统的控制下,不同类别的图书信息分类准确率结果如表3 所示。

图7 搭建的系统测试结构

表3 三种信息分类系统准确率结果 %

由表3 所示的各项准确率数值可知,在针对相同数量以及种类的数字图书信息时,三种分类系统表现出了不同的分类准确性,以表3 中的平均准确率数值可知,文献[8]中的分类系统的信息分类准确率数值在77.91%左右,分类准确率较低。传统分类系统在实际分类时,最终的分类准确率数值在87.58%左右,准确率数值较高。而文中设计的图书信息分类系统最终的分类准确率在97.76%左右,与前述两种信息分类系统相比,文中设计的信息分类系统准确率数值最大,信息分类准确。

保持上述实验环境不变,在300 条信息数据的分类工作中,按照每组50 条信息为分界,测量三种分类系统在分类后所需的分类时间,绘制分类指令响应时间结果图表,最终的分类时间结果如图8 所示。

由图8 所示的分类时间结果可知,三种信息分类系统针对相同数量的待分类信息表现出了不同的时间响应结果,以最终300 条数字图书信息为对比标准,文献[8]中的信息分类系统所需的时间在240 ms 左右,所需的信息分类时间较长。而传统信息分类系统所需的分类时间在180 ms 左右,分类信息所需的时间较短。而文中设计的信息分类系统所需的分类时间在90 ms左右,与上述两种信息分类系统相比,文中设计的信息分类系统所需的分类时间最短。综合上述实验结果可知,文中设计的信息分类系统在实际工作时,对不同种类的信息分类更加准确,所需的分类时间最短。

图8 三种信息分类系统的分类时间

4 结语

随着数字图书馆不断地利用普及,如何对数字图书信息进行分类逐渐成为研究的重点,本文设计一种基于向量空模型的数字图书馆信息分类系统能够准确地划分图书信息,改善了现有数字图书信息分类系统分类时间较慢的不足,为今后研究数字图书信息分类提供了理论研究方向。

猜你喜欢

数字图书板卡准确率
区块链在数字图书侵权中的司法救济作用分析
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
数字图书回顾与反思
2015—2017 年宁夏各天气预报参考产品质量检验分析
基于PCI9054的多总线通信板卡的研制
基于FPGA的多通道模拟量采集/输出PCI板卡的研制
高速公路车牌识别标识站准确率验证法
一种基于光纤数据传输的多板卡软件程序烧写技术
数字图书营销方法探究