APP下载

基于人机交互的数字图书相关联查询系统设计

2022-02-13兰小红

现代电子技术 2022年2期
关键词:数字图书查全率文档

张 鑫,兰小红

(1.江苏科技大学,江苏 张家港 215600;2.江苏科技大学苏州理工学院,江苏 张家港 215600)

0 引言

在图书馆数字化技术发展的推动下,借书产生的数据量增大,数据种类越来越多,信息更新速度也越来越快,数字图书资源呈现爆炸式增长趋势。同时,高校科研人员对图书查询信息的要求也越来越高,体现在其针对性和实时性较强,需求种类较多。人们不再是仅需要了解图书的基本信息,而是需要通过相关数据,方便地获得图书目录的权威分析,从而更准确、快速地找到科研所需的相关资源。在实时性方面,要求在短时间内满足当下最新的信息需求。现代图书馆利用数字化技术为读者提供查询服务,成为读者与图书馆联系的第一途径。图书查询的目的是从大量的图书资源库中找到满足用户需求的图书,这个概念类似于数据库系统中的数据查询。通过使用查询系统,用户可以查询图书馆的所有藏书并获得有用的信息。因此,准确把握用户需求是图书馆提供优质服务的前提。与发达国家相比,中国数字图书馆的发展还处于起步阶段,同时数字图书馆查询系统的研究成果并不多见。目前最具代表性的查询系统是:基于Access 的图书查询管理系统和基于语义关联的查询系统。但上述传统查询系统在数字图书馆服务的应用中查询速度较慢、查全率较低。

为此,本文采用人机交互技术,解决上述传统查询系统在实际工作中存在的应用问题。人⁃机互动技术是数字图书馆与用户沟通的唯一桥梁,具有个性化、智能化的人机交互功能,是实现有效查询信息的关键。文中运用人机交互技术为查询系统设计友好、直观、方便、人性化和智能化的人机交互界面,以确保查询结果与用户需求相一致。实验结果表明,设计系统数字图书查询耗时较短且查全率较高,为实际应用提供了一定参考。

1 数字图书相关联查询硬件系统设计

根据数字图书馆建设的实际需要,采用成熟的技术方案,保证系统的可用性及不断升级。本文根据稳定性、开放性和兼容性的原则,从硬件、数据库和软件三个方面对查询系统进行了优化。

1.1 Solr 服务器

Solr 为索引服务器,支持多种输出格式,比如XML/XSLT,且主要提供级别搜索和高亮度显示。Solr 易于安装和配置,并且具有基于HTTP 的管理界面。当前Solr服务器已经发展得比较成熟,同时Lucene 的相关术语包也得到了扩展,二者完全相容。使用简单的Solr 配置可与其他Lucene 应用程序内建的索引相兼容;在某些特殊情况下,使用Solr 服务器还可以在部分Lucene 工具中实现索引创建,只需进行额外的编码即可。

1.2 文本扫描机

文本类型检索系统还必须线性扫描文本,以确定其中是否存在特定的短语或查询模式。扫描程序的基本结构包括磁盘控制器、项目检测器、检索控制器以及问题解答器四个特殊的单元,如图1 所示。

图1 图书文本扫描机结构

项目检测器是一种高性能硬件单元,用于对磁盘上的文本进行扫描,可以在接收到文本源时从多个项目中识别任意一个项目。在项目检测和查询解答器之间,检索控制器进行数据传输操作和通信。查询解答器是一个决策处理程序,确定项目检测找到的项目列是否匹配用户的查询项。此外,在图1 设备中,只使用一个搜索模块时,扫描文本的速度可以达到每秒100 万字符。

1.3 单片机控制模块

图2 单片机控制器

图2 中,单片机控制器可以单独执行一个程序,但是需要根据关联规则将该程序预装在控制器的某一区域,根据动作执行相应指令。

1.4 指令接收与发送模块

指令收发模块可以设计为手持收发模块,通过单片机与传输芯片接口相连,实现信号的收发;然后处理反馈信号,利用内部的语音模块向主机发出提示。指令接收与发送模块连接电路图如图3 所示。

图3 指令接收与发送模块连接电路图

RXD 和TXD 引脚可分别与NRF401 的DOUT 和DIN引脚连接,并收发数据。当“T0.2”为“接收数据”时,终端将进入“发送数据”状态;当“发送数据”为“输出”时,将进入“XEN”状态。P.0 控制端可以从高跳到低。

1.5 检索处理机

从整体上讲,检索处理机可分为并行和联接两部分,其中并行处理机可通过两个不同的处理器分别检索一个数据库的不同部分,或每个处理器对同一个数据库执行不同的操作,从而使处理时间随着处理器数量的增加而减少。第二种多处理器的设计包含多个相联处理器,各处理器都相同,在每一个时刻执行相同的任务。也就是每一行相联处理机阵列都设计为接收信息项,并且所有行的内容都是同步处理的。在保证系统查询速度和精度的同时,本文设计系统还安装了两种处理器设备。

2 数字图书相关联查询系统数据库设计

数字图书相关联查询系统是以ORACLLOG 为后台数据库,利用ADO JSP 程序与数据库连接,进行数据库查询、添加、修改、删除等操作的应用系统。利用数据关系进行数据库设计的关键在于数据库表中列的设计。在设计数据库表时,本文根据各功能模块建立数据表,对各功能模块的功能数据进行分类,生成数据库表中的列。该关系数据库对数据表进行了合理的分类,更有利于操作管理、维护和升级。然后,根据概念模式设计相应的关系模式,确定查询系统中关系模式表的结构。图书属性表是存储图书馆藏书相关信息的表格,主要包括书名、条码、作者、译者、价格、出版者、出版日期、图书类型、供应商、ISBN、馆藏图书数量、借阅金额、保存时间等内容。图书属性表的结构如表1 所示。

没有完善的程序,检察机关就可能既要面对对“检察优势”的忧虑又要面对对监督效果不彰的质疑。前文的论述主要是对民事诉讼法律监督程序的方向性预测。整合现有制度、以最小社会成本发挥法律监督作用的程序细节尚待思考。可以预见的是,制度的整合与过程的透明,将是程序设计的重心。

表1 数字图书属性表

同理可以将数字图书的应用与查询历史信息按照时间顺序存储在数据库中。数据库安全分为保障与保密性两部分,保障是指资料库的可靠与稳定;保密性包括数据加密和数据权限控制。数据库定期对系统数据进行备份,并将数据文件和日志文件分别备份到不同的物理设备上,从而保证数据的可靠性。如出现数据问题,可保证恢复数据。本文系统的数据库进行分级设置权限,不同的管理员有不同的访问权限,既可保障数据库的安全性,还保证数据访问权不会被非法使用。

3 数字图书相关联查询系统软件功能设计

3.1 人机交互功能模块

在系统环境中建立可视化界面,方便操作人员以及用户直接操作,以此来了解系统内部功能的变化情况,并实现对系统功能的运行控制。本文利用多媒体平台开发软件功能,丰富系统的视觉界面,确定常用功能并控制其进入操作界面。建立的工作界面人机交互模块功能向导框架如图4 所示。

图4 人机交互模块功能向导框架

3.2 数字图书相关联查询功能模块

3.2.1 收集数字图书信息

数字图书信息包括图书目录信息、书目信息和书目数据信息。先给出图书目录的入口地址,然后下载该页面,在目标内容段中使用正则表达式匹配,可得到图书目录各个层次上的基本信息。例如:当前目录下的图书数包含分类号和书目数量等,而层次上的信息包含分类号、类名以及不同层次之间的关系等,若目前目录的子目录仍包含目录,则继续执行递归操作,直到目前目录下只有书籍,不包含目录为止。查询功能模块能够合理地收集书名、作者、书号等信息,并将所收集的数字图书储存在数据库中指定的地方。

3.2.2 数字图书文本处理

为使计算机能够理解自然语言,需要对出现在计算机中的每一个词都进行工作理解,即从词义构造来表达语句的意思和从语义构造来表达言语的结构。其中,语法、语义、语用等知识的有效运用,以及与之相关的各种知识的运用是研究的重点。一般情况下,汉语理解可分为原文输入、自动分词与词性标注、语法与句法分析、语义与语用和语境分析、产生目标形式表示、句群与篇章理解等步骤。词汇量的分析是基础,句子的分析是核心,篇章的理解是最终目标。文本特征选择可分为信息增益、互信息、证据权值等,具体的提取过程如下:

式中:和为文档类变量;(⋅)为文档类集合;odds(⋅)为文档类特征量。最终的计算结果IG(),MI(,)和WE()分别表示信息增僧、互信息、证据权值。

3.2.3 计算数字图书关联度

使真正相关的文档尽可能包含在通过相关性计算得到的高等级文档中,而那些被过滤掉的低等级文档包含的文档数量尽可能少。文件间的相似性通常是通过对两个文件的矢量进行内积运算而获得的,如下:

式中:分别为文档向量和的第维矢量;为文档集合中所有词的数目,即文档向量的维数。

3.2.4 生成查询索引

用户可向任何Replica 服务器递交文件。若提交到相应的服务器上的文件不是片头Leader,它会将用户请求转发给同一片头的Leader 进行处理,然后接收到片头的Leader 将文档分发到它包含的每个Replica 服务器上,以执行响应命令,完成索引创建。若用户提交的文档不属于已提交的分片,该分片的Leader 会将其传递到对应的分片Leader 处理,该Leader 会将用户提交的文档重新发送到其分片的所有Replica 中,以完成索引创建。

3.2.5 实现数字图书相关联查询

在数字图书相关联查询过程中,设置一个关联度阈值,将查询语句或关键词输入到系统中,并通过中文文本处理得出关键词特征。将关键词特征与系统数据库中存储数字图书的关键特征进行关联度计算,并将所有关联度大于阈值的数字图书名称输出,按照关联度的降序顺序进行排列,得出数字图书相关联的查询结果。

4 系统测试

以测试基于人机交互的数字图书相关联查询系统的运行功能和应用性能为目的,设计系统测试实验,并通过与其他查询系统的对比体现出设计查询系统的优势。因此,分别设置文献[4]系统和文献[5]系统作为实验的对比系统。

4.1 开发与运行环境

采用Code.behind 方式,使代码与内容保持独立,避免因开发过程中内容与脚本交叉而造成的维护困难,提高开发效率。另外,在ASP.NET 中,创建和使用Web 服务也很方便,Web 服务的创建者无需了解SOAP 和XML的详细信息,只需专注于自己的服务。利用ASRNET,网络应用程序的创建、运行和发布将变得非常方便和高效。

4.2 准备数字图书数据集

为了保证实验结果的可信度,在该系统环境下设置数字图书数据集。实验中使用的数据集分为两个部分,第一部分选择某市图书馆作为数据来源,使用扫描仪得出数字图书信息,并存储到测试数据库中,数字图书的添加过程如图5 所示。

图5 数字图书添加界面

另一部分是在网络环境中,下载数字图书数据,并剔除重复的部分,得出系统测试实验的数据集。构建的测试数据集中共包含32 742 本图书,图书类型约为244 种。

4.3 设置系统测试指标

此次系统测试实验分别从功能和性能两个方面进行,其中功能主要是指人机交互功能和检索功能,因此设置系统人机交互的响应时间和检索功能运行时间作为系统功能的测试指标。而系统的性能主要就是检索性能,设置查全率作为系统性能的测试指标,该指标反映了查询系统对某个查询返回结果中正确结果的比例。

4.4 系统测试过程与结果分析

为避免单一实验对测试结果产生的影响,实验设置多个查询关键词,并由此将实验划分成多个组别。数字图书查询关键词分别为:“计算机”“医疗”“教育”“建筑”“数学”“图像处理”“工业制造”“电网维护”。当查询关键词为“计算机”时,设计查询系统的输出结果如图6所示。

图6 计算机相关联图书查询结果

同理可以得出不同关键词在三个查询系统中的查询结果。分别记录启动查询程序和查询结果输出的时间,便可以得出系统的查询耗时;另外将查询结果与数据集中的数据进行比对,便可以得出总正确样本数量和查询正确样本数量,从而得出有关于查全率的测试结果。相关数据的统计与计算得出的系统测试结果如表2 所示。

表2 系统测试对比结果

通过对表2 中数据的计算可知:三种查询系统的平均查询耗时分别为1.34 s,1.11 s 和0.36 s;从查全率方面来看,两种对比查询系统的平均查全率为96.7%和98.1%,而设计系统的平均查全率为99.7%。

5 结语

为提高数字图书查询系统的查询效率及查全率,本文利用人机交互技术设计一种数字图书相关联查询系统,通过软硬件和数据库多方面的优化设计,实现了数字图书相关联查询功能。通过实验验证了设计系统的查询耗时为0.36 s,查全率为99.7%,性能较优越,能够通过输入的关键词,精准地输出符合预期的数字图书结果,具有一定的应用价值。

猜你喜欢

数字图书查全率文档
区块链在数字图书侵权中的司法救济作用分析
浅谈Matlab与Word文档的应用接口
有人一声不吭向你扔了个文档
数字图书回顾与反思
基于词嵌入语义的精准检索式构建方法
基于RI码计算的Word复制文档鉴别
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
数字图书营销方法探究
数字图书加密措施与密钥管理
基于Web的概念属性抽取的研究