基于机器学习的Word文档数据识别系统的设计与实现

2022-04-02曹湘华

电脑知识与技术 2022年33期

曹湘华

摘要：传统Word文档数据识别系统识别精度一般较低，面对数据量庞大的Word文档数据时，系统响应时间较长，无法采用统一的识别方法完成数据识别，制约文档数据的信息化、高效化发展。针对此问题在传统Word文档数据识别系统的基础上，引入机器学习原理，实现了新的Word文档数据识别系统设计。系统硬件采用C/S架构，为各个硬件的稳定运行提供环境保障。软件通过提取与预处理Word文档数据，放大文档数据信息；采用穿线法，识别文档数据特征；利用机器学习原理，设计系统Word文档数据识别模块。应用结果表明，基于机器学习的Word文档数据识别系统，其文档数据识别结果的准确率均在96.58%以上，识别结果误报率均小于0.34%，具有较高的可行性。

关键词：机器学习；文档；Word；数据；识别；系统

中图分类号：TP303 文献标识码：A

文章编号：1009-3044（2022）33-0017-02

Word文档数据识别系统作为信息化社会发展背景下处理海量文档数据的方式之一，对提升数据处理、录入、存储的效率具有重要意义[1]。Word文档数据识别系统与传统的文档数据人工处理方式相比，极大程度地减少了数据处理的人力资源消耗，将纸质文档信息转换为电子数据信息，上传至识别系统。系统通过信息化、智能化的运行方式，对数据进行识别、录入、处理与存储，降低了数据录入与识别的错误率[2]。现阶段，我国在Word文档数据识别系统方面的研究逐渐接近成熟，然而，其中仍然存在一定的不足，主要体现在针对数据量较庞大的Word文档数据，系统识别响应的时间较长，无法采用统一的识别方式完成数据识别，且文档数据识别结果的准确率较低[3]。机器学习技术能够有效地改善这一问题，通过静态分析与动态分析相结合的方式，对识别系统的运行特征进行全方位的分析与学习，提高系统运行的准确率与完备性[4]。

基于此，本文在传统Word文档数据识别系统的基础上，引入机器学习原理，实现了新的Word文档数据识别系统设计，为促进Word文档数据识别的信息化、智能化发展作出贡献。

1 识别系统硬件设计

本文设计的基于机器学习的Word文档数据识别系统采用C/S硬件架构，在运行过程中，能够为系统内其他硬件提供稳定高效的运行环境。系统硬件接口采用I/O接口方式，主要负责为系统中各个硬件提供电源、输入系统外部触发信号以及控制硬件输出[5]。接口采用RT36型号的千兆以太网接口，分别将网线两端插入接口。系统的网络交换机采用S Series系列的交換机，端口为48×10/100/1000BASE-T RJ45， 8×10G SFP+，交换容量为256Gbps，PoE标准协议采用IEEE 802.3af/at，为了保证识别系统运行的效率，设置网络交换机的最小延时为2.2μs，最大延时为64.69μs，包转发率为192 Mpps。为了提升系统文档数据识别、传输与接收的速度，本文采用芯片型号为Intel X710-BM2的英特尔网卡，其端口为双光口，与系统主机的接口为PCIe 3.0×8类型，在系统内的布线类型为SFP+光模块/DAC/AOC，支持系统VT-c连通性。

2 识别系统软件设计

2.1 Word文档数据提取与预处理

为了更好地识别Word文档数据，本文首先对Word文档数据进行提取与预处理。由于文档数据量庞大，将Word文档数据转换为图像存储的形式，输入系统中，利用系统的自动扫描功能，扫描图像中存储的Word文档数据[6]。将转换后的Word文档数据存储图像进行增强处理，提高图像的灰度级范围与对比度，使图像中存储的数据信息更加清晰。采用伽马变换的增强方法，增强图像对比度，增强处理公式为：

[m=arγ，γ∈0，1]

其中，[a]表示图像低灰度值；[r]表示原始图像的灰度级；[γ]表示伽马参数。通过上述公式，对系统中输入的Word文档数据存储图像进行增强预处理，增强图像的灰度部分细节，放大文档数据信息，为后续系统的高效识别提供基础保障。

2.2 穿线法识别文档数据特征

对上述Word文档数据进行提取与预处理后，系统采用穿线法，对Word文档数据的自身特征进行识别，识别流程如图1所示。

如图1所示，穿线法识别流程为：系统通过自动查找的方式，获取文档数据的单个数字轮廓；设置三条线，将数字轮廓进行均分处理；根据数字轮廓的相交方式，确定各个数字轮廓之间的交点个数；选取两条线将所有Word文档数据平均划分为左右两个部分，利用第三条线穿过左右两个部分所有的数字轮廓，根据线与数字轮廓交点的个数，获取对应的Word文档数据特征。

2.3 基于机器学习设计文档数据识别模块

在文档数据特征识别结束后，采用机器学习技术，设计系统中Word文档数据识别模块。文档数据识别模块作为系统中的核心模块，对系统识别结果的准确率具有直接影响[7]。通过机器学习技术，识别系统中输入的文档数据通道类型，利用模块端口的子检测识别模块，过滤大量非Word文档数据，提高数据的有效负载识别精度。

利用模块中机器学习模块的深度挖掘功能，对各个数据通道类型进行细致划分，划分为文字消息数据、文件传输数据与文档数据三个类型。其中，文字消息数据主要通过系统中的传输窗口，基于UDP协议进行数据的传输与上传；文件传输数据作为客户端传输文档数据的通道，在上传与传输过程中具有较高的加密性；文档数据为上述两种数据的总和，综合性较强，且数据量庞大。通过系统识别模块，识别出各个通道类型的数据上传方式，检测数据端口的特征与有效负载长度，结合机器学习原理，建立机器学习识别模型，识别Word文档数据的数量、初始窗口长度、数据属性等信息。

综上所述为本文提出的基于机器学习的Word文档数据识别系统的整体设计流程，分别从系统硬件与软件两个方面进行了设计，实现了Word文档数据高效识别的目标。

3 系统测试

为了验证本文设计的基于机器学习的Word文档数据识别系统的有效性，进行了相关的实验测试。按照上述系统硬件与软件设计内容与要求，建立文档数据识别系统，在此基础上，对系统测试的开发环境进行搭建。本次测试操作的开发环境由AMD Athlon（tm） II X2 215 Processor 型号的CPU、GCC 4.4型号的编译器、15×800MHz， 1×2400MHz型号的CPU主频、VIM+CTags+Tlist的编辑工具共同组成，其中，硬盘大小为250G，内存为16G，网卡包括千兆网卡、4个串行接口与2个光纤接口。先采用黑盒测试方法，对系统文档数据识别模块的功能进行测试，测试流程如图2所示。

如图2所示，文档数据识别模块功能测试流程为：在识别系统内输入Word文档数据，在系统端口对数据进行预处理；根据文档数据的有效负载长度，选取系统运行协议；采用Gtalk文字流处理方式，对文档数据进行处理；基于机器学习模型，对文档数据进行检测识别，判断识别文档数据的有效负载长度是否大于0，若大于0，则输出数据识别结果，完成识别流程；若数据有效负载长度小于0，则返回并重复上述步骤，直至文档数据的有效负载长度大于0为止。根据系统文档数据识别模块检测识别的结果，判断该模块的运行状况。

系统功能模块测试完毕后，再采用白盒测试的方法，对系统的性能进行测试分析。选取系统性能测试使用的数据集，为了保证测试结果的客观性与准确性，本次测试使用NIMS的公开数据集作为性能测试数据集，其中包括Word文档数据368024条，非Word文档数据531672条。由于原数据集的数据量庞大，不利于系统测试操作，因此，本次测试从NIMS数据集中，随机抽取15000条Word文档数据和15000条非Word文档数据，共同组成训练数据集，然后从剩余的NIMS数据集中，随机选取5000条Word文档数据组成测试数据集，对测试数据集进行标号处理，分别标记为1、2、3、4、5，测试数据集Word文档数据分布如表1所示。

为了验证文档数据识别系统性能的可行性，本次测试采用对比分析方法，将本文设计的基于机器学习的文档数据识别系统，与传统的基于OCR技术的文档数据识别系统进行对比，分别使用两种系统对相同Word文档数据的训练数据集进行训练，在此基础上，对5个Word文档数据的测试数据集进行数据识别测试，对比两种系统识别结果的准确率，如表2所示。

根据表2的对比结果，在两种文档数据识别系统中，本文设计的基于机器学习的文档数据识别系统，其在不同测试数据集中，文档数据识别结果的准确率均在96.58%以上，识别结果误报率均小于0.34%，与传统识别系统相比，数据识别结果的准确率更高且误報率更低，说明本文系统在Word文档数据识别上的效果更佳、更具有优势。

4 结束语

综上所述，为了改善传统Word文档数据识别系统识别精度较低且海量文档数据下系统识别速率较慢的情况，本文在传统数据识别系统的基础上，引入机器学习理念，实现了新的Word文档数据识别系统设计。应用结果证明，该系统有效地提升了文档数据识别结果的准确率，降低了系统识别的误报率，对海量文档数据处理的信息化、高效化发展具有重要意义。

参考文献：

[1] 李洪波，廖详刚，陈立.基于机器学习One-stage目标检测算法的塑料自动识别系统[J].塑料科技，2020，48（12）：86-89.

[2] 杨思怡，付相祥，吴晓华，等.Tesseract-OCR的文档扫描识别系统[J].电子世界，2021（20）：98-100.

[3] 吴丽华，龙海侠，冯建平.智能机器的认知学习机理及计算模型研究[J].电子技术与软件工程，2021（21）：106-109.

[4] 徐琳宏，丁堃，林原，等.基于机器学习算法的引文情感自动识别研究——以自然语言处理领域为例[J].现代情报，2020，40（1）：35-40，48.

[5] 殷倩倩，申鑫欣，夏祎.大数据背景下机器学习在数据挖掘中的应用[J].数字技术与应用，2022，40（5）：21-23.

[6] 肖治鸿，韩晔彤，邹永攀.基于多源数据和逻辑推理的行为识别技术研究[J].计算机科学，2022，49（S1）：397-406.

[7] 于楚凡，郭大亮，张秋霞，等.基于大数据挖掘的发电系统异常数据识别系统设计[J].电子设计工程，2022，30（6）：131-135.

【通联编辑：张薇】