基于深度学习的CFD软件界面高精度识别

2023-10-10韦振宇罗祉婧郑荻凡曾泽楷钟汉斌

河南科技 2023年17期

韦振宇罗祉婧郑荻凡曾泽楷钟汉斌

（1.西安石油大学化学化工学院，陕西西安 710065；2.西安石油大学西安市高碳资源低碳化利用重点实验室，陕西西安 710065）

0 引言

计算流体力学（Computational Fluid Dynamics，CFD）通过计算机编程对化工反应器内的复杂流动行为进行数值模拟。相较于试验研究，CFD 模拟具有投资少、结果全面的优点，且不受测试手段的限制，但对工业规模反应器的CFD 模拟或多参数的CFD 优化，仍需大量时间。近年来，随着人工智能技术的快速发展，深度学习已逐步应用于CFD模拟中，能有效提高CFD 的模拟效率。例如，Ouyang等［1］提出一种基于CFD 和人工神经网络（artificial neural network，ANN）的混合模拟过程，根据固相动量和体积分数的误差来完成CFD 模拟和ANN 预测的切换，从而使CFD 模拟节省了40%的时间。Xie等［2］基于卷积神经网络（Conventional Neural Network，CNN）和长短期记忆神经网络（Long Short-Term Memory，LSTM）来建立预测模型，能很好地预测液-固流化床中的混合和分离行为，与原来的CFD-DEM 模拟相比，该模型节约了90%～95%的计算时间。虽然已有的研究在不同程度上均加快了CFD模拟的计算过程，但CFD模拟的工况设置及结果处理仍需大量的人工操作，且对个人经验的依赖较大。因此，通过人工智能来实现CFD模拟操作的智能化是提高研究人员工作效率的关键。

要实现CFD模拟的智能化，就要先解决CFD软件界面的高精度识别问题，为后续自动化和智能化操作奠定基础。目前，CNN 和LSTM 被广泛用于文字识别中。例如，江杨心［3］基于CNN 和LSTM 来构建中文发票识别模型，该模型的准确率达到88.2%。吴雪等［4］基于数据增强的卷积神经网络构建4 层火灾识别模型，该模型包括3 层卷积池化层和1 层全连接层，并对数据增强后的数据集进行仿真。在经过2 000 次迭代训练后，该模型在测试集上的准确率为92.51%。苏云涛等［5］利用LSTM 算法建立了复杂环境下的车牌识别［6］模型，通过实际采集到的车牌数据对该模型进行验证，试验结果表明，该模型的识别准确率高、运行效率快。以上这些研究均体现出文字识别应用具有广泛性［6-11］。而在化工方面，虽有相关流体识别［12］及图像重构［13］等的研究成果，但缺乏对CFD软件界面文字识别的研究。

因此，本研究基于卷积神经网络和双向长短期记忆神经网络，建立CFD 软件界面识别模型，生成符合CFD模拟实际操作场景的数据集，并将其用于对模型的训练中，最终通过数据增强、再训练等技术实现对CFD模拟软件界面的有效识别。

1 模型搭建及配置

1.1 CRNN网络

基于深度学习的文本识别的步骤如下，即预处理、特征提取、序列建模、预测转录。其中，较为典型的网络是CRNN 网络［3］，如图1 所示。CRNN 网络由卷积神经网络（Conventional Neural Network，CNN）、双向长短期记忆神经网络（Bi-directional Long Short-Term Memory Network，Bi-LSTM）及连接时序分类器（Connectionist Temporal Classification，CTC）组成。

图1 CRNN网络结构

在CRNN 网络中，CNN 层用于提取文本特征序列。由于文本任务中的卷积网络关注更多的是图像的局部信息，缺乏长依赖的联系能力，只依靠卷积网络，难以挖掘出文本之间的上下文联系。因此，可在CRNN 网络结构中的CNN 层后接入Bi-LSTM，用来增强文本的上下文联系，还能有效解决长序列训练过程中梯度消失和梯度爆炸问题。为有效解决对同一字符可能多次预测的问题，同时提高预测精度，CRNN 网络通过接入含有独特合并序列机制的CTC 来去除重复字符，通过CTC 引入blank字符，能有效避免合并本身存在的字符。

1.2 训练配置

本研究在飞桨（PaddlePaddle）深度学习框架的基础上对模型进行训练。模型的CNN部分以MobiletNetV3 网络为骨干，其优势在于模型体积小，对网络训练和推理所需的计算资源更少。模型具体配置见表1。设置模型最大迭代次数为500、批处理大小为64、初始学习率为0.000 5。采用Cosine学习率衰减策略可逐步减少学习率大小，从而使模型能尽快收敛。同时，使用自适应动量估计（Adaptive moment estimation，Adam）对模型进行优化，并采用L2正则化防止模型过拟合。

表1 训练配置

1.3 数据集建立

在数据集建立过程中，创建自定义数据集CFDataSet，创建流程如图2 所示。首先，根据CFD 软件界面内容及配置文件来确定界面内容的组成形式，并建立相应的字体文件和配套的字典文件。其次，从字典文件中随机抽取出相应长度的字符串，并将其导入到PIL 库中，在相应尺寸及背景下生成带有字体样式的文本图片，试验中共生成约250 000 个文本图片及相应文本标签。最后，根据划分比例来随机抽取相应数量的文本图片及标签，并移动到单独文件夹中，据此生成训练集、验证集、测试集，并将其用于对模型的训练及测试中。

图2 图片生成流程

此外，对该模型的训练还会用到公开数据集ICDAR2015（Incidental Scene Text Challenge）。其训练集的样本数量为1 000、测试集的样本数量为500。由于采集到的数据集中的字符区域形状多为任意四边形，在模型训练中加入ICDAR2015 公开数据集，能有效增强输入数据的多样性，提高模型的泛化能力。

1.4 数据增强

在加入ICDAR2015 公开数据集丰富数据的同时，利用数据增强技术对自建数据集CFDataSet 进行扩充，对原始图片进行变换处理（如随机裁剪、颜色干扰、随机噪声、模糊等），可增强图片的多样性。该方法能有效解决模型训练易出现的过拟合问题，从而增强模型的泛化能力。本研究采取的数据增强手段如图3 所示。①图片模糊。随机使用高斯滤波、均值滤波、中值滤波对图片进行模糊处理。②随机裁剪。随机裁剪掉原始图片部分边界。③图片扭曲。对原始图片的线条进行一定程度的弯曲畸变。④仿射变换。对原始图片进行旋转、缩放、平移、剪切。

图3 数据增强手段

2 试验结果与分析

为突出PaddleOCR 处理图片的能力，同时也可让试验更具参照性。首先，对开源Tesseract 识别引擎与PaddleOCR 识别CFD 界面内容的效果进行对比。其次，利用飞桨开发的识别框架PaddleOCR 来建立模型，并对其进行训练。试验结果表明，利用PaddleOCR 识别套件开发出的模型能实现对CFD界面的高精度识别。

2.1 Tesseract与PaddleOCR效果对比

2.1.1 文本检测。以CFD 界面区域为例，对Tesseract 与PaddleOCR 的直接识别效果进行对比，结果如图4 所示。图4（a）为CFD 界面，图4（b）为Tesseract 检测结果，图4（c）为PaddleOCR 采用DBnet 网络的检测结果。通过对比Tesseract 与PaddleOCR的直接识别效果可知，Tesseract检测级别为字符级，PaddleOCR 检测级别为单词级别检测过程。字符级别的检测要求是将每一个字符都单独分割出来，对检测要求更高，如果一个字符未被检测出或连续几个字符未被分割开，会对识别精度产生较大的影响。PaddleOCR 只是将单词区域检测出来，对检测精度的要求不高。但从图4（c）的检测效果来看，“Solution”和“Results”对象未被检测出，这是因为PaddleOCR 基础模型并未根据实际应用情况进行微调整，说明PaddleOCR模型有待改进。

图4 Tesseract与PaddleOCR检测对比

2.1.2 文本识别。由于软件界面的内容丰富，在识别过程中，Tesseract 和PaddleOCR 均出现对图标符号误识别的情况，但PaddleOCR 对图标符号的处理会更好。Tesseract 与PaddleOCR 的识别对比如图5 所示。此外，因Tesseract 存在不少弊端，尤其是对深色背景及分辨率不高的图片识别时，Tesseract的错误率更高，这是因为在文字检测过程中，字符未被完全检测出，导致识别错误率高，甚至无识别内容。虽然其有配套的校正工具jTessBoxEditor，但其对文字的校正过程过于烦琐，且效率不高，导致对深色背景及分辨率不高的图片几乎无法校正。“Parallel”深色图片的校正过程如图6 所示。校正后的识别结果为“ee ey”，可见其校正并未改善识别结果。因此，Tesseract 未被应用于CFD 软件界面的识别中。而在PaddleOCR 检测识别中，即使存在着少量的遗漏情况，但通过大量图片训练，也能轻易改善这种情况，从而实现高精度识别目标。

图5 Tesseract与PaddleOCR识别对比

图6 Tesseract校正及结果

2.2 PaddleOCR训练模型对比

在PaddleOCR 训练模型中，使用预训练模型en-number-mobile-v2.0可加快训练进程，这是飞桨团队公开的英文识别模型。同时，在3 种数据集模式下，即公开数据集ICDAR2015、自建数据集（CFDataSet）及二者的组合，分别对PaddleOCR 模型进行训练，并对得到的三种模型（CFD-m-1、CFD-m-2、CFD-m-3）进行评估，结果见表2。

表2 PaddleOCR训练模型对比

由表2 可知，基于ICDAR2015 数据集训练得到的模型（CFD-m-1），因训练场景不适合实际应用场景，且训练容量较少，导致其对CFD 界面几乎无法识别。基于CFD 界面所建立的数据集（CFData-Set），用其训练出的模型CFD-m-2 对CFD 界面的识别效果明显提高。同时，CFDataSet、ICDAR2015数据集融合训练所得到的模型（CFD-m-3），因训练数据复杂度更高、模型泛化能力更强，识别精度也得到进一步提高。后续需要继续增强数据集的容量及复杂度，并优化模型参数，从而改善模型的识别效果。

3 结语

本研究基于CFD 软件界面内容创建了多尺寸、多背景、多字体的数据集，并利用数据增强技术来增强数据集的多样性，能有效防止模型出现过拟合的问题。基于自建数据集和公开数据集训练得到的模型，因数据集在内容及组成形式丰富且复杂，模型泛化能力更强，可明显提高CFD模拟软件界面的识别精度。本研究初步实现了对CFD 模拟软件界面的高精度识别，为实现CFD模拟操作的智能化奠定重要基础。