APP下载

基于U-Net 的历史文档图像分割研究

2020-08-19贾晓光伍星何中市但静培

现代计算机 2020年19期
关键词:类别文档卷积

贾晓光,伍星,何中市,但静培

(重庆大学计算机学院,重庆 400000)

0 引言

历史文档是学者对于古代社会、人文等方面研究必不可少的重要资料,有必要将这些文明的瑰宝以电子化的形式保存。然而无论是学者的研究还是历史文档的保存,均需要语义分割技术的支持,尤其是通过OCR(光学字符识别)对文本图像提取文字,细粒度分割后的文本图像能够大大提升OCR 的识别效果。但是不同于传统文档图像,历史文档版式复杂、页面黄化和不同的写作风格等原因,使得对历史文档文本区域分割难度大大增加。

历史文档图像分割方法可分为传统和基于深度学习的方法。传统文档图像分割方法程序复杂,并且依赖人工提取特征,要求提取特征的人具有相关的知识背景。深度学习分割方法利用CNN 提取更丰富图像特征,然后对像素点或超像素进行分类,相比传统方法能够取得更好地分割结果,但是现有的深度学习网络模型特征提取网络结构简单,并且增加了较多的后处理工作,大大降低了分割效率,同时没有考虑数据集中类别不均衡的问题。

因此,本文提出了一个端对端的像素级别历史文档分割模型,贡献如下:①构建了以DenseNet[1]为骨干网的U-Net[2]融合更丰富的图像特征以解决历史文档图像布局复杂的问题。同时在DenseNet 骨干网中加入空洞卷积[3]来扩大感受野来融入更多地上下文信息;②使用了Focal Loss[4]函数进行辅助监督训练以解决数据集类别极不均衡问题;③针对历史文档数据集图像数量少的问题,本文使用数据增强对数据集进行数据扩充;通过对历史文档图像类别布局分析,使用over⁃lap-tile 策略对图像进行分割预处理。本文模型在历史文档分割数据集上进行实验并取得了当前最好的分割效果。

1 数据预处理

通过对数据集的分析,发现数据集图像数量较少且每张图像尺寸大。所以使用数据增强与基于over⁃lap-tile 策略的图像切割方法进行数据预处理。

图像数量较少不利于网络模型的监督学习,本文使用图像增强的镜像操作方法进行数据集扩充,得到了比原数据更丰富的图像信息,扩充后的训练集大小为150 张图像。

由于图像尺寸较大以及硬件设备的限制,网络无法进行监督训练,而大幅度的缩放图像会造成大量信息的丢失,甚至会更改图像信息,本文按比例将原图切割为相同大小的图像块来作为网络的输入。为了更精确地分割图像边缘部分,本文借鉴U-Net 中的overlaptile 策略,它通过重叠平铺策略无缝分割任意大的图像,补全了要获得图像的上下文信息。见图1,右侧图像即是左侧图像中橘色框内的图像,若要对右侧图像进行分割,则需要将左侧蓝色框大小图像放入网络,最后通过裁剪预测图得到。

图1 通过overlap-tile策略预测右侧图像

2 网络结构

本文设计了如图2 所示的U-Net 网络模型。网络采用DenseNet 作为骨干网提取特征并加入空洞卷积模块,主要作用是通过特征图拼接加强图像特征的融合,最后使用带有Focal Loss 的混合损失函数进行监督训练。

图2 网络结构图

2.1 基于DenseNet的U-Net网络

对于具有复杂版面布局的历史文档图像,本文UNet 使用了具有特征融合性更强的DenseNet 骨干网来提取特征。它是在ResNet[5]的基础上进行改进的卷积神经网络,由多个DenseBlock 和过渡层交叉堆叠构成,相比较其他骨干网,加强了特征的传递、复用和融合,还具有一定的抗过拟合的能力。本文选择DenseNet-169,对每个Block 的输出做上采样操作,同时与下采样相同尺寸的特征图进行拼接,构成了新的U-Net 网络结构。通过多次低阶与高阶特征复用、拼接融合,能更好地提取具有复杂版面布局的历史文档图像的特征。

历史文档图像分割依赖更多的上下文信息,因此需要更大的感受野,因此使用了空洞卷积核,同时Peng、Chao 等人[6]验证了多个小卷积核堆叠的实际感受野达不到理论感受野大小。

本文对每个DenseBlock 的输出做 rate=3 的 3×3空洞卷积,然后与原特征图进行拼接,这样能够融合更多的上下文信息。本文对多个DenseBlock 的输出均进行了空洞卷积操作,可以认为实现了多个空洞卷积核的串行堆叠,更大大扩大了感受野,能更好地提升分割效果。堆叠感受野分别为R1 和R2 的空洞卷积核,其感受野 R 见公式(1):

2.2 损失函数的设计

目标检测领域中通过使用Focal Loss[4]来消除类别不平衡造成的分类错误。历史文档数据集同样存在类别极不平衡的情况,因此本文使用Focal Loss 来辅助监督训练。Focal Loss 可以看作带有权重的交叉熵损失函数,其定义见公式(2):

其中(λ-pk)γ为交叉熵损失对应的权重,pk 为第k类的预测概率。本文设置γ为2,λ为0.5 进行实验,在装饰类别提升了较大的效果。最终的损失函数由多分类交叉损失函数和Focal Loss 函数相加得到,见公式(3):

将网络右侧与左侧分支的输出相加,从标记图像中获得监督信号来计算损失,通过BP 更新网络参数。

3 实验结果及分析

3.1 数据集

DIVA-HisDB[7]是在2017 年发布的最新历史文档分割数据,包括CB55、CS18、CS863 三种类型的中世纪手稿图像数据集,具有复杂的布局版式、多样的手写样式、黄化的页面等具有挑战性文档分割的特点,每种类型的数据集均含带有标记的20 张训练集、10 张测试集和10 张验证集。其中CB55 每张图像尺寸为4872×6496,其余数据集尺寸为3228×4992。

数据集中,像素点共分四类:背景(页面和四周黑色背景)、正文、评论(分布在正文两侧或正文行与行之间的注释)、装饰(红色的字符等),图像使用黑色背景包围文档图像。统计每个类别的像素数,得到被标注的41.37%为评论,1.69%为装饰,56.94%为正文。值得注意的是,装饰类别面积只占有总页面的1.69%,可见类别数目极不均衡。

3.2 评价指标

本文使用ICDAR 官方提供的历史文档图像分割评价工具[8],即 Accuracy(像素精度)、mAcc(平均像素精度)、mIou(平均交并比)、FwIou(频率加权交并比)。Accuracy、mAcc、mIou 和 FwIou 的定义分别见公式(4)、(5)、(6)和(7)所示。

其中k 表示类别数目,Nc表示类别总数,Ti表示类别i 的像素点总数,Nij表示标记为类别i 预测类别为j的像素点数目。以上四种指标,均是数值越大分割效果越好,反之则越差。

3.3 实验分析

本文设计了4 个实验分别阐述了本文模型、融合空洞卷积的DenseNet、图像切割比例和Focal Loss 对历史文档图像分割的有效性。

(1)深度学习模型间对比

本实验是本文模型与其它深度学习模型的对比实验,其分割图如图2 第2 列所示。表1 显示,本文模型在三个数据集各指标上均优于文献[9]。经过对文献[9]的分析得到,SLIC[10]超像素分割时就存在较多的错误,同时CNN 也会出现分类错误,串行的操作大大降低了分割精度,同时[9]将原图切成较小的图像块作为CNN的输入,网络无法获取更多的上下文信息,进而导致超像素分类错误,进而出现区域性分割错误。

(2)Focal Loss 的有效性

为消除装饰类别占比极不平衡对分割带来的影响,本文做了消融实验来验证Focal Loss 的有效性。通过表3 得到,针对装饰类别占比最小的CB863(<1%),Focal Loss 在mIou 提升最大,达到1.04%左右。而针对装饰类别占比最大(<%2)的 CB55,使用 Focal Loss 后虽然平均精度有所下降,但是mIou 在提升,说明CB55分割的主要矛盾并不在类别不平衡,Focal Loss 对其装饰分割贡献不大,反而影响了对于区域面积相差不大的评论和正文的分割。结合实验,可以认为Focal Loss对类别极不平衡的图像分割是有效的。

表1 不同模型的实验结果(百分比)

表2 1/4 比例切割下Focal Loss 的消融实验结果

表3 本文方法在不同切割比例下的实验结果

(3)图像切割比例大小的影响

根据实验结果可以看到,切割比例对图像分割效果影响较大,图2 展示了右侧1/4 切割远远好于左侧1/8 切割的分割结果。本文认为数据集中图像类别区域有较为固定的布局,每张切割后的图像都需要保留独特的布局特征,而无论是1/8 还是1/15 切割原图,切割后的图像尺寸太小,那么图像块中只含较少或不含有独特的布局特征,CNN 在训练时无法获得足够的上下文信息,不能提取出图像块特有的高阶特征,可以间接地认为网络无法通过图像本身的高阶特征去学习其在原图的位置信息,从而出现大面积的分割错误。

尤其是 CB55,通过表 3 得到 1/4 比 1/8 切割在mIou 和mAcc 两个指标提升了近一倍,相比较另外两个数据集,CB55 的正文和评论在文字颜色、书写笔迹等方面较为相似,而且较小尺寸的图像又无法通过网络学习到位置信息。另外两个数据集也出现了较多的小区域分割错误。根据实验结果证明了切割比例对最终图像分割结果有着重要的影响。

图3 CB55在不同切割比例下的分割图

图4 标记可视化图像,本文模型和1/8分割示例图

4 结语

本文对于历史文档分割的研究是基于历史文档数据本身的特点和前人研究方法的不足之处,提出了一个基于U-Net 的端到端的像素级别的历史文档图像分割网络,通过合理的数据处理和模型设计,在DIVAHisDB 页面分割任务上获得了最优的效果。后续会考虑其它造成历史文档图像分割难的特点进行研究和模型设计。

猜你喜欢

类别文档卷积
基于全卷积神经网络的猪背膘厚快速准确测定
浅谈Matlab与Word文档的应用接口
一种基于卷积神经网络的地磁基准图构建方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
一种并行不对称空洞卷积模块①
有人一声不吭向你扔了个文档
轻松编辑PDF文档
一起去图书馆吧
简析基于概率预测的网络数学模型建构
Word文档 高效分合有高招