基于深度学习的文档图像形变矫正
2018-10-20申泽轩
申泽轩
摘要:OCR已经被广泛应用,其识别准确率影响着最终审核效果的好坏,而来自扫描仪、手机的文档图像多存在卷曲、折叠。本文旨在利用深度学习算法对文档图像形变进行矫正,从而提高OCR识别效果。
关键词:深度学习;U - net模型;OCR
中图分类号:G434
文献标识码:A
文章编号:1672 - 9129(2018)12 - 0086 - 02
1 应用前景
近年来,人工智能在许多任务中的表现已经超过了人类。如果能将AI引入办公场景,实现智能办公,将大大提高办公效率。要让机器代替人去做文本审核,首先需要让机器看到人所能看到的( OCR),而后才是理解人所能看到的( NLP)。作为后面一切算法的源头,OCR算法在其中起着至关重要的角色。除却算法本身,图像质量乃是影响OCR识别准确率的最大因素。一般从三方面来衡量图像的质量:倾斜、清晰度、扭曲。本文目的在于如何通过算法使得扭曲的文档图像变得平整,从而改善扭曲文档图像的OCR识别准确率,
1.1 传统方法。当前针对扭曲文档图像的矫正算法主要有以下三类:基于硬件的矫正通常使用特制硬件扫描纸张的三维形状信息。如采用结构光源来对文档进行扫描从而获取文档的三维信息,然后根据深度信息对文档图像进行矫正。基于3D模型重建的矫正从造成文档扭曲的原因出发,包含文档及其摆放角度、光源方向、图像获取设备特征等因素。对文档进行3D建模,利用已有的数学知识对扭曲進行矫正。
传统方法多是针对特定场景进行建模,而一旦跳出当前场景,模型就无法起作用。
1.2 深度学习方法。深度学习算法用语义分割相关的模型对扭曲文档图像进行建模,将像素级的分类问题转化为像素级的回归问题,实现扭曲文档图像的矫正,模型具有一定的泛化能力,可针对复杂场景下的扭曲或折叠图像进行矫正。深度学习的优势在于如若有足够丰富和质量高的训练样本集,其深层网络结构令其具有一定的泛化能力,可针对多种扭曲实现矫正,跳出传统方法的场景限制。
2基于U - net模型的文档图像形变矫正
U - net模型是一种用于生物医学图像分割的卷积网络,其网络架构形如字母“U”,因此被称为U - net,可以将此类神经网络理解为一个En-coder - Decoder结构,其中Encoder是收缩路径,主要是由卷积层和池化层组成,主要目的在于实现特征的提取或者说捕捉语义,而Decoder是扩展路径,主要通过转置卷积和跳跃连接实现,其主要目的是为了实现上采样,由于Pooling操作进行了下采样导致图像维度减小,而转置卷积可以让±fature map的维度变大,从而恢复到原图的大小,从而实现像素级回归。但是这样得到的结果是很粗糙的,所以一般还通过跳跃连接将浅层的特征concat到upsampling之后的feature map中以实现精准定位。
为了实现对模型的优化,还可以考虑以下方案,改变模型的结构:从U- net变成Stacked U - net,以提高分辨率。修改损失函数:使得模型在优化过程中让原本相邻的像素点之间的距离与预测结果差别不要太大,以改善文字扭曲变形的现象。对预测结果进行后处理,以改善噪点现象。
3 模型评价
本文旨在对扭曲图像进行矫正,基于图像分割领域的U - net模型,将扭曲文档图像矫正问题转化为像素级别的回归问题,针对模型结果中出现的文档扭曲错行以及预测结果分辨率不足等问题,提出了进一步优化的需求,目前虽然能够在简单场景下得到不错的效果,但仍存在不足,具体可描述为以下几点:
数据集:目前的数据集是参考图形学的相关知识自行构造而成,导致神经网络能学到的知识有限,一旦遇到场景中的复杂问题,神经网络的性能将受到限制。神经网络结构:目前的神经网络结构Dilated U - net相对于Stackfed U - net,虽然更轻型且训练速度更快,但最终若要实现网络模型在移动端的部署,其响应速度仍然存在优化之处。
4 未来展望
本文只是深度学习在计算机视觉领域的一个简单应用,其在计算机视觉、自然语言处理、数据挖掘、游戏、复合应用等领域还有着更为广泛的应用。OCR技术的广泛应用弥补了人工扫描的繁琐,更加便捷、快速、准确。未来对计算机视觉相关算法的优化势不可挡,必定要学会优化算法解决自己专业领域的特殊问题。
参考文献:
[1] Ma K, Shu Z,Bai X, et al.DocUNet: Document Image Unwarpingvia A StackedU - Net[C]//Proceedings of the IEEE Conference on ComputerVision and PatternRecognition. 2018: 4700 -4709.
[2] Ronneberger0, Fischer P,BroxT.U- net: Convolutional networksforbiomedical imagesegmentation[ C]//International Conference on Medicalimage computing andcomputer - assisted intervention. Springer, Cham, 2015:234 - 241.
[3] Yu F.KoltunV. Multi - scale context aggregation by dilated convo-lutions[J].arXiv preprintarXiv:1511. 07122, 2015.