基于神经网络的场景文字书写识别探讨
——评《文字书写系统的计算理论》
2020-08-14郭建华
书名:《文字书写系统的计算理论》
作者:史伯乐(Richard Sproat)
出版社:北京大学出版社
ISBN:978-7-301-17155-4/H·2496
出版时间:2010年8月
定价:34元
21 世纪是一个符号化的信息时代,文字和符号日益成为记载和传递信息的重要载体。因此,文字日渐广泛存在于各种场景中的各类物体之上,如路标、车牌、食品包装等。如今,人工智能发展迅速,并渐渐被广泛应用到各个领域中。人工智能在未来的社会中将发挥着不可替代的作用,然而人工智能离不开场景文字书写识别。
由史伯乐(Richard Sproat)著,北京大学出版社2010 年8 月出版发行的《文字书写系统的计算理论》一书以文字书写系统为研究对象,深入剖析其计算理论。该书围绕两大论点展开论述:(一)词形与书写规则的映射是一种正则关系;(二)一个特定的语言书写系统与其表达的语言学信息具有一致性。作者首先提出论点,接着以实例的形式从不同角度加以论证。具体内容涵盖书写系统的正则性、特定文字语言学信息表达及其一致性问题、常用的文字体系等多方面知识。该书结构层次清晰,中心明确,条理性、理论性、实用性较强,对场景文字书写识别研究者探究神经网络环境下场景文字书写识别具有一定积极意义,可供其参阅。
场景文字书写识别要通过计算机视觉进行识别、转换,理解图片上的文字,是计算机视觉技术中的重要组成部分。人们通常将识别图片文字的技术称为光学字符识别,简称OCR。传统OCR 主要以扫描文档图片为主,成像过程容易受限,识别方法主要依靠二值化等技术。场景文字识别是对传统OCR 的继承与发展。较传统OCR 而言,场景文字的排布、背景、字体、颜色等都更为复杂,因而在识别方面也更具挑战性。近年来,在神经网络的兴起下,计算机视觉行业中的许多问题因此得到了有效解决。神经网络是一种以模拟人脑神经网络为基础的机器学习技术。它的结构灵活,特征学习能力强,可进行端到端的训练,因而成为场景文字识别的得力助手,在场景文字书写识别过程中具有不可忽视的作用。在国家社会科学基金项目(16XYY009)资助下,通过对场景文字书写识别进行探究,加深人们对网络神经背景下场景文字书写识别的了解,以期促使人们能合理利用网络神经对场景文字进行识别。
文字检测是场景文字书写识别的第一步。片段链接是快速进行文字检测的一种方法,其核心是对文字进行拆解,将其分为片段和链接两大元素。片段是一个局部包围盒,用于覆盖一小部分单词或者文本行,常用一个带有角度的矩形框进行表示。矩形框与文字的高度差不多,但每个矩形框的长度只占整体长度中的一部分。如crocs 这个单词可拆解为五个片段,每个片段包含一个字母。由于每个字母的长度不同,故其矩形框长度也有所不同,c 的长度比r 长,因此其矩形框也比r 长。链接是指将两个相邻的片段连接起来,通过片段连接组成一个完整的文字,能相连的片段表示是同一个部分的,不能相连的片段则表示不同部分。如c、r、o、c、s 这五个片段能连接起来组成crocs 这个完整而有意义的单词,这表示c、r、o、c、s 属于同一个部分。在进行文字检测时,算法通过全面检测片段,将两个相连片段连接起来,并以几何规则为依据将相连片段整合为一个整词的包围盒,从而获取检测结果。该种方法最大的优势是它可以对长文本或非水平长词进行检测。
经过文字检测后,接下来就是对文字进行识别。CRNN 是能进行端到端训练的一种文字识别技术。它最大的优势是无需逐一对单个字符进行标注,能直接对文本与相应的标签进行训练。CRNN主要由卷积神经网络、循环神经网络和翻译层组成。卷积神经网络主要对卷积特征图进行分析、整理,并提取特征序列。循环神经网络负责检测卷积神经网络提取的特征序列,并输出检测结果。翻译层则负责对检测结果进行翻译。这样就完成了对场景文字的识别,从而为场景文字书写奠定良好基础。然而场景文字书写识别探索之路漫漫,需要研究者不断探究,通过不断学习,掌握相关知识,增强自身专业素养,从而更好地运用神经网络推动场景文字的书写识别。