APP下载

深度学习在文字识别领域的应用研究

2022-09-28杜朋轩

科技资讯 2022年19期
关键词:文字深度信息

杜朋轩

(宁夏职业技术学院 宁夏银川 750021)

在信息技术法的快速发展背景下,文字信息的数量越来越大,如何做好汉字的识别与保存工作是目前需要解决的问题。信息技术的运用,可以强化汉字的识别效率,为各个领域文字工作开展提供基础保障。深度学习在文字识别中运用,为文字识别提供技术支持,促使文字识别技术创新与改革。

1 相关的概念

1.1 深度学习

深度学习(Deep Learning,DL),是机器学习领域的一部分,是学习样本数据的内在规律与表示层次,对学习过程中获得的信息(文字、声音、图像)的解释有很大的帮助。深度学习的目的是赋予机器人分析学习能力,使其能够识别文字、声音等数据[1]。在深度学习被运用多个不同的领域,如机器翻译、自然语言处理、数据挖掘等,取得较多良好的成果。深度学习主要包含3个方面的内容:第一,以卷积运算为基础的神经网络系统;第二,以多层神经元为基础的自编码神经网络;第三,以多层自编码审计网络的方式进行预训练,进而结合鉴别信息进一步优化神经网络权值的深度置信网络。

1.2 文字识别

文字识别(Optical Character Recognition,OCR),就是利用计算机自动识别字符的技术,包含文字信息的采集、信息的分析与处理、信息的分类与判别等内容。其中信息采集,就是将纸张中的文字灰度转变成电信号,传输到计算机中。信息分析与处理,就是将收集的电信号进行正规化处理,将文字、标点符号转变为统一的标准。信息分类判别,就是对转化成文字的信息进行分类,将此以准确的方式呈现出来。图1 为该技术手段工作流程。

图1 文字识别技术工作流程

当前文字识别技术的应用范围非常广,不仅在阅读、翻译中运用,同时也被运用在征收业务、稿件校对、证件识别等行业。该技术手段的运用,不仅有助于提升文字处理工作的效果,同时还能提升文字识别的准确性。

1.3 文字识别的意义

在互联网快速发展背景下,各个行业逐渐出现较多的文字信息,如何将文字信息有机的收集、整理、保存好,是文字工作者需要考虑的问题。文字识别技术的运用,能够减轻相关人员的工作压力与难度,提升文字信息的收集与管理效果,为各个领域工作开展提供文字信息的支持。文字识别技术发展的意义主要体现在以下方面。

1.3.1 为中文信息录入工作提供便利

无论是哪个行业的发展,都离不开语言文字的支持[2]。若是采用传统人工的方式录入文字,无法保证文字的准确性,同时还会影响行业发展。文字识别技术的运用,将文字信息全部整合在一起,减少文字录入工作量,提升文字信息收集工作效果。比如:合合信息科技股份有限公司与RPA,联合推出智能文字识别+RPA,为RPA 机器人安装智慧的“双眼”。文字识别与人工智能的结合,可以使机器人可以精准且快速地“阅读”用户上传的各种纸质、电子等材料。在多人使用的场景下,系统可将机器人的响应速度提升到20 s之内,单张图文资料OCR识别速度在1~2 s之间。

1.3.2 提升办公效果

在科学技术手段快速发展背景下,国家提倡无纸化、智能化办公。文字识别技术的运用,提升文字信息的处理效率,为办公室工作的实施与开展提供技术手段支持。该技术手段的支持,提升办公室工作效果,促使文字相关工作顺利实施。比如:在印刷行业、文印店工作的过程中,部分用户会有将图片信息打印成Word文档的需求。这时工作人员可以利用ocr 文字识别软件,将识别图片中的信息,并将此转化成数字化的形式,通过编辑,将此转化成Word文档。

1.3.3 促使文化发展

最近几年,我国科学技术发展速度十分迅速,为各个行业发展带来技术支持,促使行业的创新。文字识别技术的运用,反映出我国科学技术的进步与发展速度,为国家技术进一步发展提供动力。我国作为一个多民族国家,大部分少数民族都有自己的语言与文化。若是研究者不了解其他民族的语言,那么研究工作就无法顺利实施。针对这一问题,可以借助文字识别技术,扫描识别其他民族的语言文字,将此翻译成简写的汉字,以此了解其他民族的文化发展情况。这样一来,不仅可以推动我国文化发展,同时能够丰富中华文化,促使相关工作有秩序开展。

2 深度学习下的文字识别技术应用优势

在深度学习技术下,衍生出较多的文字识别方法,文字识别方法不同,呈现出的效果也不同。通过对文字识别方法的分析,发现卷积神经网络应用范围较广,大部分文字识别技术都是以卷积神经网络模式为基础,将此作为文字识别的主要方法。与传统技术相比,该模式的运用,可以提升文字信息提取效果,减少文字信息错误的问题[3]。深度学习中卷积神经网络模式(Convolutional Neural Networks,CNN)的工作原理,就是将输入计算机中图像内部的特征信息,通过卷积与采样等操作,将文字信息精确地提取出来。

20 世纪80~90 年代,已经有学者开始研究卷积神经网络,其中时间延迟网络与Lenet-5是最早出现的卷积神经网络。随着深度学习理论提出与数值计算设备的完善,卷积网络神经网络得到快速的发展,并逐渐被运用在多个领域,成为文字识别方法重要组成部分。这一文字识别方法主要具备共享卷积核的优势,能够快速处理大量的数据信息。在利用这一方法进行文字识别工作时,不需要操作人员手动选择特征,只需要通过训练好权重的方式,即可获得已经完成分类的文字信息。

3 文字识别方法中存在的问题

文字识别方法虽然得到广泛的运用,但是在运用中发现一些问题,影响文字识别技术的发展。具体表现为以下几个方面。

3.1 部分文字识别方法缺乏自主性,过分依赖人工定义特征

为了提升文字识别技术的应用效果,我国学者对文字特征进行相关的研究,虽然获取一定的成就,但是由于文字的特殊性,所以部分研究内容无法被运用在实际中,无法为文字识别技术的运用提供支持。比如:文字识别的过程中,会因为不同样式的字体、竖直的文本、特殊的字符等因素出现无法识别的情况,直接影响文字识别的效率与质量。人工定义特征的方式,虽然可以将文字识别工作变得简化、规范化,但是人工定义特征工作比较复杂,无法将所有的文字信息都整合在一起,为文字识别工作的实施提供支持。

3.2 脱离文本的字符在识别中容易出现歧义

部分文字在识别中,会出现与文本含义不同的情况,影响文字识别的效果。

3.3 简单文字整体识别难度较大

不同的文字识别方法会呈现不同的效果,以整个单词识别方法为例,在文字识别的过程中,可以通过图片、文本等载体提取文字特征,然后利用信息技术进行识别。虽然可以快速获取不同载体中的文字信息,但是也存在以下问题。

(1)无法实现对无约束情况下文字的识别。部分文本中出现的文字,并不是汉字,而是由字符组成的文字,如验证码、商标名称等。在文字识别的过程中,会因为无文字特征约束,出现无法识别的情况。(2)长串字符识别难度大。在文字识别的过程中,会因为字符的数量出现无法识别的情况。(3)字符定位功能不清晰。文字识别方法运用的过程中,不仅要识别图像或者文本中的文字,同时还要了解字符在原图中的位置,并利用字符的识别方法进行识别,确定字符内容与含义。但是由于字符定位不清晰,所以无法为文字准确识别工作开展提供支持,造成汉字识别效果不理想的情况出现。

3.4 训练样本制作方式过于复杂

当前文字识别中有很多算法,这些算法的训练过于依赖训练样本中标准结果[4]。也就是说系统录入什么内容,算法只能识别这一内容,无法识别系统内不具备的信息。训练样本的制作只起到辅助作用,且工作人员专业能力有限,无法将所有的文字都体现在训练样本中,为文字识别工作实施带来一些难度。

在文字识别中,识别方法的运用,虽然可以加强文字录入工作的压力,但是因为文字识别方法缺陷与不足,所以无法为所有的文字识别工作提供技术支持。在未来汉字识别工作中,需要加强对当前识别方法的研究与分析,结合各个领域的需求,对识别技术与方法进行创新,促使文字识别工作顺利进行。

4 深度学习下的文字识别技术应用

在科学技术发展背景下,智能化已经成为各个领域发展的必然趋势。文字识别技术的运用,不仅可以体现出信息技术的应用价值,同时可以为不同的行业发展助力。通过对当前深度学习文字识别技术运用情况的分析,发现该技术主要被运用在以下方面。

4.1 证件识别

在金融领域、保险、互联网等多个不同的领域,都需要人们出示证件信息。若是采用人工的方式进行证件信息的收集与保存,会出现信息录入错误或者重要信息泄露的情况。文字保苗技术的运用,为各个行业中的证件识别工作提供技术手段支持[5]。当前有专门识别证件的软件,可以用于二代身份证、护照、行驶证、驾驶证等20 多种不同证件的识别,具体如图2 所示。该技术中被运用在证件采集仪、门禁考勤机、人行通道闸机等领域。

图2 身份证文字识别

4.2 银行卡识别

银行卡识别技术,主要是对银行卡号进行识别。在线上软件中,用户若是产生消费需求后,会绑定银行卡。这时可以直接利用相关的设备,拍摄银行卡,自动识别银行卡中的信息,将识别中获取的信息进行分组分类,保存在软件系统中。与传统手工输入银行卡号码的方式相比,该技术的运用,提升数字信息的录入速度,同时可以减少外界因素的影响,能够识别市面中凸字银行卡、平面银行卡。此外该技术可以保存银行卡实物影响,不需要纸质复印保存。移动端银行卡识别SDK、云端银行卡识别API中都引进的文字识别技术,为银行与金融领域工作提供便利。

4.3 车牌识别

最近几年,我国汽车行业发展越来越迅速,交通运输部门为了提升车辆管理效果,维护社会的稳定,将文字识别技术引进车牌识别中,将此作为管理工作开展的媒介。传统人工管理的方式,无法及时发展车辆违法行为,且不能为汽车行业的发展提供更多信息的支持。文字识别技术的运用,可以快速了解汽车的车牌号、颜色、类型等重要信息,对移动警务、占道停车、停车场管理、车险等方面工作开展具有促进作用。以车牌识别抓拍相机为例,该设备在文字识别技术的支持下,可以快速抓拍车辆外形、车牌信息,并利用交通运输相关的数据库,进行对比,判断其是否存在违法行为,主要被运用在要是城市道路或高速公路出入口、收费站等重点治安监控地段的全天候实时检测与记录收费站、交通或治安检查站等地点。

4.4 识别营业执照

营业执照的管理十分重要,是维护市场秩序与稳定的杆件。个体经营、企业经营等具有商业性的经营活动,都需要办理营业执照。由于营业执照信息较多,若是采用手工录入或者拍摄照片保存的方式,不利于后续的运用[6]。文字识别的运用,将营业执照中信息,如统一社会信用代码、公司名称,以统一的方式提出来,为相关工作的实施与开展提供便利。目前我国常用的识别软件包含移动端营业执照识别SDK、文字识别SDK、扫描识别硬。文字识别技术的运用,提升重要信息的管理效果,为集中管理提供便利。

4.5 票据信息识别

票据管理与我国各个领域工作有着密切的关系,是了解各个行业经济运行情况的关键。文字识别技术与票据管理工作的结合,不仅可以提升票据管理工作效果,同时可以避免出现信息丢失或者不准确的问题[7]。以企业为例,企业经营管理中会产生较多的票据信息,如采购票据、差旅票据、税务票据等,涉及的信息内容较多。文字识别技术的运用,能够为票据管理人员提供便利,可以辅助票据管理人员将相关票据信息以标准的方式整合在一起。目前比较常用的票据识别技术有表票识别扫描仪、表票识别SDK。

4.6 文字识别

在我国文字工作领域中,深度学习文字识别技术应用比较广泛,成为图书馆、报社等行业主要工作手段支持。文字行业涉及的文字信息较多,若是采用人工的方式进行文字信息的收录审核,不仅无法保证文字信息录入的准确性,同时需要消耗较多的时间,增加工作成本。文字识别技术的运用,可以辅助文字管理者将纸质信息准确、快速地转化成数字化信息,存在计算机中[8]。文字扫描仪是目前比较常用的文字识别技术,通过该技术手段的运用,提升文字信息处理效果与质量,解决信息收集与处理效率低下的问题。

以满文识别通为例,该软件可将满文档案的图像、信息,通过识别技术转换成可编辑检索的文本信息。当前这一系统的满文行书识别率86.6%,满文楷书识别率95.1%,其单机识别速度达到625幅/h。该软件的开发,为图书馆管理工作提供支持,减轻了工作人员是手工识别压力,提升了档案信息的翻译与管理效率。

5 结语

总而言之,在文字识别技术与深度融合技术的运用,提升文字信息的处理与运用效果,为文字相关工作的实施提供便利。此外,可以发挥深度学习的优势,丰富文字识别技术的功能,将此运用在证件号码、汽车车牌、票据信息、图书馆等方面,解决当前文字识别技术最红存在的问题,为各项工作提供便利的同时,展示出现代信息技术优势与应用价值,为我国全方位发展打下坚实的基础。

猜你喜欢

文字深度信息
文字的前世今生
深度理解一元一次方程
热爱与坚持
当我在文字中投宿
深度观察
深度观察
深度观察
订阅信息
展会信息
种出来的“逍遥居”