APP下载

基于机器学习的文字识别方法

2018-02-28张恺天

电子技术与软件工程 2018年21期
关键词:机器学习方法研究

张恺天

摘要

随着当前时代科技的进步,人工智能发展极为迅速,人们对机器学习的研究也取得突破性进展。基于机器学习的文字识别方法对信息技术有着极为重要的促进意义。接下来本文将对基于机器学习的文字识别方法研究,进行一定分析探讨,并对其做相应整理和总结。

【关键词】机器学习 文字识别 方法研究

机器学习作为人工智能的重要组成内容,近年来其已经逐渐被应用至各行业领域中,其所具有的智能化特性,使得其应用过程所取得实质性效果极为明显。而基于机器学习的文字識别,虽然其在原理以及技巧上已经形成相对丰富的理论支撑,但在实际实践期间仍面临各种因素制约,使其识别效果很难得到体现。

1 机器学习发展简析

机器学习即是使机器能够形成与人类大脑相似的模仿性能,从上世纪中期开始,其主要以进化学习以及判别函数来体现,整体局限性相对较为明显;自上世纪八十年代,不同种类学习器模型的产生,使得其能够结合多种学习算法确保理论与实践能够形成紧密连接;直至今天,机器学习已经逐渐被运用至多个行业领域中,比如图像处理、股票交易等;其对整个信息时代智能化发展的推动效果明显。

2 基于机器学习的文字识别发展及问题

2.1 文字识别发展及缺陷分析

常规的文字识别即按照文字直观形态特征,通过对文字字符间的形态差别做对应统计分析,以找出一组相似的可以代表文字差异统计参数,来对其进行全面的筛选识别,以此达到计算机文字识别并使其自动录入保存。但在实际运用期间,针对字符较少的英文来进行识别应用时,仍很难取得良好的识别准确率;造成这种现象主要是因文字种类、文字自身像素抖动、识别时间长等原因所致。其中文字种类的多样性使得文字识别难度加大,而十倍花费时间较长使得整个个识别效率很难得到保障。

2.2 机器学习文字识别问题

基于机器学习文字识别的开发和实践一定程度上促进了文字识别的发展,比如以往所出现的紫光、赛库等较为人们所熟知的文字识别软件产品,其对识别对象整体识别率相对有一定保障;但从实际来看其本身所存在问题仍然较为明显,比如识别过程中常会出现对部分相似字识别错误的情况,同时相应版面分析缺乏一定智能特性,整个识别结果处理排版与原文字图像差别性较大,都使得基于机器学习的文字识别效率和识别质量和很难得以体现。

3 基于机器学习的文字识别方法

通过上文对基于机器学习的文字识别发展及问题分析,结合实际开展对应识别方法方案设定时,应注重对系统方案专业性和精确性的合理设定,确保机器学习自身智能化特性充分得到发挥,使文字识别效率能够得到保障。

3.1 文字识别方法发展方向

当前文字识别主要是对手写体、印刷体、世界场景文字进行相应识别。其中手写体文字识别通常在对应文字识别系统输入终端固定位置进行输入,其输入文字像素为二值图像;而印刷体文字其文字图像本身为灰度图像,其对系统计算复杂度要求更高;而世界场景文字图片本身背景干扰要远超过印刷体文字,其识别难度也会呈直线上升;因此根据此类情况对其进行基于机器学习的全新文字识别方法方法设定,也是确保文字识别能够全面、高效、稳定发展下去的必要条件。

3.2 专业框架系统的形成

(1)进行基于机器学习的文字识别方法设置时,应明确机器学习本身所具有的分类器构建特质,集合分类器对大量未知及已知视距进行正确分析分类的功效,确保基于机器学习的文字识别系统能够全面形成。这个过程中相应研究人员应注重其辨识性特征向量提取,对各信息数据之间规律原则做好全方位划分,结合分类器提供训练数据模式,将其交由分类器并使其能够从中进行学习归纳,以此使文字识别系统本身适应能力以及易升级特性可以得到保障。

(2)对其系统学习过程进行合理构造,确保其学习过程能够与推理过程形成紧密相连;对应极其学习可以根据学习策略、知识描述等开展对应分类作业。此期间注重知识表现形式作为机器学习系统重要组成部分,其主要是以自身所带就具体算法决定,相同结构学习器往往可以运用至不同领域中,即受此原理影响。与此同时,推理过程作为相应机器学习的智能化实质体现,结合推理策略的专业设定使文字识别系统学习器、数据、知识调整之间的关系能够完全得到直观反映。对机器学习算法进行符号表示和原理划分,明确其将数据转化为知识进行阵列表示的特性,此期间知识表示与分类器类型以及结构直接相关,例如在神经网络网状结构中的权值和阈值分布。当前常见的较为成熟的学习器主要是以贝叶斯分类器、神经网络、随机森林等来能体现。其中随机森林作为当前最新的分类器,其在运用之文字识别过程中,能够结合自身较好的强大自学能力以对大量数据学习归纳等特质,最大限度降低文字识别过程中所出现不明分类及识别误差,确保整个文字识别效率和识别质量能够完全达到预期标准。

(3)对其系统内学习器进行专业检测和合理设定,明确学习器输入必须与相应系统环境有直接关系,相应学习器按照内部学习算法来将环境数据进行归纳转换,对转换形成新信息做更新至知识库作业,确保学习器下次输入与上次输入能够形成一定联系,确保学习器完成指定任务后可以对学习部分形成反馈,使其知识库、环境、执行部分可以反应对应工作内容。以此确保整个文字识别系统完善性和专业性充分得到体现,最大限度提升文字识别效率。

3.3 应用分析

基于机器学习文字识别系统构建完成后,进行对应文字识别运用。以汉字为例,当前我们生活工作中所接触汉字你数量在7000左右,常用汉字为3000作用,在此基础上进行识别设置时必须对至少700各字符数字进行图像构建,字符图像数量共计十幅,将所有构建图像分为七组,每组选择一副图像为测试数据,其余九幅图像为训练数据结合神经网络文字世界系统;最终所取得识别输出结果准确性较高,整体识别质量能够有效得到保障。

4 结束语

通过对基于机器学习的文字识别方法研究分析,可以看出其对文字识别技术发展有着极为重要的积极影响;因此注重对机器学习的加强和完善,明确对其运用的专业合理性,是确保我国文字识别水平能够不断提高、进步的必要条件。

参考文献

[1]冯琬婷.基于文字识别视角分析人工智能机器学习中的文字识别方法[J].电子技术与软件工程,2017(13):253.

[2]端木海臣.文字识别视域下的人工智能机器学习的文字识别方法研究[J].电脑编程技巧与维护,2017(12):82-84.

猜你喜欢

机器学习方法研究
前缀字母为特征在维吾尔语文本情感分类中的研究
数学教学中有效渗透德育方法的研究
基于支持向量机的金融数据分析研究