文本图像的倾斜角检测在教学方法改革中的应用
2017-02-25巨志勇何晓蕾王超男
巨志勇,何晓蕾,王超男
(上海理工大学 光电信息与计算机工程学院 ,上海 200093)
文本图像的倾斜角检测在教学方法改革中的应用
巨志勇,何晓蕾,王超男
(上海理工大学 光电信息与计算机工程学院 ,上海 200093)
为了加强学生对于基础知识的理解和应用,以文本图像的倾斜角检测为例,提出在教学环节中引进一种不同于传统经典倾斜角检测的算法,即一种基于文本行基线的倾斜角检测算法,阐述此方法和传统方法相比具有的优势,最后说明该方法利于培养学生在学术理论上的创新性。
教学实践;直线拟合;倾斜校正;智能科学与技术
0 引 言
智能科学与技术是一门新诞生的学科和专业,旨在培养宽口径、高素质、复合型的智能工程科技人才,反映信息科学及其交叉学科的最新进展和国家对新专业的人才培养需求,肩负着智能科学技术专业人才培养的重任,而课程教学是培养相关人才的必由之路。人才培养和科学研究之间存在显著的正相关性,特别是人才的创新应用能力培养。智能科学与技术专业人才培养体系建设的思路:依托学院控制科学与工程等学科的优势,联合学院各个科研团队,将课程教学和承担的科研项目紧密结合,进行研教融合的专业人才培养体系建设,以达到培养创新型应用人才的目的[12]。
图像的倾斜以及后续的倾斜角检测和校正是图像处理的基础,和图像的预处理(二值化、去除噪声等)一样,是图像处理和研究过程中不可避免的一个环节,而文本图像的倾斜检测和校正是OCR系统中极其重要的一步。关于倾斜角检测,已经有很多经典的算法可以使用,主要分为以下几类:基于投影的方法、基于Hough变换的方法、基于K-最近邻簇法和基于傅里叶变换的方法。为了突出基础知识在学科学习过程中的重要性,我们坚持加强学生对于基础知识的深刻理解和应用,并且鼓励学生开拓思维。在理解经典算法的基础上,我们将一种基于文本行基线的倾斜角检测方法应用到教学环节中,既可以强调倾斜角检测这类基础知识的重要性,又能突破传统教学理念。
1 直线拟合的方法
这种倾斜角检测算法的主要思想就是用处理单行文字替代处理整幅文字图像,重点分为2个步骤。
1.1 特征点选择
设一行文本图像T由n个字符Ci组成,字符按照从左向右的顺序排列,即T={C1,C2…,Cn}。设Pi=(xi, yi)是字符Ci边框底边中点,而P={P1,P2…,Pn}表示这些边框底边中点的集合。由于文本中大多数字符为上行字符和中行字符,它们都以基线为基准,因此集合P为基线的基础,此时的集合P只是初始字符的集合。字符的书写格式和行高参考如图1所示,行文本中可能出现“a”“o”等在中上基线内的字符,也有“T”“h”等最高点超出上基线的字符以及“p” “g”等最低点低于基线的字符。不剔除这些最低点低于基线的字符,将会影响基线检测的可信度,也会对后续倾斜角的检测产生严重的误导。
根据字符的书写格式,笔者对文本行进行切分,如图1所示。设中线和上基线之间的距离为h,则字符的行高为H1=3h或者H2=2h,由字符的边框可以得到字符的高度,则h=H1-H2,本文规定以h作为剔除的依据;若相邻字符的边框底边中点的纵坐标差△y≥h,则剔除行高大的那个字符。
图1 字符的书写格式和行高参考
除了删除像“p”“g”这种最低点低于基线的字符,本文还要删除像“i”“j”这种由多个非连通区域组成的字符。由于非连通,自动机跟踪时会分别标记,并不会识别出这些部分属于同一个字符,而标记出的“i”“j”上面的点同样会对基线检测产生很大的干扰。在标记出字符的最小外接矩形后,通过比较这些区域的面积,剔除区域面积格外小的这些区域;删除完冗余部分,剩下的点用蓝色‘.’标记。
1.2 基线定位
确定了集合P,下面进行直线拟合。
设基线方程
其中Pi=(xi,yi)∈P,k代表直线的斜率,b代表直线在y轴上的截距。我们用Matlab自带的直线拟合函数进行拟合,可以求得k和b。
其中的x和y是上文已经确定好的特征点的横坐标和纵坐标。
2 基于文本行基线的倾斜角检测在教学中的应用
智能科学与技术在专业的培养目标上,以夯实计算机科学技术为核心,以加强智能科学理论方法和应用技术为核心,以促进学生知识、能力和素质协调发展为目标,注重培养学生良好的科学研究素养和技术应用能力[3]。把“文本倾斜角检测”这一基础性实践融人教学,一是可以突出基础学科在专业未来培养中的重要性,二是能够结合不同于经典算法的一种方法,提高学生对于专业的学习兴趣。
笔者运用到教学实践环节中的算法,旨在培养学生解决生活实际问题的计算思维。与表1中的4种经典算法相比,基于基线的方法不受图形和排版的限制,内存占用和运算时间也很小。从上节内容可以看出,笔者提到的方法有两个重点,以图2为例:一是文本图像中特征点的选取直接关系到拟合基线的准确性,学生通过理解特征点选取的思路,可以个性地理解实际工程解决办法的思维。图2(a)是要进行倾斜角检测的行文本,图2(b)是标记的各个字符的边框,以此就能按照第2节中的理论筛选特征点。二是直线拟合,笔者所使用的拟合语句是Matlab软件自带的,这样既可降低算法的实践难度,符合本科生的知识水平,又能让学生学会充分利用已有资源辅助实现工程目标。图2(c)是拟合完基线的行文本,基线标记成红色。
表1 4种经典类型算法的特点
图2 行文本的倾斜角检测
3 基于文本行基线的倾斜角检测算法结合专业教学的优点
智能科学与技术专业融合了计算机软硬件、人工智能、智能系统集成等众多先进技术,是现代检测技术、电子技术、计算机技术、自动化技术、光学工程/机械工程等学科相互交叉融合的综合科学[4]。在教学过程中,把机器视觉和图像处理的相关知识融人教学实践环节中,以图像处理的基本步骤为教学的切人点,既可让学生实际感受并解决与专业相关的工程问题,又能让学生对专业基础知识的应用有一定程度的理解。在教学环节,引人一种不同于传统算法的理论,有利于提高学生对于专业相关问题的学习兴趣和探索热情。在实际教学过程中,教师可以适当地结合课后任务,训练学生举一反三的能力,使学生脱离被动学习的窘境,提高创新能力,更加迎合社会人才的需求。将基于文本行基线的倾斜角检测算法和智能科学与技术专业的教学实践环节相结合,可以突破书本与传统的教学理念,提升学生对已有成熟技术的理解,激发学生对未来先进技术的兴趣。
现如今,用人单位更加看重应届毕业生的综合素质,其中就包括基础知识、专业技能、理论知识和时间能力的结合、创新意识等。上海理工大学的智能科学与技术专业也致力于为社会和用人单位培养复合型科技人才。将这种新颖的算法应用到教学环节中,不仅可以体现学科专业基础知识和理论知识的重要性,若再加上教师对学生的积极引导,还可以锻炼和培养学生的实践能力和创新性,这无疑可以提升学校智能科学与技术专业复合型科技人才计划的执行效果,同时也为国家和社会输出高质量的科技型人才打下良好的教育基础。
4 结 语
文本图像的倾斜角检测是OCR(光学字符识别)系统不可缺少的一步,是图像处理领域中不可忽略的一个技术问题。将一种基于文本行基线的倾斜角检测算法融人智能科学与技术专业的教学环节,同样是加强学生对于基础知识的理解和应用,不同的是突破了传统的教学理念,引人一种新的不同于传统经典算法的方法,在一定程度上培养学生的计算思维,提高学生学习专业知识的兴趣和解决实际工程问题的创新性,而且激发了学生学习专业领域先进技术的兴趣,紧跟信息时代技术发展的潮流,满足社会对技术人才的需求。
[1] 陈雯柏, 李擎, 王万森. 工程型智能科学与技术专业知识体系与课程研究[J]. 计算机教育, 2014(19): 29-33.
[2] 杨青, 党选举, 周萍. 智能科学与技术专业人才培养调查分析与研究[J]. 计算机教育, 2014(19): 34-37.
[3] 刘丽珍, 王函石, 刘杰, 等. 智能科学与技术专业学科发展与核心课程群建设的研究[J]. 计算机教育, 2014(19): 70-73.
[4] 巨志勇, 孙红, 陈玮, 等. 彩码技术在智能科学与技术专业教学中的应用[J]. 计算机教育, 2013(19): 88-90.
(编辑:宋文婷)
1672-5913(2017)01-0128-03
G642
国家自然科学基金项目“基于虚拟双能量减影软组织胸片计算机辅助检测肺结节研究”(81101116)。
巨志勇,男,讲师,研究方向为智能科学与技术和机器视觉,juzy@usst.edu.cn;
何晓蕾(通信作者),女,在读硕士生,研究方向为模式识别与图像处理,15850695057@163.com。