基于投影特征的简谱数字识别方法

2015-06-24高强余军亢治虎

软件导刊 2015年6期

关键词：投影

高强　余军　亢治虎

摘要：简谱数字识别是光学乐谱识别中的一个重要分支，传统的识别方法是模板匹配，该方法计算量大，且对模板的依赖性很强，导致其鲁棒性较弱，对图像的噪声和位移敏感。考虑到简谱数字识别规模较小，通过分析数字对噪声较为稳定的几何特征，提出一种改进的投影特征匹配法对简谱数字进行快速识别匹配。理论分析和实验结果表明，改进的投影特征匹配法与传统的模板匹配法相比，识别精度和速度有所提高，鲁棒性也更强。

关键词：投影；数字识别；模板匹配；欧氏距离

DOIDOI：10.11907/rjdk.151538

中图分类号：TP317.4

文献标识码：A 文章编号：16727800（2015）006017604

作者简介作者简介：高强（1989-），男，湖北黄冈人，武汉工程大学计算机科学与工程学院硕士研究生，研究方向为图像处理与模式识别；余军（1992-），男，湖北天门人，武汉工程大学计算机科学与工程学院硕士研究生，研究方向为模式识别与智能系统；亢治虎（1988-），男，湖北襄阳人，武汉工程大学计算机科学与工程学院硕士研究生，研究方向为无线传感器网络。

0 引言

光学文字识别[1]（Optical Character Recogniton，OCR）是模式识别学科的一个传统研究领域。在音乐界，相对应于光学文字识别，有一个重要分支——光学乐谱识别[2]（Optical Music Recognition，OMR）。有了OMR技术，只需将纸质教材上的乐谱作一个清晰的扫描，由计算机进行演奏或者生成格式化的乐谱文件（MusicXML文件等），这无疑大大简化了录入乐谱的步骤，大幅提高了乐谱录入效率。

最为经典的OMR技术莫过于模板匹配法。该方法的基本思想是通过为每个待识别字符定义一个典型的标准模板，然后采用直方图法[3]、轮廓矩[4，5]、欧氏距离[6]、曼哈顿距离[7]等度量方法比较待识别的样本与标准模板，根据度量方法得出的相似度来决定样本与模板是否属于同一类别[8]。

由于标准模板的存在，常规模板匹配方法识别与数字模板数字字体一致时的识别率很高，但是它对噪声敏感，并且对数字的不同字体也不具有适应性，鲁棒性不强[9]——当数字的字体字形变化、识别图片的分辨率较低或噪点较多时，该方法的识别率下降。另外，由于常规模板匹配直接涉及到两个图像矩阵级别的运算，其计算量通常较大，时间开销较多[10]。

考虑到简谱中的数字识别规模较小，只有0～7八个数字，可通过分析简谱数字对噪声较为稳定的几何特征和水平或垂直投影特征，避开常规模板匹配法在鲁棒性上的劣势，应用一种改进的投影特征匹配法对简谱数字进行快速识别匹配，并给出具体的算法流程，分析了算法的时间复杂度。理论分析和实验结果表明，改进的投影特征匹配法与传统的模板匹配法相比，识别精度和速度有所提高，鲁棒性也更强。

1 算法原理

1.1 预处理

相机获取的信息多为32位真彩色信息，但乐谱只有黑白两色，人眼分辨乐谱不需要其它任何颜色信息。因此，在开始数字识别之前，可先采用加权平均值法转换三通道彩色乐谱到单通道灰度图，将彩色图像转换为8位灰度图，将图像的RGB三维信息转换为一维，可大幅度减小计算量，公式如下[11]：

上式中，红绿蓝三通道的权值是根据人眼对颜色的敏感度测定的，所以，运用式（1）可以得到较为理想的灰度图像。

为进一步减少计算量，还需要做二值化处理。将乐谱背景置为黑色（值为0），音符置为白色（值为255），在方便人眼观察的同时，可以为后续的图像处理技术带来操作上的便利。

1.2 投影特征匹配

由于待识别的目标结果只有0～7八种数字，采用水平投影法和垂直投影法[12]将图像从二维矩阵降维到一维向量以进行快速匹配。

设图像宽度和高度分别为w和h，现对其做水平投影，得到后的向量除以255w，所得到的向量下标对应图片坐标系中的纵坐标，而指定下标的值对应某一像素水平方向所有非零（白色）像素占该图片宽度的百分比。同理再对其做垂直投影，得到后的向量除以255h，则所得到的向量下标对应图片坐标系中的横坐标，而指定下标的值对应某一像素垂直方向所有非零（白色）像素占该图片高度的百分比。其它数字依此类推，所有数字的水平、垂直投影向量如图1所示。

观察8个数字及其水平、垂直投影向量的特征，这一步需要选取相对比较稳定，即能够直接从图像上体现出的不怎么受噪声影响、鲁棒性较强的特征来区分它们。可利用大部分图像中都存在的接近于100%的峰值区间，它们的水平位置特征比较具有唯一性。具体区分方法如下：

（1）8个数字中，只有2和4的水平投影接近于100%的峰值区间存在于向量后半段（反映到图2中2的灰色部分），但2的垂直投影不存在接近于100%的峰值区间（反映到图2中不存在竖直基本全部贯穿图像的白色连通域），而4的垂直投影存在接近于100%的峰值区间且位置同样在向量后半段（反映到图2中4的灰色部分）。

（2）剩下的6个数字中，只有1、5、7的水平投影的接近于100%的峰值区间存在于向量前1/3段（反映到图3中的水平灰色矩形）。其中，1的垂直投影存在接近于100%的峰值区间且位置在向量后2/3段（反映到图3中1的竖直灰色矩形，该特征在6个数字中具有唯一性，可直接筛选出），5和7的垂直投影都不存在接近于100%的峰值区间（反映到图3中，5和7的图像不存在竖直基本全部贯穿图像的白色连通域），但5的垂直投影的局部峰值存在于向量的前1/3段和后1/3段，而7的垂直投影的局部峰值只存在于向量的中部附近（反映到图3中5和7的竖直灰色部分）。

（3）剩下3、6、0三个数字，可以通过比较其垂直投影在前半段的峰值与后半段的峰值差来筛选出3——一般对于0和6，前后峰值差超过10%，而3的前后峰值差则会小于10%（反映在图4中3图像的灰色部分）。最后可利用6的水平投影在前半段存在的跳变（反映在图4中6图像的灰色部分）区分出6和0。

进一步总结，上述3步也即是说，仅需要提取水平和垂直向量的峰值区间的位置作为特征，即可区分出0～7八个数字。

算法1 投影特征匹配算法

输入：二值化后的矩形图片矩阵I。

输出：该符号的类型type（0～7为数字，-1为识别错误）。

Step 1：初始化type=-1，计算I的宽度w与高度h。

1.3 时间复杂度

设图像的宽和高分别为w与h，则Step 2中求水平投影与垂直投影向量并对其缩放各只需要遍历一遍图像，时间频度为T（w，h）=2wh；Step 3中，只需各自遍历一遍水平和垂直投影向量即可计算出最大值横纵坐标、平均值以及前后半段的峰值，时间频度T（w，h）=w+h；Step 4～Step 10中，只用到了基本乘除运算和比较操作，时间频度为T（w，h）=C（常数）；Step 11中，还需再遍历一遍水平投影向量，时间频度为T（w，h）=h。

综上所述，该算法的总时间频度为T（w，h）=2wh+w+2h+C，时间复杂度为O（wh）。

2 实验结果与分析

为了比较传统模版匹配方法与投影特征匹配方法在识别精度、识别速度与识别鲁棒性上的区别，本文对《天空之城》和《铃儿响叮当》两首乐曲的简谱进行识别测试。两种方法采用相同算法预处理和提取简谱中的数字，只在匹配阶段，传统模板匹配采用欧氏距离作为度量方法，而投影特征匹配采用本文方法，其识别结果如表1、表2所示。

从以上识别结果可以看出，在识别精度方面，2种方法都可取得较为理想的识别准确率，但投影特征匹配法的精度要略高一些；在识别速度方面，投影特征匹配法虽然增加了提取特征的过程，但由于信息量减少，还是缩短了10%左右的识别时间；在识别鲁棒性方面，欧氏距离法受模板的影响明显较大，例如表2中识别2和表1中识别6时，由于图片所用简谱数字与模板稍有变化（数字的平移或字体的变换），带来识别精度的下降，而投影特征匹配法则由于比较的是数字的几何特征，而它反映了不同数字之间的根本区别，相对于数字整体而言，抗噪性大大增强。

3 结语

通过分析简谱数字的几何特征，提出了投影特征匹配法，即一种将图像从二维矩阵降维到一维向量的快速匹配方法。在给出具体的算法思想之后，计算了算法的时间复杂度，并用不同的实验结果证实了算法的识别精度、识别速度和鲁棒性都要优于传统的欧氏距离模板匹配法。而对于如何将数字识别扩展到字符甚至汉字的快速识别、如何进一步提高识别精度等，相关工作有待进一步展开。

参考文献：

[1] 姚超，卢朝阳，李静，等.用于手写文字识别的MQDF替代参数选择方法[J].华中科技大学学报：自然科学版，2014（12）：6569.

[2] 何欢.光学乐谱识别技术研究[D].北京：北方工业大学，2011.

[3] 李小伟. 基于FPGA的灰度图像模板匹配并行处理研究[D].武汉：华中科技大学，2013.

[4] 王慧.基于模板匹配的手写体字符识别算法研究[D].北京：北京交通大学，2012.

[5] 孔金生，张小凤，王璇.基于轮廓特征的模板匹配方法及其应用[J].计算机工程与应用，2008（22）：201203.

[6] 黄琛.基于Hausdorff距离模板匹配的行人检测算法研究与应用[D].北京：清华大学，2006.

[7] CHING Y SUEN，JINNA TAN.Analysis of errors of handwritten digits made by a multitude of classifiers[J].Pattern Recognition Letters archive， 2005.

[8] G LOULOUDIS， B GATOS，I PRATIKAKIS，et al.Text line detection in handwritten documents[J].Pattern Recognition archive，2008，41（12）：758772.

[9] 唐琎，李青.一种快速的模板匹配算法[J].计算机应用，2010（6）：15591561，1564.

[10] 邵平，杨路明，黄海滨，等.基于积分图像的快速模板匹配[J].计算机科学，2006（12）：225229.

[11] ALEX ZELINSKY.Learning OpenCV computer vision with the OpenCV library[J].IEEE robotics and automation magazine，2009，16（3）：100110.

[12] 哈勤和，张畅，王泽兵，等.图象的快速一维投影模板匹配[J].计算机工程与应用，1998（1）：3839，50.

责任编辑（责任编辑：黄健）

英文摘要Abstract：Numbered musical notation recognition is an important branch of optical music recognition， the traditional method is the template matching， but its amount of calculation is very large， and very dependent on the templates， resulting that its weaker， sensitive to image noise and displacement. Considering the small scale of notation numeral recognition， analyzing the digital noise more stable geometry， the paper put forward an improved projection characteristics matching method for quickly identifying notation numbers. Theoretical analysis and experimental results indicate that comparing with traditional method of template matching， the projection characteristics template matching method is faster， more accurate and robust.

英文关键词Key Words： Projection；Number Identification；Template Matching；Euclidean Distance