基于改进特征提取方法的五线谱识别

2019-07-08陈琢吴亚联何婕

软件导刊 2019年6期

陈琢吴亚联何婕

摘要：针对传统五线谱识别方法存在谱线过删和漏删的缺点，以及现有音符特征提取方法与谱线删除相互制约的问题，提出一种改进的、无需删除谱线的特征提取方法。在图像预处理阶段保留谱线，将音符与谱线同时投影，结合音符符杆垂直像素数据与音符其它部位像素数据携带的映射特征，对横纵向投影数据进行数理统计分析，得到供音符类型识别的归一化特征值，再利用基准谱线与音符符头的相对位置获取音调信息。实验结果表明，该方法在保证较高识别精度的基础上，进一步提高了识别速率，可以有效识别音符组合形式较复杂的乐谱，对于五线谱识别应用具有重要意义。

关键词：五线谱识别;特征提取;映射特征;横纵向投影;归一化特征值

DOI：10. 11907/rjdk. 182639

中图分类号：TP319

文獻标识码：A文章编号：1672-7800（2019）006-0125-05

Abstract：Concerning the excessive-deleting problem and leaky-deleting problem that existed in spectral delete of traditional recognition of music score， and the mutual restraint between the feature extraction algorithm of notes and the lines delete， a novel feature extraction algorithm is proposed， which preserves the spectral lines. We preserved the spectral lines in image？preprocessing and projected the notes and spectral lines at the same time. Combined with the mapping characteristics carried by the vertical pixel data of notes rod and pixel data of other parts of notes， performing basic mathematical statistical analysis on the horizontal and vertical projection data， the normalized feature values for musical note type recognition are obtained. Then we used the relative location between the standard lines and notes head to obtain the tone information. The results of the simulation illustrate that the proposed algorithm is a feasible way to recognize more complex combinations of notes and improve the recognition rate under the premise of ensuring high recognition accuracy.

Key Words：recognition of musical notation; feature extraction; mapping characteristics; horizontal and vertical projection; normalized feature

0 引言

五线谱是目前世界通用的一种记谱法，通过在五根等距离的平行横线上标以不同时值的音符及其它记号记载乐曲。随着音乐产业的快速发展和五线谱的广泛应用，五线谱自动识别需求也越来越迫切。五线谱识别与数字简谱识别有很大差别：①相较于简谱，五线谱基本符号更多，并且基本符号之间可以构成复杂的组合形式。符号作为五线谱重要的特征点，在识别过程中有非常重要的作用;②同一个符号在五根谱线中的位置不同，表达的音乐特性也不同，而简谱中音符位置不含音乐相关信息。相比于简谱，五线谱的复杂多变使其具有更丰富的音乐表现力，但同时也给五线谱自动识别带来了更大挑战。

国内外许多学者对五线谱识别进行了研究[1-7]，其中使用较广泛的五线谱识别方法是先进行图像预处理，再提取音符特征进行音符识别，然后提取乐谱记号特征进行乐谱记号识别，最后根据音符在谱线中的位置得到该音符的音调。五线谱识别基本流程如图1所示。

目前常用的图像预处理方法均需删除谱线，谱线删除方法有直线穿越检测法[8-9]、游程分析法[10-12]。直线穿越检测法的优势在于可一定程度上避免过删除，缺点是计算过于复杂，并且存在删除不完全的情形;游程分析法是一种被广泛使用的谱线删除方法，其首先对图像进行垂直游程编码，然后找出谱线位置附近的游程，删除其中厚度小于某个阈值（通常取2倍谱线线宽）的游程。其优点是实现简单、处理速度快，缺点是过删现象较严重。在真实的五线谱中，谱线与其它对象交叉粘连的情况错综复杂，过删和漏删会引起后续音符及乐谱记号特征提取计算误差。

关于音符特征提取，常用方法有链码识别方法[13-14]、数学形态学法[15-17]、模板匹配方法[18-19]。链码识别方法首先对音符采取骨架化[20-21]处理，对各个节点求取链码差分码后综合判别，缺点在是骨架化过程中，对噪声和粘连非常敏感，交点处会发生畸变，所以必须建立在谱线删除的基础上才能应用，且复杂音符组合粘连性太过严重也不便于分析。依据数学形态法构造垂线结构元素抽取符杆与椭圆盘结构元素抽取符头，以平行四边形结构抽取粘连于符杆间的尾桥，但涉及大量像素操作，处理速度慢。模板匹配法根据音符的直观形状设计光栅模板，利用相关匹配原理进行目标搜索，选出匹配程度较高的区域作为抽取结果。该方法直观明了，对于粘连有很强的鲁棒性，主要缺陷在于计算开销大，删除谱线时残存的谱线像素使音符原有形状特征退化，导致匹配结果不可靠。

五线谱乐谱记号可分为3类，第一类为文字，如作者、曲名等;第二类为点、线图，如附点、小节线等;第三类为乐谱专用符号，如谱号、休止符等。由于各类型间形状相差大，因此需要先对它们进行分割再提取特征。但乐谱记号不会有方向翻转、记号组合等复杂变换，且尺寸固定，所以无需复杂的处理方法，文献[22]提出了较好的乐谱记号识别解决方案。

针对删除谱线带来的问题及现有音符特征提取存在的问题，本文利用谱线垂直投影后像素数据特征仍然保留的特点，提出一种无需删除谱线的音符特征提取方法。该方法结合符杆与音符其它部位的像素统计数据得到特征提取公式，一方面大幅降低了前期删除谱线的时耗和不够精准的谱线删除引起的后续误差累计，另一方面不受音符组合变化带来的影响，可提高识别速率。

1 图像预处理

将图2所示乐谱处理成二值图像的乐谱，再进行垂直投影，结果如图3所示。

观察乐谱与其垂直投影分布图可以发现以下特点：

（1）投影分布图中像素统计值特别突出的各个位置恰好对应乐谱中一个音符或者小节线。利用该特征便于找到每一个音符（或其它符号）的位置。

（2）同一种音符的不同组合形式对垂直投影分布特征影响不大，所以在考虑音符模板时，不必为了顾及识别精度而列出同一种音符的每一种存在形式，从而可有效减少模板数量，大幅提高匹配速度。

（3）不同类型的音符垂直投影分布特征有明显区别，且其区别比同种音符不同呈现形式间的区别更大。该特点可作为区别不同音符（或符号）的有利判据。

根据上述第一个特点，可对原有乐谱上的音符（或符号）进行定位分割，得到一系列包含音符（或符号）的矩形单元，设其中一个矩形单元如图4所示。

其中[yn]为第n行上黑色像素的统计值。水平投影分布图中统计值最为突出的5个位置为五条谱线的所在位置。平滑圆顶峰值所在位置为该音符符头水平所在位置。根据符头与五线谱的相对位置可以判断出该音符的音调信息，而符头和谱线位置的确定只需基本的数据分析手段便可快速判断出来。

2 音符特征提取

2.1 传统特征提取算法

链码识别方法采用各种边界腐蚀操作，逐层削去图像外边界像素点与产生单像素宽的骨架点，并将其转化成链码表示，然后通过折线拟合将链码矢量化为短线段，最后从短线段中识别出直线。链码识别方法可有效抽取简单音符中的线型基元，例如符杆和尾桥，该方法对噪声和粘连非常敏感，并且交点处会形成畸变，因此在处理相交密集、有粘连的复杂音符时收效并不明显。模板匹配方法根据基元的直观形状设计光栅模板，利用相关匹配原理进行目标搜索，选出匹配程度较高的区域作为抽取结果，常用于检测尺寸固定的音符部位，如符头和符尾。该方法直观明了、对于粘连有很强的鲁棒性，主要缺陷在于：①需要计算模板和乐谱图像在所有可能位移上的相似度，计算開销大、非常耗时;②由于乐谱磨损、音符环境干扰及删除谱线时残存谱线像素，会引起音符原有形状特征退化，导致匹配结果不可靠;③在不同版式的乐谱中，同一符号的形状可能存在差异，模板匹配方法对其较敏感。

传统特征提取算法对于噪声和音符粘连敏感，无法有效处理复杂组合音符，删除谱线残留的谱线像素会破坏音符原有形状特征。针对该问题，提出改进的特征提取算法。

2.2 改进的特征提取算法

在五线谱中，非音符的符号常以固定形式出现，因此对该类符号进行识别较为简便，如最基本的特征匹配算法。但对于变化相对复杂许多的音符而言，该类特征匹配算法难以有效提取组合音符特征、准确识别音符类型。为保证识别精度与识别速率，本文根据音符矩形单元垂直投影后符杆像素部分突出的特点，寻找符杆像素与音符其它部位像素的数量关系，构建归一化特征值。

图像分割后得到一系列仅包含一个符号的N*N的子图，假设某一子图的模型结构如图7所示。

该特征提取算法的优点体现在3个方面：①特征值提取过程十分简单，时间复杂度低;②在投影过程中没有删除谱线，充分保留音符特征，避免了删除谱线引起的破坏音符特征的问题;③特征值在垂直投影的基础上，进一步缩小了同种音符不同表现形式之间的差异，可高效识别复杂组合音符与五线谱符号类型。

3 音调判断算法

音符类型被识别后，若识别结果为某种音符类型，将根据分割的子图水平投影数据，进一步分析音调。音调是根据符头在五线谱中的位置判断而来，每一个位置代表一个音调。确定一条基准谱线，从符头和基准谱线的相对位置判断音调，无需确定符头在五线谱的位置。音调分析过程可分为以下4个步骤：

步骤1 对子图进行水平投影得到水平投影数据[yi]，[i]为水平像素总数;

步骤2 在[yi]中，通过找到最大的统计值在五根谱线的位置，算出谱线间距平均值，将其作为谱线间距[d]，并确定一条音调为T谱线作为基准谱线，其水平位置为[Ls];

步骤3 根据[yi]的局部数据特征区别符尾和符头，从而定位符头水平位置，并将该位置记为[Lh];

4 实验结果与分析

4.1 有效性验证

实验运行环境为Windows 7、2.3 GHz Intel处理器、4GB内存、基于MatlabR2014b的开发平台。从图1中截取部分乐谱，如图8所示，对其中3种较为相似的音符进行特征值提取。3种音符分别是：①附点八分音符;②十六分音符;③八分音符。

由表1可以看出，在3种相似但不同的音符类型之间，特征值存在明显差异;从八分音符角度分析，前两个音符与第3个音符在位置和形式上有明显差异，但该差异给特征值造成的误差却非常小，该组特征值方差仅为0.000 057 66。可以发现同一种音符在五线谱上不同位置和不同形式，并不会给特征值造成较大误差，从而验证了本文特征值提取算法的有效性。

4.2 五线谱识别测评

在相同的测试环境下，应用本文特征提取方法和传统特征提取方法进行五线谱识别，并对识别结果进行对比分析。

实验运行环境为Windows 7、2.3 GHz Intel处理器、4GB内存、基于Visual Studio2010开发平台，实验代码采用C语言编写。将10个由专业制谱软件制作的音符图作为模板图，见图12;将3幅由专业制谱软件制作的五线谱作为测试谱，如图13-图15所示。

从乐谱中随机截取10个音符作为模板图，分别为八分休止符、八分音符、二分音符、附点八分音符、四分音符、附点四分音符、连续八分音符、全音符、十六分音符与附点二分音符，这10个音符用作3幅测试谱的匹配模板已足够。图13完全由非组合音符构成，图14加入了大量组合音符，图15则由各类音符随机组合而成，并加入大量非音符符号作为干扰，用于模拟一般情况下五线谱随机性和复杂性。

实验代码包括应用传统特征提取方法的五线谱识别算法代码与应用改进特征提取方法的五线谱识别算法代码，在Visual Studio2010开发平台上运行实验代码，加载3幅测试谱，输出得到音符特征值和音调信息。将输出结果与音符模板图的音符特征值及测试谱音调信息进行比较，计算音符识别正确率和音调判别正确率，数据见表2。

通过对表2分析，可以得出：从测试谱1到3，应用传统特征提取方法识别五线谱的音符正确率呈下降趋势，本文方法保持相对稳定的音符识别正确率。测试谱2与测试谱3由许多组合音符构成，传统算法由于对音符粘连的敏感性，无法有效识别组合音符，而本文方法在测试谱2和3中的音符识别正确率比传统方法高7%-10%，可有效识别组合音符。对于同一幅测试谱，本文算法在音调识别准确率上比传统算法高约15%，传统五线谱识别在删除谱线后，对音符原有形状会造成一定破坏，给后续还原五线谱判断音调带来极大误差。本文一直保留五根谱线，所以只需计算符头与本文给出的基准谱线相对位置即可得出音调。总体而言，本文方法在简单音符识别、组合音符识别和音调判断上均优于传统特征提取方法。

5 结语

本文首先将乐谱进行不删谱图像的预处理，结合音符符杆垂直像素数据与音符其它部位像素数据携带的映射特征得到音符特征值，再利用基准谱线与音符符头的相对位置得到音调信息。实验结果表明，本文提出的特征提取算法有效。对比传统特征提取算法和匹配算法，本文算法充分利用符杆位置与垂直投影数据构造高区分度特征值，为后续音符类别匹配提供了具有高区分度的数据，解决了传统算法无法有效识别组合音符的问题。在音符类别确定后，利用基准谱线与符头相对位置可有效确定音高。

未来将对乐谱结构更为复杂的复调性乐谱识别作进一步研究，寻求一种严谨高效的复调乐谱全局整合策略，进一步增强乐谱识别技术的实用性。

参考文献：

[1] BLOSTEIN D. Using diagram generation software to improve diagram recognition： a case study of music notation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence，1999，21（11）：1121-1136.

[2] ROSSANT F，BLOCHB I. A fuzzy model for optical recognition of musical scores[J]. Fuzzy Sets and Systems， 2003，141（2）：165-201.

[3] ROSSANT F. A global method for music symbol recognition in typeset music sheets[J]. Pattern Recognition Letters，2002，23（10）：1129-1141.

[4] MIYAO H，NAKANO Y. Note symbol extraction for printed piano scores using neural networks[J]. IEICE Transactions on Information and Systems，1996，E79-D（5）：548-554.

[5] FAHMY H. A graph-rewriting approach to discrete relaxation application to music recognition[C]. Proceedings of SPIE，1994：291-302.

[6] 張登盛，马颂德.多声部乐谱图像识别系统[J]. 计算机工程，1998，24（3）：41-43.

[7] 王林泉，章文怡. 区域特征的乐谱识别系统[J]. 软件学报，1994，5（11）：44-49.

[8] RANDRIAMAHEFA R，COCQUEREZ J P，FLUHR C，et al. Printed music recognition [C]. Proceedings of the 2nd IEEE International Conference on Document Analysis and Recognition，1993：898-901.

[9] BAINBRIDGE D，BELL T C. Dealing with superimposed objects in optical music recognition [C]. Proceedings of the 6th IET International Conference on Image Processing&Its Applications， 1997：756-760.

[10] GEORGE S E. Visual perception of music notation： on-Line and off line recognition[M]. New York：IGI Publishing，2004.

[11] BAINBRIDGE D. Extensible optical music recognition[D]. Christchurch： University of Canterbury，1997.

[12] FUJINAGA I，PENNYCOOK B， et al. The optical music recognition project[J]. Computers in Music Research，1991（3）：139-142.

[13] 胡晓宏. 基于链码特征的几何图形快速识别算法[J]. 吉林大学学报：理学版，2015，53（3）：490-491.

[14] IICARINEN J. A shape recognition of irregular objects[C]. Proceedings of SPIE the International Society for Optical Engineering，1996：1-8.

[15] 刘清，林土胜. 基于数学形态学的图像边缘检测算法[J]. 华南理工大学学报：自然科学版，2008，36（9）：113-116.

[16] GERAUD T. A morphological method for music score staff removal [C]. IEEE International Conference on Image Processing，2015：2599-2603.

[17] MONTAGNER I S，HIRATA R，HIRATA N S T. Learning to remove staff lines from music score images[C]. IEEE International Conference on Image Processing， 2014：2614-2618.

[18] 陈皓，马彩文等. 基于灰度统计的快速模板匹配算法[J]. 光子学报，2009，38（6）：1587-1588.

[19] KOBAYAKAWA T. Auto music score recognizing system[C]. Proceedings of SPIE：Character Recognition technologies，1993：112-123.

[20] MARTIN P，BELLISSANT C. Low-level analysis of music drawing images[C]. First International Conference on Document Analysis and Recognition，1991：417-425.

[21] CHANG S，SOAK S. Optical music recognition using skeleton structure and neural network[C]. Proceeding of SPIE，2002，4734：132-140.

[22] 劉晓翔. 光学乐谱识别技术研究与实现[D]. 西安：西北工业大学，2006，76-87.

（责任编辑：江艳）