相空间重构和支持向量机的信号识别研究
2021-06-30首都医科大学附属北京妇产医院
首都医科大学附属北京妇产医院 刘 婷
1 音乐信号识别的背景和意义
计算机来模拟人类识别音乐的过程一项较难的工作,而且,随着因特网的大兴其道,数字音乐也大量的产生,随之而来的是如何储存并建立合理的音乐检索方法,传统的音乐文件检索都是在知道音乐名称的基础上完成的,而如何建立基于内容的检索成为一个新兴的领域,这不但要求检索过程可以从音乐的任何一段开始,而且还要求对输入的错误有一定的纠错能力,因为有时使用者的输入并不一定与某些音乐对象相匹配,这就要求系统能够找出类似的样式来,另外,除了有效性,还应该尽可能得节省储存空间,因此,必须用一种合理的方式表达和储存原始音乐信号,而和弦作为音乐中的重要载体,包括三个或三个以上同时发声的音符,能够表达音乐中的重要信息成分,利用和弦储存音乐信息可以减少对冗余信息的存储,从而能够节约储存空间,提高储存效率。
2 主流的音乐信号识别方法
音乐信号识别算法大致可以分成三类:一类是利用时频分析的方法进行音乐识别,第二类是基于和声(harmonic)的和弦识别方法,第三类方法则是利用模式识别的方法,下面就通过一些具有代表性的具体方法来展示这些算法的特点。
2.1 基于时频分析的和弦识别
将时频分析应用到和弦识别当中是较为传统的一种方法。Zheng Cao等人利用针对频率域的手段提出了音符与和弦的识别方法,而在整个过程中应用小波变换的工具。音乐信号是典型的时频分布形态,并且具有短时稳定的特性,因此我们我们可以通过时频分析的方法进行音乐信号识别。
2.2 基于和声(harmonic)的单声道和弦识别方法
Chuan-Wang Chang等人提出了一种基于和声(harmonic)的单声道音乐和弦识别方法,该方法可以将单音旋律的音乐识别为相同的和弦效果,也就是用和弦来表示若干音符的效果。随着网络和数字音乐的兴起,如何高效地存储音乐资料是个热门的研究内容,其中,以和弦表示音乐资料可以大量减少存储空间,并可以提高容错的效果。
2.3 基于模式识别的和弦识别
对于专业的音乐人士,能够通过听力来进行音乐和弦种类的识别,而在信号分析识别领域,人们希望让计算机也具备这样的能力,从音乐和弦信号中提取出新的特征参量,并利用支持向量机进行和弦识别,其中具体的技术包括:
(1)相空间重构。随着混沌、分形等非线性理论的发展,在信号处理领域,非线性特征参量越来越多的被应用到信号分析、检测和识别当中,本文利用相空间重构提取音频信号的非线性特征用来构造分类器,并作为识别实验中的特征量。
(2)自适应信号分解。相关的研究表明,对音乐和弦信号直接识别并不能得到较好的准确率,因此,需要对音频信号进行预处理,再提取特征参量,本文将获取后的和弦音频利用EMD和NSP的方法分解成包含若干特征信息的子信号,然后对子信号进行相空间重构,从而得到和弦信号的非线性特征参量。
(3)支持向量机。支持向量机(SVM)是数据挖掘中的一种方法,能非常成功地处理回归问题和模式识别等诸多问题。在音乐和弦识别方法中,利用相空间重构后的非线性特征参量进行SVM分类器的构造,并进行相应的和弦识别实验。
基于上述技术建立的和弦识别的具体算法,可以较为准确地对不同种类的和弦进行识别。
3 利用相空间重构提取音乐信号
在音乐识别过程中,音乐信号中包含大量的信息,甚至是噪声,而其中很多信息是冗余的或者与识别无直接作用的,因此,在分类器构造和识别前要对音乐信号提取特征参量,既要能够反映出音乐因素的本质特征,同时也要去除对识别无关紧要的多余信息,以及降低噪声对识别的影响。
传统的识别方法是基于线性理论的,假设音乐信号随时间的变化是缓慢的,在这一理论下,大多数的方法是采用时频分析的手段,将音乐信号的时频特征作为分类器构造和识别的主要依据。尽管这种方法得到了广泛的研究和应用,但随着混沌和分形等理论的不断发展,语音信号的非线性本质特征逐渐被人们所认识和应用。研究表明,混沌的信号是由确定性系统产生的随机性的信号,具有时域不规则性和频域宽频谱的特征,在区分这两种信号方面,传统的时频方法效果不明显,而在语音识别过程中,对语音信号和随机信号,特别是噪声的区分是至关重要的。
近年来,混沌和分形等理论不断地发展,语音信号的非线性特征开始应用到信号处理和信号识别当中,其中,相空间重构(Reconstructed Phase Space,RPS)方法是提取语音信号非线性特征的有效手段,利用RPS提取音乐信号的非线性特征后,用于分类器的构造和识别中,可以产生很好的效果。在实际的相空间重构中,有两个参数是至关重要的,一个是延迟时间τ,还有一个是嵌入维m。在Takens的理论中,对于没有噪声影响的无限长时间序列,这两个参数可以取任意值,但是,在实际的应用中,大多数信号都会被噪声所干扰,因此,延迟时间τ和嵌入维m不能取任意值,需要通过一定的方法来确定,否则,会对重构后的特征矩阵产生严重的影响。
4 支持向量机的多类分类
支持向量机的多类分类有四种:一对一分类,一对多分类,有向无环图分类,基于二叉树的多类分类。其中主流的多类分类是有向无环图分类,基于二叉树的多类分类。
4.1 有向无环图分类
有向无环图(Dircted Acyclic Graph,简称DAG)算法在训练样本构造分类器时,和一对一算法相同,但在分类阶段将所有k(k-1)/2个两类分类器组成一种两向有向无环图的节点,k个类别是底层的“叶”,如图1所示。
图1 有向无环图分类法
当对未知样本训练时,从根结点开始分类,只需k-1步即可完成分类。和一对一分类算法相比,在分类过程中,减少了重复操作,很大程度上提高了分类的速度,这种分类方法的缺点是没有考虑样本不平衡数据对分类速度的影响,而且一旦在分类过程中出现分类错误就会产生错误的传递效果。
4.2 基于二叉树的多类分类
基于二叉树的分类方法首先把k类中最相近的k-1类看作是一类,把余下的一类看作另一大类,建立一个两类的支持向量机分类器,然后再在那k-1类中,取出最相近的(k-1)-1类看作一个大类,把那k-1类中余下的一类看作另外一大类,建立另外一个两类的分类器,依此类推,直到最后两类,其结构如图2所示。
图2 基于二叉树的多类分类法
对于k类分类问题,一共需要构造k-1个两类的分类器,基于二叉树的算法还可以克服以上几个算法中无法识别的阴影区域,而且重复训练的样本量少,可以提高训练和分类的速度。
结语:音乐信号是由混沌音组成的,存在着混沌机制,近年来很多研究人员都应用非线性理论处理相应的语音信号,其中相空间重构就是一种非常有效的方式。支持向量机是一种基于统计学习理论的机器学习方法,该方法在模式识别、回归分析和函数拟合等问题中得到较为广泛的应用,阐述了各种多类分类方法的优缺点,为识别信号实验打下了基础。