APP下载

基于关键词识别的可离线无线电电磁频谱管控系统研究

2018-11-08雒瑞森任品旷昊恒

电子测试 2018年21期
关键词:马尔可夫声学高斯

雒瑞森,任品,旷昊恒

(四川大学电气信息学院,四川成都,610065)

1 总体方法流程

该项新技术在设计和实现上主要分为三个部分:广播声学模型设计、语音-关键词转换和非法广播判定。其中,广播声学模型设计即基于广播录音的自动语音识别(automatic speech recognition)中声学模型(acoustic model)的设计;语音-关键词转换的目的是基于上一步声学模型,设计语言模型(language model)及词典(dictionary),将所需要的关键词提取出来;而非法广播判定则是根据所提取的关键词,结合领域的专家知识,进行是否为非法广播的判定。

对于声学模型,在本研究中,我们使用改进语音识别基底模型的方法,结合广播信号的特点,进行了模型的设计。具体的,我们首先采用了某语音识别的基础中文模型,作为我们模型的基底;然后,我们录制了具有所需识别的广播信号特点的样本信号,通过逐句分音节标注的方法,基于最大后验概率(MAP)技术,对声学模型进行了参数自适应的操作。这样,进行了参数自适应后的声学模型,既保留了原模型中大量中文词汇的声学模型识别能力,又特别的增强了针对特定的无线电广播环境进行特定识别功能。

对于语音-关键词转换,由于广播录音噪声较大,如果我们采用标准的中文语言模型,则会产生关键词无法识别、而许多不相关的词汇被错误的“识别”的现象。所以,为了准确的识别关键词,我们通过仅使用少许关键词加入词典的方法,进行语音-关键词的准确识别。同时,由于我们并不需要完整的、具备意义的句子,所以设计的语言模型(language model)的容错率显得相对高很多。

在获取关键词后,对于非法广播判定的技术,我们采用专家系统(expert system)的方法。所谓专家系统,就是根据相关领域专家的经验,将相关知识提取为表达式,从而得到根据关键词自动判定非法广播的方法。例如,我们有三个备选的关键词,我们可以根据专家经验,设置关键词1+关键词2为非法广播,而关键词1+关键词3为正常广播。需要注意的是,在实践的判定中,我们可以加入模糊逻辑(fuzzy logic),使得产品不仅可以输出是否为非法广播的判定,也可以输出其置信度(confident level)。在置信度较低的时候,我们可以请求人工干预,来判定是否为非法广播。

2 相关核心模型

2.1 声学模型:高斯混合模型(Gaussian Mixture Model, GMM)

高斯混合模型使用多个高斯分布的联合表达,具有多个分布中心,非常适合进行声学模型的模拟。它的基本表达公式如下:

从公式中,我们可以看出,这个概率密度函数可以视为多个高斯的组合。由于声音信号往往呈多中心方差衰减分布,故而高斯混合模型非常适合作为声学模型的建模。高斯混合模型具有很强的表达能力,但是其模型训练并不是一件简单的事情。对于概率分布函数,我们在训练时常常使用最大化对数似然函数(Maximum log-likelihood)的方法。但是,由于高斯混合模型的对数似然函数并不连续可导,故而需要我们使用启发式算法进行训练。较为常用的启发式算法为E-M算法,它可以自然的可以保证概率相加/积分为1的特点,使得其在求解概率密度函数极值问题时有广泛的采用。计算机科学家已经证明,E-M算法可以实现超线性收敛,故而从数值优化的角度讲,这也是一个较为理想的选择。

E-M算法可以表述如下:假设待学习的参数为θ,混合模型隐变量为Z(高斯混合模型中即 P (m ),各高斯分布系数),单一模型变量为X(高斯混合模型中即各高斯模型的均值和方差),对数损失函数为[logL(θ;X,Z)],则E-M算法可以表述为:

通过循环上述步骤的操作,我们可以使得参数θ逐渐收敛到最优值。

2.2 声学模型:隐马尔可夫链(Hidden Markov Model,HMM)

完整的声学模型,是基于高斯混合模型-马尔可夫链而设计的。具体的来说,在语音识别中,语音信号由音节组成;而音节之间相互联系,最终组成了语言。而由于马尔可夫链可以学习系统的时变特性并捕获各音节时间之间的相互影响关系,故而被广泛的应用于语音识别的声学建模。

隐马尔可夫模型由显状态(观测)和隐状态(隐变量)两部分组成,其中显状态是我们直接观测到的部分,如语音信号中的数据;隐状态是我们模型假设有、但是对我们不可见的变量。在马尔可夫模型中,状态之间的转换是在隐状态中完成的,但是每个隐状态都需要一个分布来转换为显状态的观测:这也是其称为“隐”马尔可夫模型的原因。值得注意的是,在隐马尔可夫模型中,对于隐变量s,其当前时刻的值之与上一时刻有关;同时,对于当前的观测值,其只与本时刻的隐变量有关。我们称这种性质为马尔可夫性,而由于这种性质的算法绘制成图片会呈现“链状”,故而我们又可以称其为“隐马尔可夫链”。隐马尔可夫链牵扯到如下两个重要的公式:

其中,第二个公式为对各帧的特征信号进行建模的概率密度函数,即有时我们所说的“发射函数(emission function)”。在声学信号建模中,我们令这个函数遵从高斯混合模型,从而得到我们的HMM-GMM总体模型;而第一个公式则反映的是隐状态之间的变化,状态之间的转移可以使用动态规划(Dynamic Programming)的方法计算。

从统计学上讲,最大后验概率模型可使用如下模型表示:

2.3 声学模型参数适应改进:最大后验概率(Maximum a Posterior, MAP )

其中,P (λ) 为先验概率(prior),而 P (O|λ)为似然函数,即表征数据在特定的模型设定下似然程度的度量。在声学模型参数适应改进中,我们的 P (λ)即语音识别模型中中文基本声学模型的参数,而 P (O|λ)则应为我们新加入的数据的似然函数。假设在已有的模型中,多个高斯分布的均值符合如下分布:

不过,一般而言,对于最大后验概率的模型参数调整,我们会倾向于改变各高斯模型的权重,而非高斯分布本身。假设我们现有的模型可以被一个超参数为{, ηµ}的狄利克雷分布和一个超参数为{,, ,αβµτ}的Gamma-Gaussian分布所表示,则参数的更新可以表示为:

3 技术用户接口及使用流程

该技术在呈现给用户的软件中,将拥有一个自适应完成的模型,并拥有一个易于操作的接口,可以使用户方便的进行无线电广播内容的识别。具体的操作中,我们使软件支持载入录音文件及录音两种格式。同时,由于我们的API对于文件读取有压缩格式的需求,故而在软件中我们也会加入自动对录音进行转码的内容。

对于定制产品的提供,我们采用两种版本:一是由用户提出需求并提供相应数据,这样我们可以根据数据的特殊情况提供定制的产品。改方案可以直接在现有的模型基础上提供软件,也比较适合一般的用户;二是我们可以提供一个带有DIY接口的产品,使得用户可以自行进行产品的定制化。方案二需要我们开发相应的可视化参数调整接口,也更适用于有特殊开发需求的用户。

对于产品的跨平台、可移植性和软件稳定性,我们当前提供pc操作平台的版本,包括windows/mac/linux。在后续的版本中,我们可以加入手机平台版本android/IOS,以及更多的单片机/嵌入式系统版本。

4 结论与先进新颖性

本研究根据广播信号管控的具体问题,设计了特定的语音识别模型,从而实现了针对特定问题的最优化表现。最后,目前市面上流行的模型中,大部分只提供线上使用功能,无法嵌入到类似于无线电频谱管控类的产品中;且无法离线使用,可以移植性差;而本研究采用将模型存储在软件中的方式,允许软件离线使用,极大的提升了技术的可移植性。同时,使用语音识别技术结合专家系统进行广播信号频谱管控,也是一种非常新颖的思路。该技术的研发为后续类似的产品提供了具体的思路,并且其优良的效果及可移植、可离线使用的特性,也体现了该产品新颖的特征。

猜你喜欢

马尔可夫声学高斯
爱的就是这股Hi-Fi味 Davis Acoustics(戴维斯声学)Balthus 70
数学王子高斯
天才数学家——高斯
Acoustical Treatment Primer:Diffusion谈谈声学处理中的“扩散”
Acoustical Treatment Primer:Absorption谈谈声学处理中的“吸声”(二)
Acoustical Treatment Primer:Absorption 谈谈声学处理中的“吸声”
保费随机且带有红利支付的复合马尔可夫二项模型
基于SOP的核电厂操纵员监视过程马尔可夫模型
应用马尔可夫链对品牌手机市场占有率进行预测
有限域上高斯正规基的一个注记