声纹特征在音乐识别方法中的研究与应用
2020-06-29钱甜
钱甜
摘 要:主要对声纹特征在音乐识别方法中的应用进行了研究,对音乐语音信号采用声纹特征提取方法完成分析和识别过程。在完成原始音频数据处理的基础上,通过信号重组和特征分解进一步处理提取出的音乐语音数据,然后将音乐语音信号通过经验模态分解方法的使用完成时频转换过程,再对语音信号经过降噪分離实现信息提纯和特征分解,将处理后的语音信号的声纹特征提取出来,并以提取结果为依据完成音乐的识别过程。仿真实验结果表明本文方法显著提高了识别过程的分辨力和准确性,具有一定的可行性。
关键词: 声纹特征; 音乐信号识别方法; 实现路径
中图分类号: G 642
文献标志码: A
Abstract: This paper mainly studies the application of voiceprint features in music recognition methods, and uses voiceprint feature extraction method to complete the analysis and recognition process of music speech signals based on the completion of original audio data processing, through signal recombination and features. It decomposes and processes the extracted music voice data, and then completes the time-frequency conversion process by using the empirical voice decomposition method, andperforms noise purification and feature decomposition on the voice signal through noise reduction, and processes the processed voice signal. The voiceprint feature is extracted, and the music recognition process is completed based on the extraction result. The simulation results show that the proposed method significantly improves the resolution and accuracy of the recognition process and has certain feasibility.
Key words: voiceprint feature; music signal recognition method; implementation path
0 引言
快速发展的互联网和计算机多媒体技术得以在各领域普遍应用,不断发展和完善的互联网和数字音频技术为传播及获取音乐拓宽了途径,促使网络上的音乐数量不断增长,随着使用网络音乐应用的用户数量不断增加,对音乐信息需求也呈多样化发展。因此如何有效管理海量音乐数据已成为目前研究的重点,音乐信息检索在此背景下逐渐发展起来,管理音乐数据的基础和关键在于音乐信息检索,即将各种不同信息从音乐中有效识别和提取出来,
目前的研究方向主要集中在对音乐流派、乐器分类等进行有效的识别分类上,研究中国传统乐器具有较高的研究价值,目前在音乐信息检索领域中,音乐识别方法中的识别分类系统大多需先对音乐特征进行人工提取,在此基础上通过分类器进行训练建模后,以该模型为依据完成对音乐样本的识别分类过程。但由于识别分类任务种类会直接影响所需音乐特征,极大的增加了人工提取音乐特征的难度,导致人工提取音乐特征已经难以满足音乐数据的检索和管理需求。
1 需求分析
为使音乐的鉴赏水平和制作质量得以有效提高,在鉴赏和制作音乐的过程中,准确的图谱分析是处理音乐发音信号的重要环节,在此基础上实现音乐的准确识别。快速发展的计算机信息处理技术促使数字信号处理方法不断完善,在音乐识别中结合应用数字信号处理及语音信号分析等方法有效弥补了人工提取音乐特征的不足,表现出了较佳的性能,需在完成音乐发音信号的声乐图谱特征提取的基础上,完成音乐图谱的分析和绘制(通过使用声纹特征分析方法),然后对音乐信号的特征进行分解(以图谱分析结果为依据)同时完成自适应分离过程,从而有效提高识别音乐的准确性和音乐鉴赏能力。随着声纹特征提取方法的发展和完善,为研究音乐语音信号的领域(包括优化发音质量及提高音乐鉴赏水平等)提供了有效支撑,在高效的音乐识别过程表现出了较大的优势。采用LORFA 谱、高阶谱等特征提取方法是传统提取音乐信号特征的主要方法,并在音乐识别过程中有效融合盲源滤波及信号分离(自适应)方法,虽已具备一定的识别水平,但已经难以满足识别合成成分不断增多的音乐信号对准确性的需求[1]。本文在分析和识别音乐语音信号上采用了基于声纹特征提取的方法,完成原始音频数据初步处理和提取后,重组音乐语音信号数据,在此基础上进行特征分解和降噪分离(采用自适应滤波方法),实现信息提纯和特征分解过程,最后将处理后的信号声纹特征提取出来,据此完成音乐识别。
2 原始音频数据处理
原始音频数据处理流程,如图1所示。
3 音乐发音信号采集及预处理
3.1 信号建模
针对音乐发音信号本文通过信号处理方法的使用完成提取特征及识别信息的过程,为实现识别过程的可视化构建,需先完成音乐发音信号模型的构建,在此基础上对发音的声纹图谱进行提取,语音识别和图谱对比则采用MFCC(梅尔频率倒谱系数)感知方法完成。对音乐发音特征进行分解时(包括时频分解和声纹特征分解)则通过使用双层滤波检测方法完成,本文所构建的声纹特征提取的总体架构(包含采集音乐信号[2]),如图2所示。
以 M 为信号频率点数根据时间间隔 n完成特征采样及声纹特征(指对信号输出频谱端)的提取,最终实现音乐识别过程。
4 仿真实验与结果分析
为了检测本文基于声纹特征提取的音乐识别方法的可行性,在采用 Matlab中完成了仿真实验设计,仿真参量设定为:采集音乐信号样本的频率为 12 kHz,小波分解的尺度系数为 0.12,初始采样频率(由f0 表示,针对载波频率为 25 kHz的声纹特征)为1.5 Hz,声频带分布带宽为 15 ms,据此获取的原始信号建模结果见图4 ,测试样本为图 4 的音乐语音信号,通过降噪分离完成信息提纯和特征分解过程,所获取的声纹特征提取结果能准确反映出音乐相关信息(包括声频带和声调等),实现音乐的准确辨识,本文方法音乐识别效果同传统模糊匹配滤波检测方法间的对比结果,如图5所示。
相比传统方法本文方法具备更高的音乐识别准确度及抗干扰能力,为提高音乐语音识别能力提供参考[9]。
5 总结
随着音乐信息检索重要性的日益凸显,有效音乐识别方法的构建逐渐成为研究重点之一,针对收集到的音乐发音信号将其声乐图谱特征提取出来,根据特征分析结果(运用声纹特征分析法)完成音乐图谱的绘制,在此基础上完成音乐信号的自适应分离和识别过程,欣赏和评价音乐水平的提高需以音乐识别为基础,为使识别和分辨音乐发音的能力得以有效提高,进而提高识别音乐能力,本文采用声纹特征提取方法完成分析和识别过程,以从经提纯处理后的语音信号提取出的声纹特征结果为依据完成音乐识别过程。仿真实验结果表明使用基于声纹特征的识别方法有效提升了提取语音特征的准确性及降噪能力,显著提高了音乐识别及分辨能力,具有较高的实际应用价值。
参考文献
[1]
陈雯雯,王亚林,周杰. 三維统计信道中的多普勒效应及其信号分析[J]. 计算机科学, 2017(3):84-88.
[2] 周婧范凌云.基于最小二乘支持向量机的电子音乐识别研究[J].现代电子技术,2018(9):109-112.
[3] 李战明,尚丰.一种基于语音端点检测的维纳滤波语音增强算法[J]. 电子设计工程,2016(2):42-45.
[4] Huiyan Hao. Multi component LFM signal detection and parameter estimation based on EEMD-FRFT[J] . Optik - International Journal for Light and Elect., 2016 (23):6093-6096.
[5] You He, Cai-sheng Zhang, Xiao-ming Tang, et al. Coherent integration loss due to pulses loss and phase modulation in passive bistatic radar[J]. Digital Signal Processing, 2013 (4):1265-1276.
[6] Jian Dai,Li-Juan Xu, Guo-Dong Han, et al. Down-regulation of long non-coding RNA ITGB2-AS1 inhibits osteosarcoma proliferation and metastasis by repressing Wnt/β-catenin signalling and predicts favourable prognosis[J]. Artificial Cells, Nanomedicine, and Biotechnology, 2018(S3):783-790.
[7] 马婷婷,佟首峰,南航,等. 信号光偏振特性对空间相干探测混频效率的影响[J]. 激光与光电子学进展, 2017(2):110-116.
[8] 田旺兰.语音/音乐的深度置信网络高准确度识别方法[J].吉首大学学报(自然科学版),2017(1):36-39.
[9] 姚成玉,陈东宁,王斌. 基于T-S故障树和贝叶斯网络的模糊可靠性评估方法[J]. 机械工程学报, 2018(2):193-201.
(收稿日期: 2019.08.29)