基于音频多模态研究的信号分析系统设计*
2024-03-05武雅琴邓林强杨晨艺公徐路
武雅琴,邓林强,杨晨艺,吕 嘉,公徐路
(山西农业大学,山西 晋中 030801)
0 引言
随着信息技术的不断发展,音频信号处理技术正发挥着举足轻重的作用。语音隶属于音频研究范畴,作为信息交互的媒介,相比图像文本等其他交互方式,语音表达更加简洁直观。语音交互传递信息比较灵活自然,因此成为现实生活中最直接有效的沟通方式[1]。语音除了包含人想要传达的命令之外,还包含有各种声学特征,通过分析提取声学特征除了可进行情感识别[2-3]、语音识别等传统声学研究外[4]、还可作为病理嗓音疾病的诊断依据[5-6],在音频信号处理与病理嗓音医学交叉应用领域中起到了举足轻重的作用。
病理嗓音信号研究大都以多模态信号为主体,通过各种拾音设备和分析软件采集、分析、保存为不同格式。涉及到拾音设备领域,目前主要气流气压采集设备是美国KAY公司的言语发声空气动力学系统,但由于该设备采集保存的文件格式为.NSP,现有多模态音频分析软件无法对该格式文件进行处理。此外,通过对现有文献的分析,存在未完整考虑文件结构、编解码特征、存储格式和评测方法单一的问题。因此,本文设计一种将NSP模态转为WAV模态的信号分析系统,以实现音频多模态分析研究的目的。
1 音频多模态研究分析
1.1 NSP文件分析
由于鲜有资料对NSP文件进行详细介绍,因此本文采用UltraEdit软件打开读取该文件,通过统计对比的方法来分析确定文件的头部与数据起始部分。如图1所示,文件数据存储为十六进制码,每行存放16组数据。本文通过统计对比大量NSP文件的内码得出:气流气压信号NSP文件均以“5344415F”为界,在该分界之前为头文件信息,该分界之后紧接的4组数据代表文件数据总数,剩余部分至结束为NSP文件的真实数据部分。
图1 NSP文件内码图
1.2 WAV文件分析
WAV文件格式是微软开发的一种音频格式,可以直接存储声音波形,是一种很常见、最经典的多媒体音频文件。本论文从文件结构、编码特征、影响因素和存储格式对WAV文件进行分析。
1.2.1 文件结构
在Windows环境下,大部分的多媒体文件是按照资源互换文件格式存放信息,简称为RIFF格式。WAV文件分为两部分,一部分是WAV头部文件,另一部分是PCM编码的音频数据部分。该文件类型遵循RIFF格式,内容以区块(chunk)为最小单位进行存储,一般由三个区块组成:RIFFchunk、Format chunk和Datachunk。其中RIFFchunk代表文件标识符,Formatchunk包括WAV文件编码格式类型、声道数、采样频率、采样位数、数据块长度等重要参数,Datachunk记录音频数据。
1.2.2 编码特征
WAV文件支持非压缩的PCM脉冲编码调制格式。PCM脉冲编码调制主要是对连续的模拟信号每隔一段时间进行取样操作,变为在时间轴上离散的抽样信号,并将取样的值按四舍五入进行量化取整,最后将取样值按二进制码的方式表示抽样脉冲的幅值。
1.2.3 影响因素
1) 采样频率:采样频率也称为采样率,定义为每秒从连续信号中提取并组成离散信号的次数,是描述声音文件音质、音调、声卡的质量标准。其值越高,采样的间隔越短,即单位时间内获得的声音数据越多,波形的表示也就越准确。
2) 采样位数:采样位数是衡量量化的参数,是指声卡数字信号的二进制位数,即对声音的辨析度。数值越大,分辨率也就越大,发声能力越强,目前计算机中配置的16位声卡的采样位数包括8位和16位两种。
3) 声道数:声道数是音质传输的重要指标,有单声道和双声道(立体声)之分,双声道在硬件中要占两条线路,音质、音色会比单通道时表现更好,其数字化后数据所占的空间是单声道的两倍。
4) 存储格式:对于WAV文件的Data模块,声道数、采样率和采样位数的不同,会直接影响数据的存储格式,图2展示了WAV文件不同采样位数和声道数组合的存储格式情况。
通过对NSP和WAV文件的分析,本文得出:要设计实现适用于音频多模态的信号分析系统,实现NSP模态转为WAV模态的目的,必须全面综合考虑待处理音频模态文件的声道数、编码位数、采样率等重要指标。
2 系统总体设计
本文设计的基于音频多模态研究的信号分析系统,主要包括预处理、数据标识、转换生成三大模块。首先,预处理模块用以对NSP模态文件进行真实数据起始和终止部分的准确定位和截取保存处理,预处理模块的输出数据会顺序传入数据标识模块进行采样点定位;其次,数据标识模块用以对预处理模块的输出数据根据采样位数和通道数进行定位处理,该模块的输出为后续转换生成模块提供采样点数据;最后,转换生成模块结合采样率和声道数,用以对数据标识模块输出的所有采样点数据进行转换处理,得到最终生成的WAV模态文件。基于音频多模态研究的信号分析系统设计框图如图3所示。
图3 基于音频多模态研究的信号分析系统设计框图
3 实验设计与分析
3.1 数据集
本文采用由美国KAY公司的言语发声空气动力学系统采集保存的CD-ROM版的病理嗓音数据库4337型,该数据库包含来自大约700个发音人的1400多个嗓音样本,被视为病理嗓音临床和研究领域的经典语料。
3.2 实现流程
基于音频多模态研究的信号分析系统实现包含以下三个步骤:
1) 预处理:将CD-ROM版的病理嗓音数据库中存储的NSP文件输入预处理模块进行数据解码,NSP模态文件具有不同通道、采样率和采样位数等参数信息,基于UltraEdit软件打开待转换的NSP文件,根据分界线数据组“53 44 41 5F”准确定位真实数据的起始和终止部分;将全部真实数据截取复制保存,便于后续对数据进行标识处理。
2) 数据标识:基于待转换NSP文件的通道数和采样位数,按照不同的组合情况,结合图2的存储结构定位NSP文件每个采样点的数据信息(16进制编码信息),直至全部采样点定位结束。以输入单通道、25 kHz、16位采样位数的NSP模态文件为例,将按照图2(c)格式收集采样点。
3) 转换生成:结合NSP模态文件的通道和采样率信息,依据WAV文件格式对数据标识模块获得的所有采样点的数据(16进制编码信息)进行编码处理,直至所有采样点转换完成停止,得到最终转换后的对应的WAV模态文件。
3.3 结果对比分析
为了验证本文设计实现的基于音频多模态研究的信号分析系统的有效性,将从文件内码、文件参数信息、信号声波波形和主观听觉感受方面进行综合对比分析。
1) 文件内码:如图4,基于本文设计的系统,将转换生成的WAV模态文件打开后,根据WAV文件data区块的存储结构定位的总数据长度和data数据块,发现转换后的WAV模态文件和对应待转化的NSP模态文件内码信息一致,表明在转换的过程中数据没有发生任何丢失与改变,与预期结果相符。
图4 系统转换前后NSP和WAV文件内码对比图
2) 文件参数对比:将转换后的WAV模态文件使用专业音频处理软件GoldWave打开,查看该文件采样频数、采样位数、通道数等信息,通过对比发现和待转换NSP文件参数保持一致。以输入单通道,25 kHz、16位采样位数的NSP模态文件为例,生成的对应的WAV模态文件在GoldWave中的参数信息如图5所示,与待处理的NSP模态文件参数信息一致。
图5 WAV文件参数信息图
3) 信号声波波形和主观听觉感受:如图6,将转换后的WAV模态文件采用专业音频处理软件GoldWave进行处理,通过观察WAV信号声波图,可以看到波形分布均匀,有明显的周期性,未出现数据截断、缺失等问题;且从主观听觉感受来讲,未存在卡顿、不清晰、不完整的情况。
图6 WAV信号声波图
4 结论
音频信号的处理分析是人工智能领域的一个重要研究方向,随着不同模态音频信号在诸多领域的广泛应用,对音频信号分析系统的设计带来了新的挑战。本文通过创新性地构建预处理、数据标识、转换生成三个模块,设计实现一种适用于音频多模态研究的信号分析系统,相比现有技术,该系统克服了现有技术中存在的缺点和不足,同时也为各种拾音采集设备和音频信号分析系统处理多模态信号提供了一种不同构思的技术方案。此外,该系统处理转换的NSP格式信号与病理嗓音数据库息息相关,也代表对音频信号中涉及到的病理嗓音信号分析研究衍生出了一种新的技术发展趋势,为应用于计算机和嗓音医学诊疗交叉学科领域提供了技术支持,为嗓音临床分析和研究提供了重要的支撑作用。