基于声诊的煤矿工人健康状态分析的关键技术研究

2017-05-15房春英

黑龙江科学 2017年4期

关键词：语料语料库变异

房春英

(黑龙江科技大学计算机与信息工程学院，哈尔滨 150001)

基于声诊的煤矿工人健康状态分析的关键技术研究

房春英

(黑龙江科技大学计算机与信息工程学院，哈尔滨 150001)

本文通过病理语音代表煤工尘肺等疾病状态下的语音进行声学参数分析，提出梅尔S变换系数特征来描述变异语音信号的非平稳特性。针对声带形状变异造成的语音变异，提出非线性特征来描述，同时针对高维特征的冗余问题，提出利用听觉加工模型对特征集进行融合。

声诊；NCSC；特征融合；语音分析；健康状态；关键技术

本研究运用语音信号分析和处理的技术来研究适合煤工尘肺声音分析的关键技术，最终目的是采用信号处理方法对语音进行声学分析，帮助疾病诊断。用来分析病理语音的特征，有的从声带角度分析，有的从声门角度分析，但这些特征难以描述变异信号瞬间变化的频谱特征，提出梅尔S变换系数特征和针对声带病变的非线性特征并借鉴听觉认知模型，提出特征融合算法，研究框架如图1所示。

图1 语音变异程度分析框架Fig.1 Speech variation analysis framework

1 语料库与方法

1.1 多角度语料库构建

1.1.1 荷兰颈部肿瘤放化疗语音语料库

NCSC(NKI CCRT speech corpus，NCSC)语料库，由荷兰头颈肿瘤手术癌症研究所录制。语料包括55个(10名男性，45名女性)不可动手术的头颈癌患者在经历化疗的3个阶段(治疗前和治疗后10周和治疗后12个月)的说话录音。录音方式为念读德语中性文本。13名毕业或即将毕业的语言病理学家(平均年龄23.7岁)对这些录音进行可懂度感知评价，评价指标打分从1～7。通过对每个语句进行评价，得到13名评价者对每个语句评价的统计值。INTERSPEECH 2012 话者特性病理比赛中按照统计值将数据分成两类：清晰(I)和不清晰(NI)，其中I的加权统计值从5.77～6.71，NI的从1.99～5.72。语料采样率为16 kHZ，量化为16 bit。语料库中用来训练和测试(开发集)的数据以4∶3的比例按年龄、性别、本土化分层随机分配，语料分布数量如表1所示。

表1 NCSC语料库分布Tab.1 The distribution of NCSC corpus

1.1.2 幼儿病理变异音语料库

为了全面描述变异情况，考虑幼儿发音器官病变产生的音频变异情况，设计一个病理相关的幼儿变异音语料库采集计划，以病理原因为出发点，录音地点设立在医院，对幼儿病理变异音数据进行采集，音频在黑龙江中医药大学附属第一医院儿科门诊和住院处采集。按照医学科室分类，分别从内科、外科、五官科等科室进行录音，主要包括呼吸声、哭声、咳嗽声共7种病理音频。语料录制时间总计10多个小时，各种变异音大约100条语音。所有样本采样率为16 kHZ，量化为16 bit。本语料库面向对象为幼儿，而且采集的相关病症较多，缺点是因为幼儿采集困难及时间关系，每种病症的语料目前数量不足百条，未来还需要进一步扩充。

1.2 基于听觉加工模型的病理语音特征融合方法

高维特征集中，某些参数之间也可能存在冗余。针对这个问题，本节引入听觉变化检测模型，设计特征融合过程。听觉变化检测模型是由Naatanenn在1999年提出，将听觉加工模型分为3个阶段: 第1个阶段是感觉分析(特征提取)，第2个阶段是感觉记忆(感知阶段)，第3个阶段是执行过程(认知阶段)。模型假定大脑系统执行声音的初始分析也就是第一阶段，对应语音的特征提取部分构建初始特征集。随后注意控制下加工最重要或最相关的部分信息，对应第2阶段，对特征集进行第一次融合，达到第一次优选特征的目的。当注意关注环境中的某些事件时，进入第3个阶段认知阶段执行过程，对特征再次融合优选放入有限容量系统，准备深入加工。本研究采用特征融合的方法如图2所示，方法首先对高维数据特征集通过特征排序、分层处理、特征降维，完成第一次特征优选。并以此结果作为第三阶段输入，利用同样方法执行第三阶段过程，得到最终特征集，输入有限容量系统，进行深入加工。

图2 特征融合过程Fig.2 Feature fusion process

2 实验与结论

在本节的实验验证中所采用的分类器是支持向量机，并在每次实验中都对其进行参数优化，因此，首先介绍支持向量机的参数优化过程。SVM的关键在于核函数及其参数。一个RBF SVM模型通常有两种可调参数g(γ高斯函数)和C(惩罚参数)。g和C的范围是从[2 -10]到[2 10]， 5交叉验证进行参数选择。图3显示了参数选择结果的三维视图。在较小的范围内观察参数g和C变化具有较高的识别准确率，可以缩小网格搜索范围和搜索步长。如果g和C对应相同的识别准确率，则选择C小的。因为C值高，会导致过度拟合的研究。可以看到，随着搜索范围的减小，训练集的检索步骤和识别准确率在提高。

图3 g和C参数选择网格结果Fig.3 The grid results of g and C parameter selection

表2显示了使用四个不同的核函数变异语音的识别率，对其他核函数选择优化参数的方法和RBF相通。可以看出，RBF核函数在测试集的识别精度性能最佳。所以采用C为4，g为0.0625的径向基函数作为最后语音变异程度分析的SVM模型。

表2 不同核函数识别结果Tab.2 Recognition results of different kernel function

利用本文提出的基于认知规律的特征融合方法对特征集(526维)进行降维，降维后的特征集为Re_fea(96维)，并用特征融合后的特征训练以支持向量机(SVM)为分类器，通过以上的参数优化方法选择参数，因为体现方法的普适性，本文在主流NCSC语料库中进行实验，用测试集进行分类测试。实验结果如表3所示。

表3 NCSC上MSCC+BAFS+Nonlinear和VIS-Features的实验结果Tab.3 Results of MSCC+BAFS+Nonlinear and VIS-Features on NCSC

从结果可以看出，本文提出的方法对语音变异进行分析时有一定的效果，在NCSC语料库上与基线进行对比，本文方法的UA为75.07%比基线UA 61.6%高出很多，证明本文提出方法是有效的，如图4所示。

图4 在NCSC语料库中与基线结果对比图Fig.4 Comparison of the results with the baseline in the NCSC corpus

由于发声系统的复杂性，病理语音分析离临床成规模应用还有段距离，本文提出的方法为语音分析与诊断在临床上应用提供了技术支持。本研究运用语音信号分析和处理技术来研究声音，研究适合煤工尘肺声音分析的关键技术，通过诊察患者声音的变异来诊断疾病。希望本文提出的技术能够实现对煤矿工人的健康状况进行分析，达到预防煤矿工人身体疾病的目的。

[1] Tsanas，A. Novel Speech Signal Processing Algorithms for High-Accuracy Classification of Parkinson′s Disease[J]. IEEE transactions on bio-medical engineering，2012，59(05): 1264-1271.

[2] Middag，C. Automated Intelligibility Assessment of Pathological Speech Using Phonological Features[J]. EURASIP Journal on Advances in Signal Processing，2008， (01)：1-9.

[3] Maier，A. Automatic Speech Recognition Systems for the Evaluation of Voice and Speech Disorders in Head and Neck Cancer[J]. EURASIP Journal on Audio，Speech and Music Processing，2009， (01)：1.

Study on the key technology of coal mine workers′ health status analysis based on acoustic diagnosis

FANG Chun-ying

(School of Computer and Information Engineering, Heilongjiang University of Science and Technology, Harbin 150001, China)

In this paper, acoustic parameters are analyzed by phonological phonetic representation of coal worker′s pneumoconiosis, and the characteristics of Mel S transform coefficients are used to describe the non-stationary characteristics of mutated speech signals. In this paper, we propose a nonlinear feature to describe the speech variation caused by the variation of vocal cords. At the same time, aiming at the redundancy problem of high dimensional feature, the feature set is proposed to be fused with auditory processing model.

Voice diagnosis; NCSC; Feature fusion; Speech analysis; Health status; Key technology

2016-12-05

项目来源：黑龙江教育厅科学技术研究项目，项目名称：基于声诊的煤矿工人健康状态分析的关键技术研究(12533051)

房春英(1978-)，女，硕士，副教授。

TP274

1674-8646(2017)04-0023-03