收集并分析含有多种类型的声音记录的语言数据集

2017-04-15刘璐

福建质量管理 2017年8期

关键词：帕金森症标准差度量

刘璐

(天津财经大学天津 300000)

收集并分析含有多种类型的声音记录的语言数据集

刘璐

(天津财经大学天津 300000)

人们对于构建应用于分析帕金森症患者的语言方式的远程诊断以及远程监控的预测模型越来越有兴趣。为了这个目的，我们收集了各种各样的声音样本，其中包含连续的元音、单词和句子，这些样本都是从一套帕金森症患者的口语练习中得来的。语言数据集是由每个人的多种话语记录构成的，在这篇论文里，我们使用了著名的机器学习工具来研究帕金森数据集并建立有效的预测模型。

集中趋势和离散度度量；交叉验证；多样本类型；语言障碍；帕金森症的远程诊断

一、引言

声音疾病可以简单地使用声音工具中的非周期振动来测量，声音中的复杂的非线性的不定性以及混乱、空气声学、非高斯的随机性可以用来增加声音疾病诊断系统的临床有用性。这篇研究的目的是设计一个计算机辅助的数据收集、储存和分析系统来简化帕金森症的诊断和治疗过程，这是在这个地方的神经病学部进行的。首先，每个病人的语言记录、人口统计信息、健康背景和帕金森症状的处理情况都被收集和储存。然后，解析收集到的语言记录并从声音样本中挑选出一系列特征值。在帕金森症诊断领域以及这篇研究中用到的语言数据集一般是由每个人的多种语言记录组成的。这篇研究中收集到的数据集包含每个人的多种声音样本，其中有连续的元音、数字、单词和短句等。在这篇文章中，我们也比较了其他能够用于分析这种数据集的交叉验证方法的成功性，这些交叉验证方法是用于构建诊断帕金森症的算法中的。我们使用了k-最近邻和支持向量机的分类算法，并根据模型的精度、特异性、灵敏度和马修斯相关系数得分来估计模型在从帕金森症患者中区分健康人时的成功性。

二、数据获取

这项研究中收集到的数据来源于20个帕金森症患者(6个女性，14个男性)和20个身体健康的人(10个女性，10个男性)。实验组由经历0-6年帕金森症的患者组成。实验组每个人的年龄在43到77之间(均值是64.86，标准差是8.97)，对照组的年龄分布则是在45到83之间(均值是62.55，标准差是10.79)。从所有人中得到的26个声音样本被记录下来，这些样本包括连续元音、数字、单词和短句等。这些样本由一群神经学家从一组旨在得到更有效的帕金森症患者声音的语言练习中挑选出来。这些声音是由一个频段在50到13000赫兹的MC-1500麦克风记录的，麦克风被设定在96000赫兹，30分贝，并被放置在距离测试者10厘米的地方，然后测试者按要求读或重复指定的文本内容。

在收集到上述的多种类型声音记录的数据集并进行我们的实验后，我们继续通过在相同条件下同一种医生检查过程来收集一个独立的帕金森症患者测试集。在收集这个数据集的过程中，28个帕金森症患者仅被要求各说3次连续的元音字母“a”和“o”，这就得到了168个声音记录。实验组中的病人经历帕金森症的时间是0到13年，年龄分布在39到79之间(均值是62.67，标准差是10.96)。我们使用这个数据集作为一个独立的测试集来证实我们从多种声音记录数据集中已经得到的结果。

三、方法

(一)使用留一法分类。和我们的研究一样，之前的研究中收集到的为构建无创性帕金森诊断系统的语言数据集也包含每个受试者的多种语言记录。使用传统的逐步回归法或留一验证法，会因为通过抽出一些个体的训练集样本和测试集样本而在训练集和测试集上造成一个人为的重叠，从而得到一个有偏的预测模型。然而，在现存研究中提出的分类模型一般使用的都是留一交叉验证法(LOSO)，它将一个人的全部声音样本舍去做验证，好想他是看不到的，剩下的样本全部用来训练。根据留一交叉验证法，如果一个测试个体的声音样本中的大多数被归类为帕金森症患者，那么这个个体被归类为阳性帕金森病，否则被归为阴性。

(二)用概括性留一法分类。根据概括性留一法，每个受试者的26个声音样本的特征值通过集中趋势和离散度度量得到总结，这些度量包括了均值、中位数、剔除平均值(去掉10%和25%)、标准差、四分位距、平均绝对偏差(平均绝对误差是所有单个观测值与算术平均值的偏差的绝对值的平均)，同时产生了一种由N个样本组成的新的数据集，其中N是受试者的数量。由于一个个体的多个样本降为一个样本，我们使用留一法将这个数据集的样本输入到2个或6个度量一组的分类器中。6个度量为一组的包含之前提到的所有度量，会根据规则有些许的不同，而两个度量一组的则是集中趋势和离散度度量的二元结合。通过这种方法，数据在样本维度上会缩减而在特征维度上会增加。

四、实验结果

在经过归一化处理使得每一个特征值的均值为0、标准差为1后，将特征值输入支持向量机和k近邻分类器中来进行帕金森症诊断。对于k近邻分类器，使用欧氏距离度量，对于支持向量机，使用LIBSVM包和线性、径向基核函数，其中耗散值参数c是10，核宽度g是0.005。我们比较了通过对原始数据集使用不同值的k近邻法和支持向量机法而得来的各种子集所得到的实验结果，从结果来看，对参数k取任意值，使用传统的留一交叉验证法，几乎可以得到一个随机的预测结果(看马修斯相关系数)。而通过以均值作为集中趋势、标准差作为离散度度量(k=1)的总结数据的概括留一法得到的最高MCC系数是0.3062，整体精度是65.00%。由于早期发现疾病可以增加治愈的机会并帮助阻止症状恶化，灵敏度在生物医学领域是另一个重要的评估指标。总结数据可以发现，使用剔除均值(去掉25%)和四分位距且k=5时，灵敏度最高，为70%。

观察数据可见，在使用以均值作为集中趋势、标准差作为离散度度量相结合的概括留一法时可以得到最高的精度(77.50%)，这与k近邻分类的结果一样。这个模型的马修斯相关系数、灵敏度和特型性也是最高的。使用线性核函数、留一法的支持向量机分类器也几乎产生了一个随机的预测结果(MCC=0.0006)，而径向基核函数则产生了一个较好的预测模型(MCC=0.1005)。我们可以看到，所有的概括留一法模型要比留一法模型在从健康人群中识别帕金森病人的能力上更成功。结果同样显示了支持向量机相较于k近邻分类器得到的结果更稳定。使用均值-标准差的概括留一法与传统留一法的线性支持向量机之间精度差异的显著性结果由McNemai检验得到(表五)。McNemai检验结果显示出在显著性水平0.05下，均值-标准差的概括留一法比传统留一法的精度要高。

五、结论

由于人们近期对于构建应用于分析帕金森症患者的语言方式的远程诊断以及远程监控的预测模型越来越有兴趣。我们收集了各种各样的声音样本和各种声音类型，其中包括连续性元音、单词和一组用于帕金森症患者对话练习的语句。基于对数据库的分析，结果显示，连续性元音与独立词汇和短句相比，具有更多辨别帕金森症的特征信息。为了评估一个受试者的中心趋势和离散度量(包括平均值，中值，截尾均值，标准差，四分间距和平均绝对离差)中哪些指标可以作为他所有记录中的优质代表并表现如何，我们尝试了这些指标的不同组合，发现具有代表性的经典的均值和标准差的主体样本改善了预测模型的广泛性。这种代表类型作为一个独立的数据样本，表现出比使用每个受试者的每个声音记录更有效。使用声音特征值的均值和标准差作为每个受试者的多种声音记录的一个总结性的代表，对于建立这种预测模型来说是一种有效的策略。

[1]郑书琴.大数据时代的品牌精准营销范式[J].视听,2017,(03):175-176.

[2]徐谢云.基于子空间分析法的脑中风微波检测研究[D].东华大学,2017.

[3]赵宇飞.数据挖掘技术在信息化管理中的应用探讨[J].中国管理信息化,2017,(04):157.

刘璐(1991-)，女，汉族，甘肃兰州人，研究生在读，天津财经大学，研究方向：财政。