基于多种子自适应分组成对比较的音质评价

2021-03-25王泽俊林志斌陶建成

南京大学学报(自然科学版) 2021年2期

王泽俊,林志斌,陶建成

（近代声学教育部重点实验室，南京大学声学研究所，南京，210008）

声品质主要研究声音的主观感受，是在特定的技术目标或任务下对声音适宜性的描述［1］，目前缺乏对声品质直接测量或量化的具体指标，具体描述方法仅有主观评价法和客观评价法［2-4］.主观评价法通过组织并开展主观评价实验，对声音要素进行评价［5］，Solomon［6］首先将主观评价法引入声学研究.目前，主观评价实验大多使用较系统科学的方法，如成对比较法、排序法、语义细分法等，这些经典方法均以严格的数学理论为基础，经过多年实践总结而得［7］.不同的评价方法的适用范围和性能有显著差异，为提高评价结果的可靠性，需要对不同评价任务选用合适的评价方法［8-9］.因此，评价方法研究是声品质研究领域的重要方向之一.

由于成对比较法（Paired Comparison，PC）实现简单，并可以用于区分差别不大的样本，因此被广泛采用.Chouard and Weber［10］研究证明听音回放顺序对主观评价结果没有显著影响，可以只进行半矩阵的成对比较.David［11］总结了1999年以前所有关于成对比较法理论方面的研究，指出PC法的评价实验受限于样本数量，评价时长和强度随评价样本数量的增加而急剧增大，极易引发评价者疲劳，使评价结果的可靠性下降.针对这一问题，毛东兴等［12］提出分组成对比较法（Grouped Paired Comparison，GPC），并且减少了评价时长和强度，可使主观评价实验更易开展.

然而，若GPC法的关联样本选取不当，则评价结果可靠性较低［12］.黄煜等［13］基于GPC法提出了自适应分组成对比较法（Adaptive Grouped Paired Comparison，AGPC），可选出更好的关联样本，从而提高评价结果的可靠性.然而AGPC法仅选择两个关联样本建立任意两组间的映射关系，缺乏对多个关联样本的研究.此外，在声品质主观评价实验中，存在已完成现有样本评价后又有新样本加入评价系统的情况，现有方法需要对所有样本重新进行实验，造成大量的重复劳动，且评价时长和强度随评价样本数量的增加而急剧增大，使评价实验难以开展.

本文在AGPC的基础上提出多种子自适应分组成对比较法（Multi⁃seed Adaptive Grouped Paired Comparison，MAGPC）.大量样本需要进行成对比较时先对样本适当分组，根据前一组的评价结果选择多个合适的种子样本并入下组进行主观评价实验，通过每两组之间种子样本的绩效分用最小二乘法建立两组的映射关系，进而通过该映射关系获得全体样本的绩效分.同时，在一些需要不断扩大主观测试样本且样本无法一次性全部获取的场合中，MAGPC法只需在已完成实验的样本中选取多个种子，与新样本合为一组进行成对比较，通过两组之间的种子样本建立映射关系获得全体样本的绩效分.已完成评价实验的样本可建立数据库，有新样本加入时只需在数据库中选取多个种子与新样本一起进行实验，并将实验结果并入数据库中，增大数据库的可靠性.

1 多种子自适应分组成对比较法

1.1 基本原理PC法以某一声品质特性作为评价要素，成对依次播放声音样本，评价者根据主观判断比较两个声音样本.假设样本量为N，任选两个不同样本进行组合，共有N()N-1/2个样本对，每个样本对的评价时间为t，重复实验次数为K，则PC法评价实验所需时间为T1，如式（1）所示.若把样本平均分成n组，则整个评价所需的总时间为T2，如式（2）所示［12］.

比较式（1）和式（2）可见，当样本数量相同时，分组后的评价时间为未分组时的1/n［12］.然而分组减少了很多样本对的评价实验导致评价信息缺失，与真值相比，评价结果的可靠性受到极大影响.为尽可能提高分组评价的准确性，MAGPC在每组样本中选出多个理想的种子样本，通过种子样本在两组评价实验中的绩效分建立映射关系，从而获得全体样本的评价结果.设V和V'是种子样本在前后两组实验中的评价值向量，目标是选取k和β使所有种子样本从后一组映射到前一组的值与前一组原始评价值差的平方和最小，如式（3）所示，其中‖ ‖2表示取向量的2阶范数：

MAGPC的流程如图1所示.先对第一组样本进行PC法主观评价实验，计算该组样本的绩效分，再从中选择多个样本S1，S2，S3等作为种子，并入下一组；再对第二组进行评价，根据种子样本的评价结果建立两组间的映射关系，重建获得前两组样本的评价结果.前两组的样本评价结果构成数据库，在数据库中选出新种子S′1，S′2，S′3等，加入第三组评价实验，建立映射关系求得第三组的评价结果.以此类推获得全部样本的评价结果.

图1 MAGPC中数据联系的建立过程Fig.1 The establishment process of data connection in MAGPC menthod

1.2 种子选取准则黄煜等［13］通过理论推导给出了最佳种子选取准则，但是完全符合理论的最优种子选取比较复杂，现实中往往难以求得.为了保证评价实验结果的可靠性，任意两个种子样本之间应具有明显的声品质特征区别，本文给出选取三个和四个种子的经验公式.已完成的评价样本均录入数据库，设数据库中样本个数为m，Vi为样本i的评价值为数据库中样本的评价值均值，为处于最佳种子位置s*的种子样本，当选取三个或四个种子时，种子样本的评价值应分别满足经验式（4）和式（5），且任意两个种子样本都需要满足经验式（6）：

1.3 线性回归相关理论简单介绍分析中涉及的线性回归相关理论.设自变量个数为l，样本数为m，l个自变量分别为x1，x2，…，xl，所求多元性线性回归方程的估计值为y^，则y^ 可以表示为：

其中，β0，β1，…，βl为回归系数，用最小二乘法求解，即选择使所有样本的估计值与测量值y误差平方和达到最小的β0，β1，…，βl作为最佳估计值，m个样本的总离差平方和TSS、回归平方和ESS与残差平方和RSS分别见式（8）、式（9）和式（10），且三者关系满足式（11）：

R2∈(0，1)，R2越大说明回归直线对观测值的拟合程度越好，观察点在回归直线附近越密集.

2 实验结果及分析

设计两组主观评价实验来验证所提方法.声音样本的采集地点为半消声室，选用六辆不同类型的轿车，在车内播放《渡口》片段，人工头放置于车的前后排座位分别采集声音样本，共得到12个样本.为体现主观评价词“力度”的特征，考虑人耳听觉中主观感知的形成过程，并对客观参量时域变化情况进行分析［14-15］，实验截取10 s左右500 Hz以下频段丰富的音频作为听音材料，并采用Zwicker等响度模型进行等响计算［16］.在回放听音材料前，将人工头录制的双通道信号转换为单通道信号.

评价主体为南京大学声学研究所的研究生，共30人，其中男15人，女15人，年龄22～25岁，身体健康且听力正常.声音重放设备为拜亚动力DT880监听级耳机，实验地点为南京大学声学楼试听室.分别采用PC法、AGPC法和MAGPC法评价声音样本并比较三种方法的结果差异.

2.1 实验1：AGPC法和MAGPC法的实验对比

首先采用PC法得到所有样本的绩效分，用AGPC法和MAGPC法时，将12个样本分成A，B两组进行分组成对比较法实验，六辆车前排录音得到的样本记为A组，后排录音样本记为B组，实验步骤如下：

（1）成对比较评价A组样本，评价时间约为5 min，评价结束后评价人员休息5 min以上，统计计算A组的绩效分并排序.AGPC法选择两个种子样本并入B组，MAGPC法选择三个种子样本并入B组.

（2）成对比较评价加入种子后的B组样本，AGPC法共八个样本，评价时间约为6 min；MAGPC法共九个样本，评价时间约为10 min，统计绩效分并排序.

（3）根据种子样本，通过最小二乘法建立两组间的映射关系，进而重建全体样本的绩效分，比较PC法、AGPC法和MAGPC法的评价结果.

A组样本的绩效分见表1，表中黑体字表示种子样本.根据黄煜等［13］提出的经验公式，AGPC法取样本9和样本11为种子样本并入B组，共八个样本28组成对比较评价，计算该八个样本的绩效分.通过两个种子在A，B组的绩效分，建立A，B组如式（13）所示的映射关系：

其中，x表示B组样本映射前的绩效分，y表示B组样本映射后的绩效分，B组映射前后的得分见表1，表中黑体字表示种子样本.通过线性回归拟合PC法和AGPC法的评价结果如图2所示，由图可见，AGPC和PC法得到的实验结果具有较好的一致性.

根据式（4）和式（6），采用MAGPC法选取样本3、样本9和样本11作为种子并入B组，共九个样本36组成对比较评价，计算该九个样本的绩效分，根据三个种子在A，B组的绩效分，通过最小二乘法建立A，B组的映射关系，如式（14）所示：

表1 实验1中两个种子的绩效分Table 1 Performance scores of two seeds in experiment 1

图2 实验1中两个种子AGPC和PC绩效分的相关性Fig.2 Correlation between AGPC and PC performance scores of two seeds in experiment 1

B组映射前后的绩效分如表2所示，表中黑体字表示种子样本.三个种子样本在A组评价中的绩效分为z，在B组评价中映射前的绩效分记为x，通过式（14）得到B组映射到A组后的绩效分为y，最终绩效分为Y=(z+y)/2.通过线性回归拟合PC法和MAGPC法的评价结果如图3所示.对比图2和图3可知，和AGPC法相比，MAGPC和PC法实验结果的拟合度更好，一致性更高（R2=0.984 ＞0.971）.

表2 实验1中三个种子的绩效分Table 2 Performance scores of three seeds in experiment 1

图3 实验1中三个种子MAGPC和PC绩效分的相关性Fig.3 Correlation between MAGPC and PC performance scores of three seeds in experiment 1

2.2 实验2：新样本加入评价系统实验2模拟已完成现有样本（A组，分别从四辆车前后排采集的八个样本）的评价后又有新的样本（B组，从两辆车前后排采集的四个样本）加入评价系统，新的样本需与已完成评价的样本进行对比的情况.首先采用PC法得到所有样本的绩效分，再用实验验证AGPC法和MAGPC法在该情况下的可靠性和有效性.实验场所、评价者、对声样本的预处理、实验步骤均与实验1相同.

根据黄煜等［14］提出的经验公式，AGPC法取样本3和样本8作为种子样本并入B组，共六个样本15组成对比较评价，计算该六个样本的绩效分，通过两个种子在A，B组的绩效分，建立A，B组的映射关系，如式（15）所示：

其中，x表示B组样本映射前的绩效分，y表示B组样本映射后的绩效分.

B组映射前后的得分如表3所示，表中黑体字表示种子样本.通过线性回归拟合PC法和AGPC法的评价结果如图4所示，可见AGPC和PC法实验结果拟合度较差（R2=0.800），说明在此情况下AGPC法的可靠性很低.

MAGPC法选取至少三个种子进行成对比较评价.若选择三个种子，根据式（4）和式（6），选取样本3、样本4和样本8作为种子样本并入B组，共七个样本21组成对比较评价.计算该七个样本的绩效分，根据三个种子在A，B组的绩效分，通过最小二乘法建立如式（16）所示的A，B组映射关系：

表3 实验2的两个种子的绩效分Table 3 Performance scores of two seeds in experiment 2

图4 实验2中两个种子AGPC和PC绩效分的相关性Fig.4 Correlation between AGPC and PC performance scores of two seeds in experiment 2

B组映射前后的绩效分见表4，表中黑体字表示种子样本.对于三个种子样本，在A组评价中的绩效分记为z，在B组评价中的绩效分记为x，通过式（16），B组的绩效分映射到A组后的绩效分为y，最终绩效分为Y=()z+y/2.通过线性回归拟合PC法和MAGPC法的评价结果如图5所示，可见MAGPC和PC法实验数据结果拟合度较好，一致性高（R2=0.971）.

若MAGPC法选取四个种子进行成对比较评价，根据式（5）和式（6）选取样本1、样本3、样本5和样本8作为种子样本并入B组，共八个样本28组成对比较评价.计算该八个样本的绩效分，根据四个种子样本在A，B组的绩效分建立的A，B组的映射关系如式（17）所示：

表4 实验2中三个种子的绩效分Table 4 Performance scores of three seeds in experiment 2

图5 实验2中三个种子MAGPC和PC绩效分的相关性Fig.5 Correlation between MAGPC and PC performance scores of three seeds in experiment 2

B组映射前后的绩效分见表5，表中黑体字表示种子样本.对于四个种子样本，在A组评价中的绩效分记为z，在B组评价中的绩效分记为x，通过式（17），B组的绩效分映射到A组后的绩效分为y，最终绩效分为Y=()z+y/2.通过线性回归拟合PC法和MAGPC法的评价结果如图6所示.对比图5和图6，虽然四个种子的方法一致性高于三个种子（R2=0.986 ＞0.971），但前者与PC法相比，一致性已经足够高，所以本场景中选用三个种子即可.

表5 实验2中四个种子的绩效分Table 5 Performance scores of four seeds in experiment 2

图6 实验2中四个种子MAGPC和PC绩效分的相关性Fig.6 Correlation between MAGPC and PC performance scores of four seeds in experiment 2

3 结论

声品质主观评价实验中，当样本数量较大或已完成现有样本评价后又有新样本加入评价系统时，PC法所需的时间较长而且难以实现.AGPC法可减少实验时长，但在样本区分度不大或分组不当时评价结果会有较大误差.本文在AGPC的基础上提出MAGPC法，通过多个种子样本在任意两组之间建立映射关系，进而获得全体样本的评价结果.针对12个样本的“力度”这一指标，比较PC法、AGPC法和MAGPC法的评价结果，对结果的绩效分做相关性分析.和AGPC法相比，MAGPC与PC法得到的结果具有更高的一致性.此外，对于已经完成现有样本的评价后又有新样本加入评价系统且需与旧样本进行对比的情况，主观实验结果表明与PC法相比，AGPC法得到的评价结果有较大偏差，而MAGPC法的结果一致性更高，更可靠.

MAGPC法既能很好地区分大量有细微差异的样本，又有助于建立评价指标的数据库，在声品质评价等需要长期大量心理实验和数据积累的研究领域中应用价值较高.在声品质评价实验中，对于特定数量的样本，选择的种子个数越多，得到的样本评价信息越完整，则评价结果可靠性越高.但种子量过大时将面临与传统PC法相同的问题.因此，选取种子的个数时需考虑评价结果的可靠性与评价时长的均衡问题.如何设计分组以及选取最佳种子的个数是下一步需要研究的问题.