一种基于情感诱发方法的情感语音数据库设计与实现

2017-09-28孟辉

现代计算机 2017年23期

关键词：语段语料库语句

孟辉

（新疆大学信息科学与工程学院，乌鲁木齐 830046）

一种基于情感诱发方法的情感语音数据库设计与实现

孟辉

（新疆大学信息科学与工程学院，乌鲁木齐 830046）

针对语音情感研究的需求，提出并设计实现一种同文本、同情感的不同诱发方式的维吾尔语综合语音库，诱发方式分别选择孤立式发音、上下文语境式和对话式三种激励方式。语料库录制2人11种情感共计1980条单句语料，对录制语音进行主观听测实验、听测实验效果达到80%以上，语料库为之后有关维吾尔情感计算提供重要资料，为实用情感语音数据库建立提供方法和指导。

语料库；情感语音；维吾尔语；情感激发

0 引言

研究情感语音离不开优良的语料库资源，实用情感语料能够为情感分析和情感识别等提供最大帮助[1]，随着情感研究种类不断增加，如何激发正确表达情感是一种挑战，同时也是构建语料库的关键因素。当前领域内存在的语料库类型按语种来分，包括英语、德语、日语、俄罗斯语、汉语、捷克语等。到目前为止，在构建语料库并没有统一的标准，基本综述如下：

两种语料库类型，一是收集自然状态下情感语音语料库，如VAM数据库[2]，Semaine数据库[8]；二是特定说话人表演型和诱发型的语料库，如：Berlin语音库[3]。在国内研究领域，清华大学和中国科学院心理研究所合作录制ACCorpus汉语情感数据库，中国科学院自动化研究所录制casia汉语语料库，北京航空航天大学录制的汉语双模情感语音库[4]等。

两类主流的情感描述模型：离散型与维度型。离散型以形容词标签的形式标注情感，如高兴、悲伤、愤怒等。其中美国心理学家Ekman提出的“六大基本情感[4]”在相关领域使用较为广泛。为了研究更多的情感，研究者开始考虑维度观情感理论，也称为连续性情感描述模型[5]。如三维的激励-评估-控制空间理论[15]和情感轮理论[6]，PAD三维情感模型[7]等。

对于情感的激发方式，研究者考虑较少，大多语料库语音以直接激发情感为主，本文将这种方式称为孤立式情感激发，不需要激励源，此类情感自然度比较低，甚至比较夸张。后来心理学和生理学领域也做了研究，寻找情感激励来诱发情感，如：自传式回忆情绪诱发法[8]；想象情绪诱发法[9]，LAPS国际情绪图片系统[10]，以及CAPS中国情绪图片系统[11]等，这些方法虽然使得实验的可重复性增强，但缺点是情感诱发力较弱，且只能针对于特定情感，一组图片可能只适用某一类情感。

现有语料库存在问题：第一，情感种类较少，仅仅选择基本情感4-6类作为录制目标，如上文综述的语料库；第二，情感的有效激发方面考虑较少，激励源能否正确表达情感需要验证，随着社会发展，人与人之间的沟通和交流变得比较活跃，那么如何正确理解说话人的意图，对未来语音情感合成和人工智能交互具有重要的意义，第三，之所以复杂情感研究较为单一，原因是复杂情感的诱发困难，并且是否能正确激发出情感是一种挑战。

1 语料库设计思想与规模

针对以上研究，本文设计了一种基于情感诱发方式的情感语音语料库，设计的出发点为相同的情感的无偏向文本，将文本嵌入到设计好的段落和对话中，通过设计情景和语段作为情感的激发铺垫，诱导不同的录制方式下不同的情感，达到了情感语料获取的效果，并且在录音结束后，对语料库进行有效性的判断，确定情感录制的正确性，该语料库包含了30句中性无偏向的三种不同录制方式的语句，男女两人11种情感，共计1980个单句语料，在30句中包含20个短句，10和长句；在句式结构上，2句感叹句，1疑问句，7句祈使句，其余均为陈述句。

2 语料库技术指标

2.1 录音语句选择指标

句子选择时构建情感语音数据最关键部分之一，句子选择的优良直接影响语料库的质量。总体句子特征：“中性”、“无情感指向”。句子选择通常有两种方式，一种通过互联网上新闻门户网络作为来源进行获取，由于新闻中的句子大多数为中性文本，首先通过爬虫方法随机抓取大量的句子，然后进行筛选，但是这种方式的缺点是：语句描述比较官方，对后期设计情感激发的语段和对话表现的较为乏力，对于报纸、书籍同样有这样的特点。而本文作者在考虑句子的选择时，选择了从影视剧《野鸭子》的剧本中手工选择句子。该剧由中文影视剧译制为维语电视剧，并且存在双语对齐剧本，严谨的讲，也会存在意译的语句，在选择句子时只选择直译语句。如此选择的原因是，双语对齐的剧本语料对语句的寻找带来极大的方便，对于与影视剧，剧本中的句子表达比较灵活，并且剧本中的句子的语法和单词拼写等错误情况非常少，同时生活剧影视剧剧本多以表达生活中平凡的故事，语料丰富，贴近生活，能较好地提供编写语境和段落的方便。

句子类型的考虑，从语气的角度，常见的句类包含四种：疑问句、陈述句、祈使句和感叹句。陈述句使用比较普遍，句子语气比较平稳，陈述句一般占句子选择数量的较大部分；疑问句直观给人一种发问的语气，主要表现在为句末语气上扬，有时在句末伴有疑问语气助词“吗”，“呢”等，疑问句有发问和反问，无论哪一种均可以做为句子选择的一部分。感叹句一般会有感叹词，感叹词作为标志才会判断一句话是不是感叹句，如句末出现“啊”，“呀”，“吧”等标识。祈使句一般为命令或者指示性的口吻去要求他人去办事，听众听了之后会有响应，除了陈述句之外，对于其他三类的句子要进行严格的筛选，有些句子会带有情感词，或者程度词，这样的句子对情景和对话设计比较困难。

句子长短的考虑，构建情感语料库时，第一，语句是表达情感的主体部分，为了表现情感语料库的句子丰富性，句子的长短结合是首要考虑的因素，考虑语料库中既要包含长句同时也要包含短句；第二，选择句子有明显的实际意义，有完整的句子结构；第三，为了便于后期语境和对话的文本设计以及情感的激发正确，我们选择中心意思明确，尽可能的为生活中常用的句子，原因是需要将一个相同的句子能嵌入到不同的对话中，只有句子具备完整的意义，才能为我们设计情景和对话提供方便；第四，句子不易过长或者过短。句子过短时，韵律的起伏变化不明显，造成不同的情感之间区分性不大的现象。这就要求我们在设计句子时，能为说话人留有表达情感句子的时间，同时当句子太长时，反而包含更详细的语音韵律信息，说话人在表达情感时，情感焦点、重音、强调的分布也会多种多样，对后续的研究可能会带来困难。因此选择句子不宜太长也不能太短。一般情况下我们对句子的字数进行限制，为3-8个单词为宜。

句子内容的考虑，在句子内容选择过程中，我们主要考虑的因素是句子本身是否带情感，主要观察句子中是否有情感词，强调词，程度副词，是否有特殊意义的词等，如讽刺，反讽意义的词等，这些明显标志的词为我们判断句子是否带有情感提供了方便。因此在这一部分考虑时，我们既要选择中性无偏向的情感的句子，主要的判断方式上文已经提到了，明显标志的情感词，强调词，程度副词等。

2.2 录音脚本制定与评测指标

在对话式的设计中，可以通过A或者B的情感引导，配合对话情景，用来表达情感，每个对话分别以A,B,A,B的对话形式进行设计，同时对话出现的情景也进行了描述，每一种情感的对话中，根据设计语句情感表达的难易长度，语句的对话次数的多少均不相同，比如中性情感，可能A,B一次对话就能激发，对于悲伤，可能需要设计多次对话进行情感的铺垫与情感的烘托，而到达情感表达的效果。

通过设计长对话更能对情感进行铺垫和激发，对话式情感的激发方式也往往需要特定的场合，在这样的场合下对话能够使情感的表达更加的自然，对话的方式能通过一个人进行情感的表达而带动另一个情感的表达，因此对话设计的方式需要简单和自然的语言衬托，如简单的句子，简单提问与回答就能达到效果，以交流的形式进行情感的激发，也使演员并没有太大的心理压力。

语境式情感的激发方式，情感的表现往往需要在特定的情景下才表现的比较真实，首先需要给说话人提供语段的信息，语段到底讲述什么主题，其次说话人选择朗读或者心中默念段落，在正式试读的时候，需要朗读段落，划线部分语句就是将要表现情感的语句，所以在情感语段的设计时，在语段的前半部分，需要一段文件进行情感的铺垫，让情感达到一定的持续效果，然后在持续的效果下朗读情感语句，这样的情感激发属于语境式情感激发，因为有了上下文的情感铺垫，所以获得的情感应该比孤立式真实。但是会出现两个问题，第一，有时会段落的设计达不到情感的铺垫，第二段落的设计达到了情感铺垫，但是之后的情感语句显的比较突兀，针对以上两类问题都是在设计语段中注意到的，主要原因是句子选择的不好，或者情感段落的设计需要修改。下面一段文字表现出划线情感句的语段设计。

对于孤立式情感的激发方式，孤立式情感的激发无需特定的场景，不需要对话，直接由说话人对情感进行表达，针对孤立式发音的特点，研究者们可以很容易得到大量的情感语句，因为孤立式发音不需繁琐的朗读洽谈的材料，所以孤立式发音时，情感的语气和发音速度表现的非常的一致，而且在孤立式发音时，长时间的激发一种情感，不需要情感的切换，很容易的得到所需要的情感语音书数据库。

当设计完330个情感短话和330个情感语段时，需要对设计的语段进行打分，通过打分的方式进行评测。我们设计了一个五点打分的量表，分别设计非常同意，同意，说不准，不同意，很不同意，五和程度进行打分。测试人员为5人，测试对象为330句对话文本和330句语句文本，历时三天，因为长时间的工作会对人产生疲劳效果，影响判断。

当测试员拿到文本材料时，5个测试员在不同的房间，相同的条件下独立完成判断，排除外界或其他的偶然因素，当5个人中标记了相同的段落之后，认为处于“说不准，不同意，很不同意”时，那么这个段落表示不通过，标记为“说不准”也要标记为不通过，重新进行设计语段，通过打分，初次设计的语段不合格对话语段占40个，不合格的情景占32个，而在这些不合格的语段中，轻蔑，厌恶，温顺等情感的语段的设计达不到效果的有很多。但最终将不合格的去除或者重新的设计语段。

图1-图2表示语境和对话的设计例子

图1 其中某句话“轻蔑”情感短话设计

图2 其中某句话“惊讶”情感短话设计

2.3 录音的运作与文件编写指标

本次使用的录音棚是一个小型移动录音棚，录音人数为2人,一男一女，是大学毕业生，母语是维吾尔语的维吾尔族人，对于设备要求，本次使用的录音棚是一个小型移动录音棚，满足录音要求，该录音棚中已完成许多电视片的配音工作，隔音效果较好，此外在录音棚墙质不能产生回声，否则需要加入泡沫等消音道具，话筒放于中心靠前位置，棚中不放置其它无关器械。

对于人员要求，录音人数为2人，一男一女，是大学毕业生，母语是维吾尔语的维吾尔族人，并非专业演员，录音时口语清晰，态度认真，不可笑场。开始朗读时，可进行一次试音，便于熟悉情感和场景，调整自己的发音大小和距离话筒的位置。

为了激发真实的情感，我们提前不向录音员发放脚本册，因为过早地熟悉语料反而对情感激发存在影响，如提前酝酿情感等，以后当熟练录音流程时，我们甚至要求录音员脱稿，或者将文稿进行PPT放映，针对激发情感出现的表情，也是判断情感的标志之一。我们在录音前30分钟，发放脚本，主要给其介绍流程。正式录音为录两遍，当录音师读错或不满足工作人员要求时，需要无条件重新录制当前语料直到工作人员容许通过。现场人员为一名研究情感的实验室工作人员，对情感进行判断，一名维吾尔族同学，对发音进行纠正，以及本文的作者，对录制中出现的情况进行及时沟通与整体把握。

采用“录制方式+情感类别+性别+句子序号”的方式进行保存命名，其中，录制方式表征为：A对话式，B语境式，C对话式，情感类别为：A：中性，B温顺，C放松，D惊奇，E喜悦，F轻蔑，G厌恶，H恐惧，I悲伤，J焦虑，K愤怒，性别为01：男性，02：女性，句子序号为1-30，如A-A-01-01，表示对话式的激发情感的方式，中性情感，男性所读的序号为1的句子。

2.4 语料库的评价指标

本文一共选择了50（25男，25女）名维吾尔族人进行了测试，他们在此之前并没有训练过类似的任务，而且他们也不是情感语音研究的学者和专家，平均年龄为26岁，年龄的范围是从21-27岁，被试平均受教育的年限是（14.6±1.8）年。打分结果如表1所示。

一共三种方式录制的1920句的维吾尔声音进行感知实验，每个被试在光线暗淡的房间中进行，这个房间是隔音效果比较好的一个语音室，不会受外界环境的影响。他们通过听侧这段语音，进行情感判断，他们被要求是听这个情感语音，确定他们的情感韵律，此时不考虑句子内容的问题，因为有时句子内容会对情感的判断有影响，之后他们在12种选项上对情感进行判断，按要求作答，12个项目是指11种情感再加上“以上都不是”的选项，为了听测人的疲劳问题，将实验的语音材料分为了20块，每块听侧用时25分钟，然后期间再休息5分钟，考虑到上时间听测可能对被试的判断有影响，同时考虑被试的个人时间，我们用时3天时间听侧完所有的内容。根据听辨的结果，计算出平均的正确数据，然后计算听辨率。

表1 三种录制方式下的识别率变化

通过从主观的听测打分可以明显的看出，三种录制方式下，总体识别率在70%以上，平均听测准确度最高的是孤立式情感，对于对话式和语境式，听测结果较低。

（1）语境式和对话式的听辨率整体低于孤立式。尤其是对于基本情感，高兴，厌恶，愤怒，恐惧的听辨率很高，其中最主要的原因是：孤立式是典型的、容易被大多数人理解的情感表达，相同的情感表达较一致,当听到这类型的情感语音时，被试能较快的进行判断，如惊讶，愤怒等情感表现力度比较夸张，而且句子情感表现力度比较大，所以对于情感的判断，被试容易打分。而在对话和语境式当中，情感的表达力度由具体的情景和对话所影响。

（2）基本情感的听辨率高于复杂情感。在中性，悲伤，愤怒，厌恶，惊讶，喜悦情感的听辨率较高，而温顺，放松，轻蔑，焦虑这四类复杂情感听辨率较低。复杂情感在一定程度上会对被试的判断受影响，例如，轻蔑和厌恶情感的混淆，焦虑和悲伤情感混淆，都会对判断造成一定的影响。

（3）通过对于复杂情感温顺、放松、厌恶的主观听测，复杂情感在对话和语境的激发下，情感的表达更加正确，容易被听辨和识别，说明复杂情感在一定的情景下更加容易激发。同时从一定的程度说明,情感激发的作用。

3 结语

针对维吾尔情感语料库的缺失和研究的需要，本文通过较详细的构建了一个便于控制和使用的维吾尔情感语料库，选取了11种典型的情感，在情感的数量上有所增加，增加温顺，放松，轻蔑，焦虑四个复杂情感，一共包括六类基本情感和四种复杂的情感。在录音的过程中考虑到情感的激发方式，分别设计了语境式激发、对话式激发、和孤立式激发三种激发3种录制方式，从听测分析比较情感的激发和表达效果，主观实验下，三种激发方式都基本达到了效果。最终的语音材料包括1920句有效的语音，这个数据库设计方法的可利用性和操作性，表现在为将来的维吾尔语情感语音研究，对情感语料库的构建和情感识别提供材料，并且为语料库的研究提供方法和指导。未来工作是，利用该数据库应用进行研究，对语音识别、分类、转换、合成等件研究，深入分析三种不同的录制方式效果和不同情感之间的变化规律，通过语料库做情感相关计算将在下一步进行。

[1]韩文静,李海峰,阮华斌等.语音情感识别研究进展综述[J].软件学报,2014,V25（01）：37-50

[2]McKeown G,Valstar MF,Cowie R.The Semaine Corpus of Emotionally Coloured Character Interactions[J].IEEE International Conference on Multimedia&Expo,2010,26（2）：1079-1084

[3]Burkhardt F,Paeschke A,Rolfes M,Sendlmeier W,Weiss B.A Database of German Emotional Speech[C].the 2005 Interspeech.Lisbon：ISCA,2005,：1517-1520

[4]景少玲,毛峡,陈立江,张娜娜.汉语双模情感语音数据库标注及一致性检测[J].北京航空航天大学学报,2015,v41（10）：1925-1934

[5]Ekman P,Power MJ.Handbook of Cognition and Emotion.[J].Sussex：Wiley&Sons,1999,22（Suppl 2）：237-244

[6]Xie B.Research on Key Issues of Mandarin Speech Emotion Recognition[D],2006;

[7]R Cowie，E Douglascowie，N Tsapatsoulis.Emotion Recognition in Human-Computer Interaction[J].Neural Networks the Official Journal of the International Neural Network Society,2005,18（4）：389-405

[8]Mehrabian A.Pleasure-Arousal-Dominance：A General Framework for Describing and Measuring Individual Differences in Temperament[J].Current Psychology,1996,14（4）：261-292

[9]Brewer D,Doughtie E B,Lubin B.Induction of mood and Mood Shift[J].Journal of Clinical Psychology,1980,36（1）：215-226

[10]Wright J,Mischel W.Influence of affect on Cognitive Social Learning Person Variables[J].Journal of Personality and Social Psychology,1982,43（5）：901-914.

[11]Bradley M M,Lang P J.The International Affective Picture System（IAPS）——Comparison of Evaluating Method in Young Adults Sample[J].Journal of the Japanese Society of Agricultural Machinerys&sfood Engineers,2014,01（2）：202-209.

[12]白露,马慧,黄宇霞.中国情绪图片系统的编制[J].中国心理卫生杂志,2005,19（11）：719-722.

Design and Implementation of Uighur Emotional Speech Database Based on Emotion Excited

MENG Hui
（College of Information Science and Engineering,Xinjiang University,Urumqi 830046）

Demanding for speech emotion research,designs and implements a Uighur comprehensive database which has the same text and the same emotion but different evoked ways,the evoked way contains isolated type,context type,conversational type.The corpus recorded 1980 sin⁃gle sentences with two speakers and 11 types of emotion,the recording of the subjective listening test results to more than 80%or more.The practical significance of establishing the corpus provides important information with Uighur affective computing,it also provides meth⁃ods and practical guidance for establishing emotional speech database.

1007-1423（2017）23-0032-06

10.3969/j.issn.1007-1423.2017.23.007

孟辉（1990-）男，硕士研究生，研究方向为情感语音分析

2017-04-14

2017-07-25

Corpus;Emotional Speech;Uighur;Emotion Excited