基于中文文本相似度评估的情感勒索话语检测系统
2024-10-14林文晟杨观赐钟世昊
摘 要:情感勒索是通过情感压力迫使周围人听从自己要求的交流方式,容易导致对方的负面情绪甚至心理问题从而影响交流效果。为了检测日常交流场景下的情感勒索话语进而改善交流效果,开发了基于中文文本相似度评估的情感勒索话语检测系统。首先,基于Susan Forward的情感勒索理论标注收集到的数据,构建情感勒索语料库和测试集;其次,分析情感勒索的表达方式,分别基于词性和语义词设计文本相似度评估方法,进而形成基于中文文本相似度评估的情感勒索话语检测算法;然后,在构建的数据集上开展实验,该算法获得的平均recall与F1-score分别为95.21%和79.95%,优于对比算法;最后,基于该算法开发情感勒索话语检测原型系统,系统在不同测试条件下的平均recall为87.24%,展现出良好的鲁棒性和检测性能。
关键词:智能系统; 情感勒索话语检测; 文本表达方式; 相似度评估
中图分类号:TP391 文献标志码:A
文章编号:1001-3695(2024)10-027-3073-08
doi:10.19734/j.issn.1001-3695.2024.02.0052
Emotional blackmail utterance detection system based on Chinese text similarity evaluation
Lin Wensheng, Yang Guanci, Zhong Shihao
(Key Laboratory of Advanced Manufacturing Technology of the Ministry of Education, Guizhou University, Guiyang 550025, China)
Abstract:Emotional blackmail is a way of communication that forces people around them to listen to their requirements by emotional pressure. It can easily lead to negative emotions and even psychological problems of the other side, then affect the communication effect. In order to detect emotional blackmail utterance in daily communication scenarios and improve the communication effect, this paper developed an emotional blackmail utterance detection system based on Chinese text similarity evaluation. Firstly, this paper labelled the collected data based on Susan Forward’s emotional blackmail theory, and constructed an emotional blackmail corpus and a test set. Secondly, this paper analyzed the expression modes of emotional blackmail, and designed text similarity evaluation methods based on part of speech and semantic words respectively, then formed an emotional blackmail utterance detection algorithm based on Chinese text similarity evaluation. Thirdly, this paper carried out experiments on the constructed datasets. The average recall and F1-score of the proposed algorithm are 95.21% and 79.95% respectively, which are better than the compared algorithms. Finally, this paper integrated an emotional blackmail utterance detection prototype system based on the proposed algorithm. Under different testing conditions, system test results show that the average recall is 87.24%, which shows good robustness and detection performance.
Key words:intelligent system; emotional blackmail utterance detection; expression modes of text; similarity evaluation
0 引言
在日常交流中,人们为了让周围人听从自己的要求,有时候会通过情感压力来向他们施压。例如,在提出建议时强调“为你好”;告知对方若不服从要求自己会受到伤害等。美国心理治疗师Forward等人[1]从心理学角度研究了上述行为,发现该行为的动机皆为逼迫对方满足自己的要求,与勒索的心理相似,故将其命名为情感勒索。之所以在“勒索”前面加上“情感”二字,是因为情感勒索发生在周围人的日常交流中,双方关系密切导致一方难以摆脱另一方的控制。而勒索是为了图财而专门采取的违法行为,可以寻求法律保护。因此,情感勒索的受害者往往受困于情感纽带从而难以摆脱对方的控制,容易陷入负面情绪[2]而变得敏感易怒而不听建议[3],甚至引发抑郁等心理问题[4]作出自杀举动[5],难以与外界进行有效交流。随着人工智能技术的发展,关于机器自动检测话语表达方式的研究方兴未艾,如讽刺检测[6]、幽默检测[7]等。因此,如何利用人工智能技术检测情感勒索话语进而改善交流效果是值得深入研究的课题。
利用人工智能技术检测情感勒索话语,需要使机器自主区分情感勒索话语和非情感勒索话语。常规思路是采用积极学习,即在训练阶段构建出情感勒索话语分类器模型来对未知数据进行预测的方式。情感勒索话语模型的构建,需要通过数据多样且数据量充足的情感勒索数据集实现。若数据集条件不满足,则容易导致分类器的过拟合或欠拟合,从而影响分类性能。目前没有公开的情感勒索数据集。现有的中文对话数据集要么是特定领域的对话语料库(如豆瓣对话语料库[8]、电子商务对话语料库[9]等),要么是情感对话数据集(如M3ED[10]、CPED[11]等)。情感勒索发生在提出要求的情境。因此,不论是特定领域对话还是情感对话,都只有少量话语符合情感勒索的发生情境。故难以根据现有数据集,构建数据多样且数据量充足的情感勒索数据集来训练情感勒索分类器。因此,受限于情感勒索话语数据量不足的现有数据条件,积极学习的方式不适用于情感勒索话语检测。
除了积极学习这种常规思路,还有基于预定义语法规则的非训练方法,以及在训练阶段只存储数据而在预测阶段比较训练数据与待预测数据的相似性的惰性学习方法两种思路。关于前者,语法规则只能获取表面词汇和句法结构等文本浅层信息,难以获取语义和主题等文本深层信息[12]。情感勒索话语与非情感勒索话语的区别在于是否包含通过施压迫使对方听从自己要求的语义表达,属于文本深层信息,故基于预定义语法规则的非训练方法不适用于情感勒索话语检测。关于后者,无须通过充足的数据进行训练,关键在于通过合适的方法比较训练数据与待预测数据的相似性,适用于情感勒索话语数据量不足的现有数据条件。因此,本文考虑采用惰性学习的思路,通过构建小型情感勒索语料库,将待测话语与情感勒索语料库内的所有情感勒索话语进行相似度评估,最后综合所有的相似度评估结果来判断待测话语是否为情感勒索话语。在惰性学习的思路中,关键在于相似度评估方法的设计。于是本文调研了中文文本相似度评估方法的研究现状,具体如下。
在中文文本相似度评估方面,文献[13]提出基于暹罗网络的多粒度匹配模型(multi-granularity matching model based on siamese neural network,MGMSN),不仅基于字粒度和词粒度的深层语义匹配模块来提高相似度评估的准确性,而且添加了基于余弦相似度的浅层语义匹配模块以提高模型的泛化能力。文献[14]提出基于双向时域暹罗网络的中药文本相似度评价模型(traditional Chinese medicine text similarity calculation model based on the bidirectional temporal siamese network,BTSN),使用基于知识增强的持续学习语义理解框架(enhanced representation through knowledge integration,ERNIE)训练字向量以解决中药文本分词不准确的问题,并使用双向长短期记忆网络(bi-directional long short-term memory,Bi-LSTM)[15]综合考虑句子上下文的时间信息。文献[16]提出围绕结构和语义的句子相似度评估方法(two-domain coordinated sentence similarity scheme for question-answering robots regarding unpredictable outliers and non-orthogonal categories,TDCS),基于双语评估替补方法(bilingual evaluation understudy,BLEU)进行N元匹配搜索来评估结构相似度,并采用结合基于Transformer的双向编码器表征方法(bidirectional encoder representation from Transformers,BERT)[17]和多核卷积神经网络(convolutional neural networks,CNN)的深度学习方法评估语义相似度。文献[18]提出基于多属性融合的句子相似度评价方法(multi-attribute fusion similarity calculation method based on sentence,MAFS)。首先提取句子的语序、词性和句子长度等属性,其次分别计算各属性的相似度,最后通过层次分析法[19]对各属性的相似度进行加权融合。文献[20]提出用于评估标准答案和学生答案之间的相似性的自动汉语评分系统(effective hybrid automated Chinese scoring system for medical education,ASS),通过《同义词词林》计算关键词相似度[21],基于句法结构分析量化关系词对的语义相似度。
上述工作虽然评估方法不同,但都是从两段话是否用相同的方式表达相同含义,即表达方式一致性和表达内容一致性展开评估。而判断待测话语是否与情感勒索话语相似,关键在于判断待测话语是否像情感勒索话语那样通过施压迫使对方听从自己要求,即两者的表达方式一致性。至于要求的具体内容则不需要关注,从而无须评估表达内容一致性。对此,本文在参考现有中文文本相似度评估工作的基础上,设计用于情感勒索话语检测的中文文本表达方式相似度评估方法。在此基础上,提出基于中文文本相似度评估的情感勒索话语检测算法(emotional blackmail utterance detection algorithm based on Chinese text similarity evaluation,EBDCH),并面向日常交流场景集成基于EBDCH的情感勒索话语检测原型系统。
1 中文情感勒索话语数据集构建
鉴于从目前的公开数据集中难以发现情感勒索话语,本章首先从三个来源收集情感勒索话语,分别是:书籍《情感勒索》[1];知乎、豆瓣等中文论坛网站;开展的情感勒索问卷调查。其中,通过阅读书籍《情感勒索》记录了其中的84段情感勒索话语;通过在中文论坛网站中搜索“情感勒索”,阅读并记录了搜索结果中的164段情感勒索话语;通过微信、QQ分享问卷链接进行问卷调查,收集到了986段情感勒索话语。
其次,根据相关心理学理论,制定标注规则来筛选收集到的话语。目前,关于情感勒索的心理学理论有Blau的社会交换理论[22]、Forward的情感勒索理论[1]等。其中,只有Forward的情感勒索理论定义了情感勒索的表达方式。Forward认为,情感勒索以引诱者、施暴者、自虐者和悲情者四种形态中的一种或者多种出现,让对方感受到由恐惧感、责任感、罪恶感带来的情感压力,不得不服从要求。其中,引诱者强调自己这么要求是为了对方考虑,施暴者威胁对方如果不服从要求会把他们怎么样,自虐者威胁对方如果不服从要求会对自己怎么样,悲情者强调若对方不服从要求自己会面临怎样的困境。由此可见,引诱者的施压方式是强调提出要求是为了对方好,施暴者、自虐者和悲情者的施压方式是强调不服从要求会给对方或自己带来的伤害。
根据该理论制定了情感勒索话语标注规则,具体如下:a)话语内容包含对于对方的要求;b)在话语内容中强调提出要求是为了对方好,或强调不服从要求会给对方或自己带来的伤害;c)若符合规则1、2,则将话语标注为正样本(情感勒索话语),否则标注为负样本(非情感勒索话语);d)由3人标注,标注结果采用少数服从多数原则。
然后,基于标注规则对话语进行筛选,并删除话语中与情感勒索表达无关的修饰词,获得了1 136段字数均低于50的正样本,最后获得情感勒索语料库(Chinese emotional blackmail corpus,EB-CH)。表1展示了EB-CH语料库的部分样本,及其对应的情感勒索形态和施压方式。
考虑到当代生活题材电视剧聚焦于本文面向的日常交流场景,因此基于《小欢喜》《小别离》和《都挺好》三部当代生活题材电视剧的对话文本构建后续实验的测试集。首先,从CPED数据集[11]获取上述三部电视剧的对话文本;其次,切分每段对话中不同角色的话语;然后,根据标注规则标注切分后的话语;之后,将标注的三部电视剧话语分别作为3个测试案例,最后形成测试集。表2是测试集的统计信息。
由表2可知,3个测试案例中正样本所占比例很低。如此设置的原因如下。本文目的是检测日常交流场景下的情感勒索话语进而改善交流效果,意味着所提算法需要在日常交流情境下的任何情境进行情感勒索话语检测,而不是只在可能发生情感勒索的提出要求情境。因此,在筛选数据时保留了所有日常交流场景下的话语,从而导致3个测试案例中正样本,即情感勒索话语所占比例很低。
2 基于词性和语义词的中文文本相似度评估方法
考虑到现有的情感勒索数据集规模不足以训练情感勒索分类器,于是将情感勒索话语检测由单文本分类转变为多文本相似度评估。相应地,检测内容就由是否具备情感勒索文本特征转变为是否与已标注的情感勒索文本相似。如此转变之后,机器无须从少量文本中学习情感勒索文本与非情感勒索文本之间的区别,只需要在给定角度下评估文本之间的相似程度,从而降低了检测难度。为此,本章根据情感勒索文本表达方式给出评估角度,然后围绕评估角度设计评估方法。
情感勒索文本表达方式为向对方施压让对方听从要求,属于行为动作,需要围绕动词展开。在施压过程中,需要表达否定、转折、强调或假设等语义,将表达这些语义的词汇定义为语义词。通过动词与语义词的各自搭配以及相互搭配,实现施压过程。因此,将词汇搭配作为评估角度。并把典型的词汇搭配对应的词性定义为词性组合,每个词性组合由若干词性以及词性之间的位置关系组成。
此外,施压对象是对方。相应地,需要判断词汇搭配的关联代词是否指代对方。因此,也将关联代词作为评估角度。并把指代对方的词定义为特定代词,其中包括“你”“我们”及其所有格形式的代词。
基于上述思考和定义,围绕词汇搭配以及关联代词两个评估角度,分别基于词性和语义词设计中文文本相似度评估方法。
2.1 基于词性的中文文本相似度评估方法
围绕词汇搭配,定义句子中任意两个及以上的相邻词性组成的序列定义为词性子序列。围绕关联代词,定义与词性子序列里每个词性距离之和最小的代词为词性子序列的最近代词。若最近代词包含特定代词,则用1表示最近代词;否则用0表示最近代词。围绕词性子序列及其最近代词,设计基于词性的中文文本相似度评估方法,具体步骤见算法1。
算法1 基于词性的中文文本相似度评估方法
输入:待测话语d;情感勒索文本集合Ctext(Ctext={ t1,t2,…,tj,…,tN})。
输出:话语d与集合Ctext中所有元素的词性相似度向量rp(rp={rp1,rp2,…,rpi,…,rpN})。
a)加载集合Ctext;将rp初始化为零向量;读取话语d。
b)基于LTP平台[23]获取话语d的词性序列Pd。
c)根据词性类型去除词性序列Pd的停用词。
d)将词性序列Pd里所有代词和代词位置存储到集合Cir。
e)从j=1到j=N:
(a)基于LTP平台获取文本tj的词性序列Ptext(Ptext={p1text,p2text,…,pytext,…,pmtext})。
(b)检测词性序列Pd与Ptext的相同词性子序列,将检测到的序列存储到集合Pp;将检测到的序列在话语d的位置存储到集合Ldp;将检测到的序列在文本tj的位置存储到集合Lsd。
(c)统计集合Pp包含的词性子序列数量mp以及词性数量mdp。
(d)根据集合Ldp和Cir,获取检测到的序列在话语d的最近代词,存储到集合Udp。
(e)将词性序列Ptext里所有代词和代词位置存储到集合Ctr。
(f)根据集合Ldp和Ctr,获取检测到的序列在文本tj的最近代词,存储到集合Usd。
(g)统计集合Udp与Usd的相同最近代词数量mdpsd。
(h)rpj=mdp/m×mdpsd/mp。
f)输出rp。
步骤b)所用的LTP平台是个开放的中文语言技术平台,基于该平台依次进行分词和词性标注,获取话语d的词性序列Pd。
步骤c)的目的是消除与情感勒索文本表达无关的词性对相似度评估的影响,其中包括标点符号、量词等词性类型的词,将它们称为停用词。去除停用词后,每段文本仅由助词、形容词、副词、连词、代词、动词、方位词、时间名词和介词组成。
在步骤e)中,用rpj=mdp/m×mdpsd/mp评估待测话语d与集合Ctext中任意情感勒索文本tj的词性相似度。其中,mdp/m表示检测到的序列的词性数量之和与文本tj词性数量之间的比值,用于表示两文本的词汇搭配相似度。mdpsd/mp用于评估每段检测到的序列在两文本的最近代词是否相同,表示两文本的关联代词相似度。
2.2 基于语义词的中文文本相似度评估方法
围绕语义词搭配进行相似度评估,首先需要获取待测话语和情感勒索文本的语义词。待测话语属于未知文本,因此无法事先获取到待测话语的语义词。于是从已知的情感勒索文本出发,标注情感勒索文本集合Ctext里每段文本的语义词,进而获取到每段文本的语义词序列WjSW={w1sw,w2sw,…,wysw,…,wesw},最后获得情感勒索文本的语义词序列集合Csw={W1sw,W2sw,…,Wjsw,…,WNsw}。围绕关联代词,定义与语义词距离最小的代词为语义词的最近代词,表示方法与2.1节词性子序列的最近代词相同。围绕语义词及其最近代词,设计基于语义词的中文文本相似度评估方法,具体步骤见算法2。
算法2 基于语义词的中文文本相似度评估方法
输入:待测话语d;情感勒索文本集合Ctext(Ctext={ t1,t2,…,tj,…,tN});情感勒索文本的语义词序列集合Csw={W1sw,W2sw,…,Wjsw,…,WNsw}。
输出:话语d与集合Ctext中所有元素的词性相似度向量rw(rw={rw1,rw2,…,rwj,…,rwN})。
a)加载集合Ctext和Csw;将rw初始化为零向量;读取话语d。
b)基于LTP平台获取话语d的词序列Wd和词性序列Pd。
c)将词性序列Pd里所有代词和代词位置存储到集合Cir。
d)从j=1到j=N:
(a)基于LTP平台获取文本tj的词序列Wtext和词性序列Ptext(Wtext={w1text,w2text,…,wytext,…,wmtext},Ptext={p1text,p2text,…,pytext,…,pmtext})。
(b)基于OpenHowNet知识库[24]检测词序列Wd与语义词序列Wjsw的相似语义词,将检测到的相似语义词存储到集合Ww;将检测到的相似语义词在序列Wd的位置存储到集合Lds;将检测到的相似语义词在序列Wtext的位置存储到集合Lss。
(c)统计集合Ww包含的相似语义词数量ew。
(d)根据集合Lds和集合Cir,获取相似语义词在词序列Wd的最近代词,存储到集合Uds。
(e)将词性序列Ptext里所有代词和代词位置存储到集合Ctr。
(f)根据集合Lds和Ctr,获取相似语义词在词序列Wtext的最近代词,存储到集合Uss。
(g)统计集合Uds与Uss的相同最近代词数量edsss。
(h)rwj=ew/e×edsss/ew。
e)输出rw。
步骤d)中,子步骤(b)所用的OpenHowNet知识库是开源的语义网络知识库,使用该知识库实现基于义原的词相似度计算,获取词序列Wd与语义词序列Wjsw的相似语义词。子步骤(h)用rwj=ew/e×edsss/ew评估待测话语d与集合Ctext中任意情感勒索文本tj的语义词相似度。其中,ew/e表示检测到的相似语义词数量之和与文本tj的语义词数量之间的比值,用于表示两文本的词汇搭配相似度。edsss/ew用于评估每个相似语义词在两文本的最近代词是否相同,用于表示两文本的关联代词相似度。
3 基于中文文本相似度评估的情感勒索话语检测算法EBDCH
为了检测话语内容中是否包含情感勒索,本章从自然语言处理角度出发,在第2章提出的相似度评估方法基础上,提出了基于中文文本相似度评估的情感勒索话语检测算法EBDCH,具体步骤见算法3。
算法3 基于中文文本相似度评估的情感勒索话语检测算法EBDCH
输入:待测话语d;情感勒索文本集合Ctext;相似度评估的阈值T。
输出:话语d的情感勒索检测结果R(true或false)。
a)加载集合Ctext;初始化R=false;读取话语d。
b)根据标点将话语d切分成字数不超过50的文本集合Cd={d1,d2,…,di,…,dn}。
c)从i=1到i=n:
(a)在文本di检测特定代词和词性组合,获得检测结果Di(true或false)。
(b)如果Di==false,即没有检测到特定代词和词性组合,则R=false。
(c)如果Di==true,即检测到了特定代词和词性组合:
运用算法1计算文本di与集合Ctext中所有元素的词性相似度向量rip,运用算法2计算文本di与集合Ctext中所有元素的语义词相似度向量riw;将词性相似度向量rip与语义词相似度向量riw进行融合,获取最大总相似度ritotal;
如果ritotal≥T,则R=true,结束循环;否则,R=false。
d)输出R。
步骤b)用于限制输入文本长度。文本切分方式如下:首先,切分出前50个字组成的文本d1。其次,在d1中使用逐字匹配的方式检测标点。若检测到标点,则d2的起点为标点后一个字;否则,d2的起点为d1后一个字。然后,在选定切分起点后,判断剩余文本字数是否超过50。若超过50,则d2为50字文本,否则d2为剩余文本。之后,循环上述基于标点的切分过程,直到剩余文本字数不超过50为止,这样便得到了d3,d4,…,dn。最后,得到字数不超过50的文本集合Cd。这里把输入文本的字数限制设为50,是因为后续实验由EB-CH语料库提供情感勒索文本集合Ctext,而EB-CH语料库的文本字数均低于50。
在步骤c),特定代词和词性组合的定义见第2章。其中,特定代词是文本di与对方相关的必要条件,词性组合是施压的必要条件。只有当文本di同时具有特定代词和词性组合时,该文本才具备情感勒索表达的必要条件,检测结果Di=true;否则该文本不具备情感勒索表达的必要条件,检测结果Di=false。当文本不具备情感勒索表达的必要条件时,自然无法表达情感勒索,故若Di==false,则R=false。子步骤(c)获取最大总相似度ritotal的过程如下。首先,计算总相似度向量ritotal=a·rip+b·riw,其中a和b为互补权重,有a+b=1。其次,找出向量ritotal中数值最大的元素,记为最大总相似度ritotal。若ritotal≥T,则R=true,说明文本di包含情感勒索,从而输入文本d包含情感勒索,循环终止;否则R=false,循环继续。权重a和b以及阈值T的取值将在第4章通过实验确定。
4 EBDCH算法性能测试与分析
在本章实验中,EBDCH算法的待测话语d来源于测试集,情感勒索文本集合Ctext来源于EB-CH语料库。评价指标均采用precision、recall和F1-score,它们的计算公式分别为
precision=TPTP+FP(1)
recall=TPTP+FN(2)
F1-score=2×precision×recallprecision+recall(3)
其中:TP(true positive)表示预测结果为真,标签为正的样本;FP(false positive)表示预测结果为假,标签为正的样本;FN(false negative)表示预测结果为假,标签为负的样本。
4.1 参数选择实验
为了给EBDCH算法选择合适的a、b、T的值,在本节中,首先设置不同的a、b值,然后进行受试者工作特征(receiver operating characteristic curve,ROC)曲线分析,得到T值,进而得到EBDCH算法的结果。最后,通过比较EBDCH算法在不同的a、b、T值下的结果,选择合适的a、b、T值。
首先设置a=b=0.5,然后进行ROC曲线分析(见图1)。不同曲线下的面积几乎相等,说明EBDCH算法在不同测试案例上分类器性能相似,说明EBDCH算法的泛化性较好。ROC曲线的截断点为youden index=sensitivity+specificity-1取最大值所对应的点。其中,sensitivity=TP/(TP+FN),specificity=TN/(TN+FP),TN(true negative)表示预测结果为真,标签为假的样本。经计算,三个测试案例的ROC曲线截断点分别为0.496、0.503、0.501。取T=0.5,获得了EBDCH算法在测试集上的结果(见表3)。
设置不同的a、b值,重复上述步骤。表4统计了EBDCH算法在不同a、b、T值下的结果。a=b=0.5时的F1-score明显高于a、b、T取其他值时的F1-score,且随着|a-b|的增大,F1-score逐渐降低,因此选取a=b=0.5。
4.2 中文文本相似度评估方法对比实验
为了给EBDCH算法选择合适的文本相似度评估方法,将引言中讨论的5种中文文本相似度评估方法与本文方法进行对比实验。首先,根据是否需要在训练阶段构建模型将这些方法分为两类。一种是需要在训练阶段构建模型的三种深度学习方法,包括MGMSN[13]、BTSN[14]和TDCS[16]。另一种是不需要在训练阶段构建模型的学习方法,包括MAFS[18]、ASS[20]和本文方法。其中,对于深度学习方法,训练集选用中文文本相似度数据集LCQMC[25]。这是因为构建的EB-CH语料库和测试集的规模不足以分出一个中文文本相似度数据集用于深度学习的训练。对比方法的运行环境见表5。
关于上述方法的测试,需要考虑测试数据集和测试结果评估两个方面。测试数据集方面,将表2所示测试集与EB-CH语料库分别视为两个文本集合A和B,对两集合进行笛卡尔积运算,则有A×B={(x,y)|x∈A∧y∈B},得到文本对(x,y)的集合。其中,x为表2所示测试集中的文本,y为EB-CH语料库的文本。由文本对(x,y)的集合构建对比实验的测试集。测试结果评估方面,通过逻辑或运算,将每段文本x与不同文本y的相似度评估逻辑结果融合为每段文本x的情感勒索检测结果。
然后,对上述方法都通过调整参数和去除停用词的方法,使它们适用于本文的情感勒索话语检测任务。最后,对上述方法展开测试,测试结果见图2。
从图2可以看出:
a)本文方法的precision均低于其他方法。相比于其他方法,本文方法在语义方面只考虑表达方式一致性,无须像其他方法那样还得考虑表达内容一致性。这意味着,本文方法把负样本识别为正样本的概率更大,即FP/(TP+FP)的值要高于其他方法。由式(1)可知,precision=TP/(TP+FP)=1-FP/(TP+FP)。当FP/(TP+FP)的值越高,precision的值越低。因此本文方法的precision均低于其他方法。
b)本文方法的recall均高于其他方法。受EB-CH语料库大小限制,测试集中的部分文本只能在EB-CH语料库中找到表达方式相似的文本,而不能找到语义一致的文本。因此,相比于其他方法,本文方法把正样本识别为负样本的概率更小,即FN/(TP+FN)的值要低于其他方法。由式(2)可知,recall=TP/(TP+FN)=1-FN/(TP+FN)。当FN/(TP+FN)的值越低,recall的值越高。因此本文方法的recall均高于其他方法。
c)本文方法的F1-score均高于其他方法。由式(3)可知,F1-score综合考虑了precision和recall。因此在相似度评估方法中,本文方法最适用于EBDCH算法。
4.3 消融实验
为了验证相似度评估方法外的步骤(如特定代词检测、词性组合检测等)和相似度评估方法中的步骤(如停用词去除、最近代词检测等)的有效性,即它们对于EBDCH算法的测试结果均有影响,开展了如下的消融实验。首先,从描述的间接性出发,采用大写字母组成的标签来表示EBDCH算法的消融步骤(见表6)。其次,在上述标签的基础上,用Euclid SymbolXCp表示消融。例如,Euclid SymbolXCpSWR表示消融SWR代表的步骤,即停用词去除。然后,在消融每个步骤后,需要重新进行3.1节的参数选择实验,选择合适的a、b、T值。最后,依次对表6的每个步骤展开消融实验,实验结果如表7所示。
由表7可知,消融表6的任意步骤,都会导致EBDCH算法的F1-score显著降低,验证了上述步骤在EBDCH算法的有效性。
4.4 EBDCH算法的对比实验
为了评估EBDCH算法的性能,本节对六种相关算法进行对比实验,其中包括三种传统机器学习算法:高斯朴素贝叶斯(Gaussian naive Bayes,GNB)[26]、决策树(decision tree,DT)[27]、支持向量机(support vector machine,SVM)[28],三种深度学习算法:Bi-LSTM[15]、用于句子分类的卷积神经网络(convolutional neural network for sentence classification,TextCNN)[29]、BERT[17]。上述六种对比算法均为在训练阶段构建分类器模型的积极学习模型,对训练数据的需求量较大,故对EB-CH语料库进行数据增强。
由引言可知,情感勒索话语与非情感勒索话语之间的区别主要在于语义层面,意味着要尽可能保证数据增强前后的语义一致性,否则情感勒索话语可能在数据增强后转变为非情感勒索话语。于是,本文通过同义词替换结合停用词插入的方式进行数据增强,具体实现方式如下:a)基于LTP平台[23]对文本进行分词;b)基于OpenHowNet知识库[24]以20%的概率进行同义词替换;c)在词序列的任意位置以20%的概率随机插入哈工大停用词表中的停用词。通过数据增强,将EB-CH语料库包含的情感勒索话语数量由1 136增至3 408。
分类器模型的训练数据不仅需要正样本(情感勒索话语),还需要负样本(非情感勒索话语),且正负样本的数量要尽可能接近以保证数据平衡,否则将导致模型在预测阶段偏向于多数类。于是基于情感勒索话语标注规则从M3ED数据集[10]中获取3 408句非情感勒索话语,将正样本和负样本整合为对比算法的训练集。这样形成的训练集的总样本数为6 816,正负样本的比例为1∶1。
对比算法的测试集与EBDCH算法保持一致,即表2所示测试集。对比模型的运行环境采用表5所示的软硬件环境。基于上述数据集条件和模型运行环境展开实验,实验结果如表8所示。
由表8可知:a)EBDCH算法的平均recall、F1-score明显高于对比算法,平均precision仅略低于SVM,说明EBDCH算法的情感勒索话语检测准确性优于对比算法;b)与对比算法相比,EBDCH算法的precision方差取得最优,recall和F1-score的方差取得次优,说明EBDCH算法在面对不同测试案例保持了较高的鲁棒性。综上,在对比实验中,EBDCH算法取得了最优的情感勒索话语检测准确性并保持了较高的鲁棒性。
5 基于EBDCH的情感勒索话语检测原型系统
5.1 系统集成
为了在日常交流场景下自动检测情感勒索话语,提示对话参与者哪些话语包含情感勒索表达,原型系统需要具备采集对话语音、检测对话语音中的情感勒索话语、以及显示检测结果三方面功能。围绕系统的功能需求,本节搭建了硬件平台,并设计了系统的工作流程。
图3为原型系统的硬件平台,其中,全向麦克风的拾音半径为5 m,用于采集用户对话语音。Intel NUC的型号是NUC6i7KYK,内置Ubuntu 20.04操作系统,用于处理采集到的语音数据并进行情感勒索话语检测。触摸屏用于原型系统的开启和关闭,以及显示情感勒索话语检测结果。
图4为原型系统的工作流程,详细步骤见算法4。其中,语音记录模块对应于步骤c)中子步骤(a)~(c),语音转文本模块对应于步骤c)中子步骤(d),情感勒索文本检测模块对应于步骤c)中子步骤(e)。在后续的系统测试中,通过设置算法4的参数,可实现对整个系统参数的设置。
算法4 情感勒索话语检测原型系统的工作步骤
输入:用户实时输入的语音Su;将实时语音存储为录音文件的周期Tr;录音文件切分的静默时长阈值Ts。
输出:情感勒索文本集合Ceb。
a)初始化:录音文件集合Fu=,包含完整发言的录音文件集合Fc=,从录音文件转换的文本文件集合Ft=,情感勒索文本集合Ceb=。
b)开始录音并计时。
c)时间每过去Tr:
(a)将实时语音Su存储为录音文件fu,并添加到集合Fu。
(b)按照时间顺序,将集合Fu中的所有录音文件拼接成一个录音文件ftotal。
(c)检测录音文件ftotal的静默时间区间,如果检测到时间长度大于Ts的静默时间区间:在区间中点将文件fu切分为两个文件;把前一个文件添加到集合Fc,把后一个文件添加到集合Fu;然后跳转步骤(b) 。
否则,把文件ftotal添加到集合Fu。
(d)对于集合Fc里的每个文件fc,基于科大讯飞平台将录音文件fc转换为文本文件ft;把文件ft添加到集合Ft;删除录音文件fc。
(e)对于集合Ft里的每个文件ft,基于EBDCH算法在文本文件ft里检测情感勒索文本;将检测到的情感勒索文本添加到集合Ceb;删除文本文件ft。
d)结束录音和计时。
e)输出Ceb。
为了提高算法处理效率以实现更快地输出结果,在步骤c)中,每间隔Tr时长进行对话情感勒索话语检测,即边录音边检测。其中,子步骤(c)的静默时间区间检测是通过检测录音文件ftotal每一时刻的声音强度确定的。若声音强度低于30 dB,则被视为静默时刻。连续的静默时刻组成静默时间区间。如果静默时间区间的长度大于静默时长阈值Ts,则认为发言结束,切分出的录音文件包含了完整的发言。
5.2 系统性能测试
在日常交流中,不同人的发言存在语义连贯性差异,前后逻辑不通的表达将影响到发言的可理解性。除此之外,不同个体之间存在发音清晰程度的差异,这将影响到语音识别的准确性。为了考察原型系统对于发言语义连贯性和发音清晰程度的鲁棒性,从第1章构建的测试集中随机选取50句正样本和150句负样本作为系统的测试样本,并设计了以下三种测试方案。方案1:连续朗读话语;方案2:每段话语朗读结束后,停顿超过Ts,再朗读下一段话语;方案3:连续播放话语对应的电视剧原声。
其中,方案1与2的区别在于发言语义连贯性。前者将语义不连贯的话语混合在一起,后者通过刻意停顿使得每段发言的语意连贯。方案1与3的区别在于发音清晰程度,孰高孰低OM8wwlzE+KK++MqM7yVX+CSzpFdoIMrEhLNkum818I0=将通过以下方法比较。用deviation=Ndw/Nw表示由语音转换的话语文本与原始话语文本之间的差异,其中,Ndw是转换文本与原始文本中不同词语的数量,Nw为原始文本中词语的数量。测试过程中,计算每句测试样本的deviation,得到两方案的deviation分布直方图,然后比较两方案的deviation分布判断哪个方案的发音清晰程度高。
结合科大讯飞平台对输入语音文件的要求,将系统参数设置如下。采用单声道采样,采样率设为16 kHz。将实时语音存储为录音文件的周期Tr设为30 s,录音文件切分的静默时长阈值Ts设为3 s。录音文件的格式为.wav,文本文件的格式为.txt。
采用三种测试方案对选取的测试样本进行测试,方案1和3的deviation分布直方图见图5,三种测试方案的测试结果统计见表9。
由图5可知,与方案1相比,方案3有更多话语文本的deviation处在数值较小的区间([0,0.1),[0.1,0.2)),表明方案3语音转文本的误差更小,即方案3的发音清晰程度更高。
由表9可知:
a)系统的平均precision和recall分别为55.70%和87.24%。由式(1)可知, precision=TP/(TP+FP)=1-FP/(TP+FP),因此系统把标注的非情感勒索话语检测为情感勒索话语(犯错误1)的概率较高,即FP/(TP+FP)的值较高。但在所有检测出的情感勒索话语(TP+FP)中,标注的非情感勒索话语(FP)占比为44.30%,数量少于标注的情感勒索话语(TP),说明系统将犯错误1的概率控制在一定范围内。由式(2)可知,recall=TP/(TP+FN)=1-FN/(TP+FN),因此系统把标注的情感勒索话语检测为非情感勒索话语(犯错误2)的概率较低,即FN/(TP+FN)的值较低。比较两种错误可知,犯错误1会呈现部分错误检测结果,犯错误2会导致部分情感勒索话语无法被发现。在日常交流中,非情感勒索话语的数量远多于情感勒索话语的数量。这意味着犯错误2会导致包含少量情感勒索话语的交流难以被发现,而犯错误1只会在检测出包含情感勒索话语的交流同时呈现出一些非情感勒索话语。相比之下,犯错误2的严重程度远高于犯错误1。就本文目的(检测日常交流场景下的情感勒索话语进而改善交流效果)而言,犯错误2的概率应尽可能小,犯错误1的概率只要控制在一定范围内即可。原型系统性能符合这一要求,说明原型系统具有良好的情感勒索话语检测性能。
b)方案2的测试结果在三个评价指标上高于方案1,表明发言连贯性会影响到情感勒索话语检测性能,且两者呈现正相关趋势。方案3的测试结果在三个评价指标上高于方案1,表明发音清晰程度会影响情感勒索话语检测性能,且两者呈现正相关趋势。但纵观每个评价指标下的测试结果,可以发现不同测试方案的测试结果与平均结果相差均低于5%,说明原型系统对于发言语义连贯性和发音清晰程度具有良好的鲁棒性。
综上,原型系统具有良好的鲁棒性和情感勒索话语检测性能。
6 结束语
为了检测日常交流场景下的情感勒索话语进而改善交流效果,本文构建了情感勒索话语数据集,提出了基于中文文本相似度评估的情感勒索话语检测算法EBDCH,并基于该算法集成了情感勒索话语检测原型系统。在构建的数据集上实验, EBDCH获得的平均recall与F1-score优于所比较的算法,系统在不同的测试条件下表现出良好的鲁棒性和检测性能。鉴于算法和系统的precision较低,而数据集对性能有较大影响。因此,下一步工作重点是提升数据集的数据规模和数据多样性,在此基础上进行算法和系统的改进。
参考文献:
[1]Forward S, Frazier D. Emotional blackmail[M]. New York: Bantam, 1997.
[2]Lo Weiyuan, Lin Yukai, Lin Chunyu, et al. Invisible erosion of human capital: the impact of emotional blackmail and emotional intelligence on nurses’job satisfaction and turnover intention[J]. Beha-vioral Sciences, 2023,13(1): article ID 37.
[3]Rooney L, John M, Morison L. Communication strategies used by women to influence male partners to seek professional help for mental health problems: a qualitative study[J]. Clinical Psychologist, 2020,24(1): 55-63.
[4]Al-Kreimeen R A, Alghafary N A, Samawi F S. The association of emotional blackmail and adjustment to college life among warned female students at Al-Balqa university students[J]. Health Psycho-logy Research, 2022,10(3): 34109.
[5]陈琦. 规训、惩戒与救赎: PUA情感传播中的“斯德哥尔摩效应”[J]. 现代传播: 中国传媒大学学报, 2020, 42(9): 52-59. (Chen Qi. Discipline, punishment and redemption: “Stockholm effect” in PUA emotional communication[J]. Modern Communication: Journal of Communication University of China, 2020, 42(9): 52-59.)
[6]李垒昂, 马鸿超, 周清雷. 基于迁移学习的讽刺检测[J]. 计算机应用研究, 2021, 38(12): 3646-3650. (Li Lei’ang, Ma Hongchao, Zhou Qinglei. Sarcasm detection based on transfer lear-ning[J]. Application Research of Computers, 2021, 38(12): 3646-3650.)
[7]顾艳, 夏鸿斌, 刘渊. 一种文本幽默对比的Siamese双向GRU注意力模型[J]. 计算机应用研究, 2021, 38(4): 1017-1021. (Gu Yan, Xia Hongbin, Liu Yuan. Siamese bidirectional GRU attention model for humor text comparison[J]. Application Research of Computers, 2021, 38(4): 1017-1021.)
[8]Wu Yu, Wu Wei, Xing Chen, et al. Sequential matching network: a new architecture for multi-turn response selection in retrieval-based chatbots[C]//Proc of the 55th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2017: 496-505.
[9]Zhang Zhuosheng, Li Jiangtong, Zhu Pengfei, et al. Modeling multi-turn conversation with deep utterance aggregation[C]//Proc of the 27th International Conference on Computational Linguistics. New York: ACM Press, 2018: 3740-3752.
[10]Zhao Jinming, Zhang Tenggan, Hu Jingwen, et al. M3ED: multi-modal multi-scene multi-label emotional dialogue database[C]//Proc of the 60th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2022: 5699-5710.
[11]Chen Yirong, Fan Weiquan, Xing Xiaofen, et al. CPED: a large-scale Chinese personalized and emotional dialogue dataset for conversational AI[EB/OL]. (2022-05-29). https://arxiv.org/abs/2205.14727.
[12]Wu Langtao, Lin Jiarui, Leng Shuo, et al. Rule-based information extraction for mechanical-electrical-plumbing-specific semantic Web[J]. Automation in Construction, 2022,135(1): article ID 104108.
[13]Wang Xin, Yang Huimin. MGMSN: multi-granularity matching mo-del based on Siamese neural network[J]. Frontiers in Bioenginee-ring and Biotechnology, 2022, 10(1): article ID 839586.
[14]Luo Jigen, Xiong Wangping, Du Jianqiang, et al. Traditional Chinese medicine text similarity calculation model based on the bidirectional temporal Siamese network[J]. Evidence-based Complementary and Alternative Medicine, 2021, 2021: article ID 2337924.
[15]Schuster M, Paliwal K K. Bidirectional recurrent neural networks[J]. IEEE Trans on Signal Processing, 1997, 45(11): 2673-2681.
[16]Li Boyang, Xu Weisheng, Xu Zhiyu, et al. A two-domain coordinated sentence similarity scheme for question-answering robots regarding unpredictable outliers and non-orthogonal categories[J]. Applied Intelligence, 2021, 51(12): 8928-8944.
[17]Devlin J, Chang M, Lee K, et al. BERT: pre-training of deep bidirectional Transformers for language understanding[C]//Proc of the 21st Conference of the North American Chapter of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2019: 4171-4186.
[18]袁绍正, 周艳平. 基于句子的多属性融合相似度计算方法[J]. 计算机系统应用, 2022, 31(4): 303-308. (Yuan Shaozheng, Zhou Yanping. Multi-attribute fusion similarity calculation method based on sentence[J]. Computer Systems & Applications, 2022, 31(4): 303-308.)
[19]刘万里, 刘卫锋, 常娟. AHP中互反判断矩阵的区间权重确定方法[J]. 统计与决策, 2021, 37(6): 33-37. (Liu Wanli, Liu Weifeng, Chang Juan. An interval weight determination method for reciprocal judgment matrices in AHP[J]. Statistics & Decision, 2021, 37(6): 33-37.)
[20]Sun Ran, Li Xiaohong, Shen Jiacheng, et al. An effective hybrid automated Chinese scoring system for medical education[J]. Expert Systems with Applications, 2023, 234: article ID 121114.
[21]王金水, 郭伟文, 陈俊岩, 等. 多特征融合的电气领域主观题自动评分方法[J]. 贵州大学学报: 自然科学版, 2022, 39(2): 77-82. (Wang Jinshui, Guo Weiwen, Chen Junyan, et al. Automatic scoring method of subjective questions in electrical field based on multi-feature fusion[J]. Journal of Guizhou University: Natural Sciences, 2022, 39(2): 77-82.)
[22]Blau P M. Social exchange[J]. International Encyclopedia of the Social Sciences, 1968, 7(4): 452-457.
[23]Che Wanxiang, Feng Yunlong, Qin Libo, et al. N-LTP: an open-source neural language technology platform for Chinese[C]//Proc of the 26th Conference on Empirical Methods in Natural Language Processing: System Demonstrations. Stroudsburg, PA: Association for Computational Linguistics, 2021: 42-49.
[24]Qi Fanchao, Yang Chenghao, Liu Zhiyuan, et al. OpenHowNet: an open sememe-based lexical knowledge base[EB/OL]. (2019-01-28). http://arxiv.org/pdf/1901.09957.
[25]Liu Xin, Chen Qingcai, Deng Chong, et al. LCQMC: a large-scale Chinese question matching corpus[C]//Proc of the 27th International Conference on Computational Linguistics. New York: ACM Press, 2018: 1952-1962.
[26]Mccallum A, Nigam K. A comparison of event models for naive Bayes text classification[C]//Proc of ICML Workshop on Learning for Text Categorization. New York: ACM Press, 1998: 41-48.
[27]Quinlan J R. Induction of decision trees[J]. Machine Learning, 1986(1): 81-106.
[28]Corte C, Vapnik V. Support-vector networks[J]. Machine Lear-ning, 1995(20): 273-297.
[29]Yoon K. Convolutional neural networks for sentence classification[C]//Proc of the 19th Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computatio-nal Linguistics, 2014: 1746-1751.