APP下载

基于深度学习技术的校园群体事件预警研究

2021-09-22王艺臻王馨

电子技术与软件工程 2021年13期
关键词:远场语音向量

王艺臻 王馨

(1.沈阳师范大学软件学院 辽宁省沈阳市 110034 2.沈阳师范大学计算机与数学基础教学部 辽宁省沈阳市 110034)

1 引言

近年来,校园中发生的群体性新闻事件层出不穷,逐渐引起了媒体及全社会的关注[1]。尤其是校园欺凌等类似事件严重影响了青少年的身心健康,对社会发展也带来了一定的负面影响,日益地成为全社会普遍关注的话题和焦点。在目前中国,根据浙江大学《青少年攻击性行为社会心理学研究》的一项调查结果表明,49%的青少年学生承认对其他学生进行了暴力行为,87%的青少年学生在各种方式上也遭受了其他学生的攻击性暴力。正是基于这一现状,很多针对主动检测校园群体事件的研究应运而生。

目前现有研究所采用的方法大多数是基于视频监控,通过动作识别技术实现校园暴力的检测[2]。但是由于学生分散,而且部分关键位置无法使用视频监控(比如卫生间,浴室等),现有的检测技术受到较大限制。因此,为解决视频监控不变的问题,本项目提出一种结合远场语音通信技术、自然语言处理和情感分类的方式实现语音监控。远场语音通信技术可以有效消除噪音,同时对目标说话人声音进行增强。同时随着现代深度机器学习和计算机技术的进步而飞速发展,全世界出现了越来越多的深度学习框架,其中百度研发的PaddlePaddle是众多流行的深度学习框架之一,本项目利用基于Paddle框架开发的PaddleNLP库完成数据处理和构建LSTM网络,由此对语音识别得到的文本进行情感分类,从而实现语音预警。

2 相关工作

2.1 远场语音系统

本文应用场景声音环境复杂,噪声干扰较强,需要有效识别并增强说话人的语音,从而实现正确的识别。百度语音为开发者提供行业内高质量的远场语音识别服务。可以通过麦克风阵列前端处理算法,有效消除噪声、混响等无效声音的干扰,同时对目标语音进行增强,其适用于智能家居、智能硬件、机器人语音交互等场景中,可以准确实现远场语音的识别。

2.2 PaddleNLP

PaddlePaddle是一个简单而易于实现和使用、高效、灵活、具有可拓展性的深度学习框架。Paddle框架是基础,为深度学习任务的全过程提供API。PaddleNLP是基于Paddle框架开发的,适用于NLP任务。PaddleNLP覆盖了多种场景的模型库,涵盖了知识关联、情感分析、文本分类、词法分析、信息抽取、语义匹配、问答系统、对话系统等应用场景,集成了RNN、Transformer等多种主流模型结构,为文本分类提供了ERNIE、BERT等预训练模型。PaddleNLP与飞桨 2.0的高层API系统深度兼容,内置可复用的文本建模模块(Embedding、CRF、Seq2Vec、Transformer),从而很大程度上减少数据处理、模型组网、训练评估、推理部署等方面的开发量,提高建模效率,简单易用。

2.3 情感分析和LSTM

Geoあrey Hinton 和其学生于2006年在《Science》发表的论文中正式提出了深度学习的概念,又因为硬件设备的大幅度提升,由此再次引发了学术界和工业界关于深度学习领域研究的高度关注。近年来,全球在深度学习技术的相关应用领域迅猛地进步发展着,在语音识别领域和图像处理领域等多个领域已经取得了不少优秀的成果。目前在自然语言处理领域中情感分析极为热门:Wiebe和Bruce根据词性对词语分类,并且将分类后的词、句子前后位置和标点共同作为特征值,针对句子设计了分类器[3];Yu等人利用三种统计方法进行主客观句的识别研究,包括相似性方法、NB分类和多重NB分类[4];Li等人基于RNN解决了评价类句子中的如何判别情感极性的问题[5];本文涉及到的 LSTM 网络是目前应用最为广泛的深度学习结构之一,是一种经过变化后的RNN。在自然语言处理领域,合理处理上下文关系极其重要,而RNN虽然适用于将前一时刻的信息连接到当前的时刻,但只适用于短期记忆处理无法处理长距离依赖,而LSTM很好得弥补了RNN 对于长期依赖的不足,LSTM适用于较长距离的依赖关系的捕捉。

LSTM的主要特点在于[7]:由三个特殊的门,即控制丢弃信息的遗忘门、控制新增信息的输入门和负责输出的输出门, LSTM三个门会更新记忆单元并会控制细胞的状态。在某一时刻t,单个LSTM记忆单元的计算过程为:

遗忘门可以通过一个遗忘门层丢弃无用信息,其函数为:

输入门从当前输入中添加一个新的记忆,其函数为:

输出门由前一时刻的输入单元和当前输入向量一同决定,其函数为:

上式中,Ct是前一时刻的细胞状态;ft是遗忘门,用来决定从LSTM记忆单元中丢弃哪些无用信息;it是输入门,用于决定哪些信息应该加入;ot是输出门,用于决定从LSTM的记忆单元输出哪些信息;ht-1和xt分别表示前一时刻的输入单元和当前时刻的输入向量。

3 研究方法

3.1 数据处理

图1:BiLSTM编码“今天天气好”

由于远场语音识别得到的初始数据类型为对话文本,因此该文本的单句通常较短,一般不超过100个字,包括标点符号、具体时间地点、姓名、俗谚、代号等,这对情感分析和分类会带来很大的噪声和干扰。为了有效地去除不必要的噪声干扰,本文采用下述方法对文本进行集中预处理:首先基于 jieba 分词工具对每一个对话文本进行分词;然后基于中国记协提供的网络禁用词清单对禁用词进行标注,继而进行去除噪声处理。在设计和去除噪声时,本文主要是针对其中所有涉及的标点符号、具体的时间位置地点、姓名、俗谚、代号等字符串进行了重点处理。最后将jieba切完后的单词映射词表中单词id。

3.2 双向长短期记忆网络

对话文本往往不能只是递推式得由前往后理解语义,为更好地实现预警,我们期望可以实现更细粒度的负面情感分类,如将贬义重新划分为轻度贬义、中度贬义和重度贬义,这就需要注意前后副词与形容词的联系,举个例子“小明这次的考试成绩差得离谱”,后面的“离谱”就是用于修饰前面“差”的程度。而双向长短期记忆网络(BiLSTM)由前向的LSTM和后向的LSTM共同作用结合而成,可以补充实现LSTM无法从后向前理解语义。

以对“今天天气好”这句话进行编码为例解释BiLSTM模型的原理。前向的LSTM_l依次输入“今天”,“天气”,“好”得到三个向量hl0,hl1,hl2。后向的LSTM_r依次输入“好”,“天气”,“今天”得到三个向量hr0,hr1,hr2。将同一句子的正反顺序看作两个句子,则hl2代表正序语义,hr2代表反序语义,将hl2和hr2拼接成向量[hl2, hr2],从而得到向量h。如图1所示。

4 实验分析

由于本文所提及的预警系统尚在研究实验阶段无法大规模采集数据,本文的数据集主要来自与校园群体事件相关电影的对白,少部分来自于现场录音,共收集6000条对白。其中有3000条训练数据和3000条测试数据。

BiLSTM模型准确率为82.8%,negative精确率为75.0%,positive精确率为86.9%,后通过预测随机测试集得出结果如表1所示。

表1:评估样本具体数据情况

本文通过BiLSTM模型对发生在校园中的对话文本实行情感分析,通过实验结果我们发现,BiLSTM 模型在对用于校园群体事件预警的情感分析中的可行性以及有效性,希望以后可以进一步研究如何改进BiLSTM使之提高准确率和精确率,以及实现更细粒度的情感分类。

猜你喜欢

远场语音向量
向量的分解
聚焦“向量与三角”创新题
魔力语音
基于MATLAB的语音信号处理
基于MQ3与MP3的价廉物美的酒驾语音提醒器
对方正在输入……
基于仿真与实测的列车远场气动噪声分析
向量垂直在解析几何中的应用
某种阵列雷达发射通道远场校准简易方法
向量五种“变身” 玩转圆锥曲线