APP下载

中文歌词文本的情感分类综述

2021-03-15杨帆余华平

电脑知识与技术 2021年3期
关键词:深度学习

杨帆 余华平

摘要:随着生活条件的普遍提高,人们从物质文化需求转为更高的精神追求,音乐因为蕴含着丰富的情感,自然就成人们发泄、享受生活必不可少的一部分。音乐是情感表达的一种重要形式,也就是说情感是音乐语义信息中最重要的成分之一,歌词的情感分类在音乐的检索和推荐等方面应用广泛,情感分类算法的优劣决定了用户能找到适合的音乐,音乐厂商能留住更多的用户。

关键词:情感分类;分类算法;深度学习

中图分类号:TP391      文献标识码:A

文章编号:1009-3044(2021)03-0207-02

Abstract: With the general improvement of living conditions, people have changed from material and cultural needs to higher spiritual pursuits. Music, because it contains rich emotions, naturally becomes an indispensable part for people to vent and enjoy life. Music is an important form of emotion expression, that is to say, emotion is one of the most important components in music semantic information. Emotion classification of lyrics is widely used in music retrieval and recommendation, etc. The quality of emotion classification algorithm determines that users can find suitable music and music manufacturers can retain more users.

Key words: Classification of emotions; Classification algorithm; deep learning

1 引言

人们对音乐服务得到要求要来越高,音乐软件公司能否快速且准确为用户提供合适的音乐,决定了其能否在市场上有一席之地,而歌词文本情感分类在软件生产商面对用户的音乐推荐和检索上有着重要作用。论文将从开始基于词典的分类方法,到后来使用机器学习出来这类二分类问题,最后深度学习的崛起应用于情感分类这一过程逐一介绍。

2 分类类型

中文歌词情感分类基于分类模型可以分为三种类型,第一个是基于情感词典和样本数据的句法结构、第二个是根据机器学习来做的,例如Bayes、SVM等、第三个是深度学习的方法,例如LSTM+CNN、BERT+CNN等。当然还有考虑混合的,像是词典与机器学习混合的方法和随意性较大的弱标注信息的情感分类,目前的基于词典的算法基本上都混合了机器学习,而弱标注是利用比如评论中表情包、emoji表情作为样本信息,所以相对一般的分类算法随意性更大。

2.1基于词典的情感分类方法

基于词典的文本情感分类流程包括样本数据预处理、分词(结巴分词等)、训练词典、词典判断。

词典方法的核心是词典和规则,首先是词典的创建,词典包括情感词典(积极词汇和消极词汇)、程度词典、否定词典和连词词典。词典中最重要的就是情感词典,情感词典的词汇越准确丰富,在分类标注歌词的极性(积极、消极、中性)和强度(情感表达的强度)时效果就越好。但一般情感词典中词汇量有限,需要通过同义词来扩充情感词典,将情感词汇放到同义词林中得到对应的同义词近义词,在用例如Word2Vec算法计算相似度,筛选相似度足够的汇总成新的情感词典。

词典创建之外就是“规则”,规则是需要人工根据句子结构设计的,比如现在有句子:

“虽然这件衣服样式好看,但是质量确实不行”

句子中有连词“虽然…但是…”,情感词“好看”“不行”。赋值权重可以设定前后占比2:8,所以这句话的情感P=虽然(0.2)*好看(1)+但是(0.8)*不行(-1)=-0.6,所以这句子是消极情绪的。同时情感词之间的强度也不是全一致的,像“痛苦”和“沉默”他们的消极程度是不一样,还有程度副词带来的影响,像是“难过”和“十分难过”,“伤心”和“伤心欲绝”这些信息应该都要考虑在句子评分中。基于词典的分类实现流程如下

(1) 将中文歌词文本进行分句,接下来以分句为单位进行处理;

(2) 从分句中逐词查找到连词和否定词,并标记他们的位置;

(3) 再从分句逐词找到情感词,从词典中得到该情感词极性及其强度;

(4) 这里判断(是否有连词),通过连词位置,确定前句与后句权重占比,再次判断(是否有否定词),根据否定词位置判断是否需要双重否定;若不包含连词、否定词,则略过该步骤;

(5) 累加本句情感计算评分;

(6) 重复上述步骤计算歌词文本的评分,若为正,则为积极,若为负,则为消极。

基于词典的情感分类方法本质上依赖于词典的创建和规则的设计,但是过程人才是唯一的判断标准,在歌词外還可能需要考虑歌手所在地的文化等先验知识。同时一个句子里相同词语的不同组合,不同语气都会带来不同情感。

2.2基于机器学习的情感分类方法

支持向量机SVM和贝叶斯算法都是机器学习中常用的文本分析算法,样本处理,分词,去停用词,将歌词样本分为了积极和消极两大类,标为0和1。与处理完成后使用TFIDF权值计算,结果给SVM和朴素贝叶斯等分类算法。

1)TFIDF

TF即词频,是文本统计信息之一,简单来说就是单词在文本中的出现频率。IDF即逆向文档频率,词的普遍重要性信息,简单来说就是文档总数/包含该词汇的文档数,再取对数得到的值。TFIDF即TF*IDF所得到的值,可以衡量某个词在所有文档中的重要程度。假设一个文档A词数为n,有一词汇的出现次数为t,且在x份文件中出现在w文档里。

2)SVM

SVM支持向量机本质是一个二分类模型,当样本线性可分时,有无数条将样本分开线,通过硬间隔最大化,生成一个线性可分支持向量机。当样本线性不可分时,就非线性转换,软间隔最大化,生成非线性支持向量机。

3)NB

NB朴素贝叶斯,假定一个特征影响区别于其他特征,对于歌词情感分类,就是假定他的特征词之间相互独立。NB还是利用了概率统计进行学习分类,预测当前歌词文本属于各个类别的可能性,并归为可能性最大的一类。

2.3基于深度學习的情感分类方法

上面的分类方法有的已经达到了80%以上的正确率,达到了某些行业的生产环境,但是还是有不小的提升空间,另外一方面,传统的分类方法需要有专业人员的人工设计和先验知识,开发成本上有相当的限制。

基于深度学习下的情感分类方法不需要有语言专家和数据挖掘专家特意设计,首先歌词的中文文本语义丰富,我们要将歌词文本用一种计算机能懂的方式写出来,就是把句子中的词编号,语义相近联想在一起的编号就相近,这样在识别学习过程中就能够提高模型的准确率。但是就像歌词中有“士兵”可能联想到士兵-战争-死亡-消极情绪,也有可能是士兵-英雄-胜利-积极情绪,所以中文的语义是多维的,句子就是词的集合,每个词都是高维向量(词向量),那么句子就是一个包含多个高维向量的矩阵。模型不能直接处理这个高维的矩阵,我们需要首先把矩阵给铺开抹平,直接将所有向量拼接成一个特别长向量是不合理,所以需要像卷积神经网络CNN等方法保留大多数有用信息编码成一维向量,CNN就像处理图像识别一样通过卷积池化将矩阵降维。除此之外还有RNN和LSTM之类的,他们考虑到文本中词语的先后顺序对语义的表达影响。一个使用LSTM的分类算法如下:

3 总结

文本的情感分类已经有多年的发展,而中文歌词文本的情感分类也因为深度学习的广泛流行和不俗效果在近年有了长足的发展。但是还是有许多能改进的地方,像是因为歌词要考虑与旋律的配合可能使用日常不常用的词汇,或是对常用词汇的缩写和颠倒,而且音乐作为一种流行文化很容易接收一些网络新词热词,可以通过对分类后积极样本和消极样本的词频统计和筛选,提取并放入情感词典,比如有一个网络热词“蓝瘦香菇”出现在多个消极样本中,而积极样本没有,可将它放到消极词典中。还有语气再对情绪表达中也有着关键的作用,同样一句“你是真的开心啊”他的感叹句,反问句,陈述句包含的情绪都不一致,所以歌词的文本的情感分类还需要进一步的发展。

参考文献:

[1] 王洁,朱贝贝.面向中文歌词的音乐情感分类方法[J].计算机系统应用,2019,28(8):24-29.

[2] 张成博.基于FV-SA-SVM的电影评论情感分析[D].上海:上海师范大学,2020.

[3] 丁森华,邵佳慧,李春艳,等.文本情感分析方法对比研究[J].广播电视信息,2020(4):92-96.

[4] 曾奇.面向微博的短文本分类算法研究[D].成都:电子科技大学,2019.

【通联编辑:梁书】

猜你喜欢

深度学习
从合坐走向合学:浅议新学习模式的构建
搭建深度学习的三级阶梯
有体验的学习才是有意义的学习
利用网络技术促进学生深度学习的几大策略
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
构建“单元整合、主题牵引”诗歌鉴赏“深度学习”课堂的策略