APP下载

基于信息熵的文本语句整体褒贬倾向的识别方法

2021-12-09张冠东杨琛詹晓琳方红王继芬

微型电脑应用 2021年11期
关键词:检测值信息熵语句

张冠东, 杨琛, 詹晓琳, 方红, 王继芬

(1. 上海第二工业大学 文理学部, 上海 201209; 2. 武汉大学 经济与管理学院, 湖北 武汉 430072)

0 引言

在大数据时代,人们依靠大量的数据来发现事物的规律和本质。随着科技的发展,数据分析已经越来越离不开计算机的支持。在所有现有的数据类型中,文本数据是最普遍存在也是最容易获得的数据。因此,文本数据分析已经逐渐成为数据分析领域一个重要的研究方向。在中文的文本分析领域中,研究方向有很多,包括文本分类、文本排序、情感识别等。在这些研究方向上,文本的情感识别是一个比较热门的研究方向,因为它能够迅速识别所研究的目标文本,为后续的深入分析打下基础。这是因为目前微信、微博和各种社交媒体已经成为公众关注社会状况的一种重要途径。在这些社交媒体中,文字或者文本表述是它们主要的表现形式。由于中文词汇丰富,由中文所组成的文本语句能够用于表达作者的情感、观点等信息,因此这些文字信息能够让读者了解作者的意图和想法。因此我们可以通过对文字所包含的褒贬信息进行判断,推测出作者的意图从而了解作者的喜好。

先前的文本语句褒贬研究是依托于词汇的褒贬进行的,这种研究适用于词汇的褒贬意义,但是对于文本整体而言,无法根据褒义或者贬义词汇的多少来判断该文本是褒义还是贬义的意思。此外,如果仅仅是计算褒贬词汇之间的比例,也会因为忽略文本整体的信息量而使得研究结果缺乏一定的价值。由于信息熵(Information Entropy)具有检验整体信息量的功能,因此我们可以利用其对整体信息质量进行检测的方法来检验。

1 现状描述

情感分析也被称为具有感情色彩的倾向性数据挖掘,它是对用户所发表的言论、评价、观点等一系列文字内容进行识别,找出用户的观点倾向。文本的情感分析可以从词语、句子和段落方面来研究。然而,词语的情感分析则太微小,因为毕竟词汇的情感因素无法反映出整体语句的情感倾向;段落的情感分析则太宽,因为有些段落文字太多太长,所以我们只能从一大段语句中粗略看出情感的整体倾向。由此,语句的情感分析能帮助我们了解一个句子的情感倾向,从而看出作者的情感变化状况。由于文本的情感分析也是属于文本分析的范畴,所以我们采用文本分析的研究方法来做文本的情感分析。目前,有很多研究方法被用于对文本做系统性的分析,例如LDA、Topic Modeling、Information Entropy等。在这些方法中,信息熵是一种高效且先进的分析方法,它结合了概率的理念从整体的角度来检测所包含的某些信息的质量。对于文本分析而言,当某一类特定的文本信息越多,那么说明这种文本所代表的意义被传播得越广泛,表达得越丰富。

在国内,李圣文等[1]采用熵的方法来检测文本之间的相似程度,他们通过对公共字符串相似性的研究使得文本的相似度统计的精确度比传统的分析方法更好。齐园和王琴[2]采用熵权TOPSIS法对获取的国家和地方装配式建筑配套政策的文本数据进行了分析研究,并以此对我国的相关政策和发展提出了相应的建议。李辉等[3]则针对网页中缺失的评价信息对网页内容推荐结果的影响做了分析研究,他们的研究通过利用特征词及其相关权重计算出文本信息熵和最邻近熵差得出推荐值进行文本推荐,从而提高了推荐算法的准确性。黄文明和孙艳秋[4]利用最大熵的理念对社交媒体的评论文本进行情感分析,该研究利用有限拟牛顿平滑算法对情感分析的模型加以优化,通过以关键字为划分的评论数据集上的对比试验验证了模型的有效性。陈科文等[5]使用文本特征的词的权重提出了一种基于支持向量机(Support Vector Machine,SVM)的 LTF-ECDP(Logarithmic Term Frequency & Entropy-based Class Distinguishing Power)方法,该方法不但使得文本分类更加准确而且不会因为数据集的变化而性能不稳定。

除了国内的文本研究以外,国外的科研工作者也热衷于文本信息的分析和研究。Maryam和Ali[6]提出了用Tsallis信息熵来对文本按照某种主题进行排序,他们通过应用统计理论和概念设计出一种词排序矩阵从文档中来抽取关键词,其实验结果表明Tsallis熵优于其他一些文本排序方法。Olga等[7]对阿拉伯新闻报纸中语言意思的变化做了研究,他们的研究在基于词嵌入和词统计过程的基础上对出版的传统媒体提出了一种动态的模式判断方法,其实验表明该方法能够抓住文本语言信息中的显著变化。Vashishtha和Seba[8]将模糊熵(Fuzzy Entropy)和K均值聚类算法(K-means)相结合对文本语句中的情感元素进行分析,该方法以电影评论为数据资料,通过检验发现,该方法具有较高的准确率。

在本研究中,我们将基于信息熵的理念,提出一种新颖的情感倾向分析模型——比例信息熵模型,该模型将褒贬意词汇的比例和信息熵相结合来分析文本语句的整体情感倾向。首先,计算出词汇的褒贬意倾向;然后,通过比例信息熵得出文本语句的褒贬倾向;最后,用公共文本数据库来验证模型的效果。

2 模型设计

熵是由Shannon[9]所提出的,最初起源于热力学,它是一个用于描述分子状态混乱程度的热力学物理量。Shannon指的熵主要是用于描述各种信息的不确定程度。因此,熵可用来检测信息包含量或者是信息质量的优劣程度。根据Shannon所介绍的,其计算式可以表达为式(1)。

(1)

其中,Pi为某信息在整个文本中所占的比重(0

(2)

3 数据来源

本研究的研究对象是中文语句,所使用的中文数据集名为Chinese conversation sentiment master(该数据发布于https://github.com/z17176/Chinese_conversation_sentiment)。该数据集作为公共中文数据已经被用于情感分析[10]。在该数据集中,中文语句的词汇已经做了分割,并且已经预设了语句的褒贬含义。

4 检验标准

在模型的比较过程中,一般需要采用较为公认的检验标准来检测模型运行效果的优劣。在文本研究过程中,一般采用褒贬精准率、查全率、查准率和F检测值来评价文本模型的准确程度,因为这些检测指标能够有效评估分类的效果和结果的精确程度,但是由于查准率在一般情况下是随着查全率的降低而增加的[11]。因此,为了能提高对实验结果的评估效果,本研究采用褒贬精准率和F值来评价模型的表现。

4.1 褒贬精准率

褒贬精准率(Commendatory and Derogatory Accuracy,CDAcc)描述的是由模型得出的褒贬语句和真实褒贬语句所匹配的数量与总的语句数量之间的比例,其检验式如式(3)。

(3)

其中,n表示由模型得出的褒贬语句和真实褒贬语句所匹配的数量;N表示总的语句数量。

4.2 F检测值

F检测值也是由实验结果和原始数据的比较所构成的,在计算该指标之前,根据曾凡锋等[11]所述,需要预先定义褒贬判断模式,如表1所示。

表1 褒贬模式定义

根据表1,F-Score的检验式如式(4)。

(4)

5 实例分析

由于SnowNLP库已经被前期的研究者所使用来分析词汇的情感含义[12],该库能够区分词汇含义的积极或消极观点。因此在本研究中,我们先使用SnowNLP库来判断中文词汇的褒贬,再使用比例信息熵来验证整个语句的褒贬,同时我们选择目前流行的熵:香农熵(Shannon Entropy,SE);模糊熵(Fuzzy Entropy,FE);Tsallis熵(Tsallis Entropy,TE))来做对比,其流程示意图如图1所示。

图1 语句褒贬流程图

对于同一批中文文本数据而言,不同的熵会计算出不同的褒贬结果,从而做出不同的判断。由于本研究所采用的公共数据集中已经对每个语句有了褒贬的判断,因此我们将用以上4种方法对该数据集进行分析计算并比较计算结果的准确性。我们将分别选取该数据集中的前几千条数据进行整体语句的褒贬分析,其褒贬精准率和F检测值的测试结果如表2、表3所示。

表2 褒贬精准率

表3 F检测值

从上述对比结果,我们发现比例信息熵对公共数据集分析结果的褒贬精准率和F检测值都分别要高于其他信息熵,对此我们还从准确率提升百分比的角度出发对上述的分析结果进行研究,如表4、表5所示。

表4 平均褒贬精准率提升百分比

表5 平均F检测值提升百分比

虽然表2和表3已经表明比例信息熵比其他所选的信息熵在文本语句整体褒贬检测方面的效果都要优越,但是表4和表5从优越性的提升百分比角度出发说明了比例信息熵的检测效果较其他所选的熵模型更加理想。

6 总结

语句的褒贬含义和单个词汇的褒贬含义有所不同,单个词汇的褒贬含义不能真实地反映出整个语句的褒贬含义,而整个语句的褒贬含义能够更加真实地反映出作者的观点和态度,因此我们有必要去研究整个语句的褒贬意义。本文所提出的比例信息熵,从褒义词汇的整体信息质量和贬义词汇的整体信息质量出发来研究文本语句整体的褒贬含义。和其他所选的信息熵相比,该比例信息熵在公共数据集的测试中具有更高的准确性,这说明该模型能够更好地判断中文语句整体的褒贬含义。

猜你喜欢

检测值信息熵语句
抗人T细胞兔免疫球蛋白对降钙素原的影响
基于信息熵可信度的测试点选择方法研究
重点:语句衔接
《2018年全国省级兽医系统实验室检测能力比对结果分析》图版
一种基于信息熵的雷达动态自适应选择跟踪方法
基于信息熵的循环谱分析方法及其在滚动轴承故障诊断中的应用
两种试剂D-二聚体检测值与纤维蛋白降解产物值的相关性研究
我喜欢
泊松分布信息熵的性质和数值计算
作文语句实录