基于改进朴素贝叶斯算法实现评教评语情感分析
2018-12-19张俊飞
张俊飞
(广州医科大学基础医学学院,广州 511436)
0 引言
课堂教学评价是对教学效果的反馈,有利于促进教学活动的开展。根据教学评价方式的不同,评价可分为定量评价和定性评价。课堂教学定量评价是指对评价量化数据利用软件如SPSS、Excel等或程序算法计算其平均值、方差、标准差等反映教学效果的指标;定性评价则是利用质性数据对课堂教学效果的描述。一般教学的定性评价形式有学生的评语、教学督导的听课意见等。然而,课堂教学定性评价数据处理很少见有研究,传统的评教质性数据处理方式是把数据直接呈现给教师、教学管理者,方便他们逐条阅读。这种采用人工方式对浩瀚的信息进行查询和统计是劳动密集型的方法,显然是低效和不切实际的[1]。
随着信息技术的发展,机器学习技术的成熟,为质性数据处理带来了契机。本研究采用对定性评价数据情感分析实现质性数据处理,方便用户分门别类去了解质性评价数据,更具有针对性,便于归纳总结。情感分析通过建立一个有效的分析方法、模型和系统,对研究数据的情感信息做出情绪表达判断,如情感极性、强度等。
朴素贝叶斯是经典的基于概率论的机器学习分类算法之一,被广泛地应用于模式识别、自然语言处理、机器学习、机器人项目以及一些信息分析软件系统。朴素贝叶斯算法是基于贝叶斯定理与特征条件独立假设的分类方法[2]。特征值间独立假设与现实是不符合的,在中文语句表达中肯定要区分核心情感词汇、一般情感词汇和非情感词汇。因此当前学者围绕特征值属性对朴素贝叶斯进行了改进研究,主要体现在两个方面:①特征值选择预处理;②根据特征值和情感类别的关系,加权特征值,弱化独立假设。Geenen P L[3]提出了基于互信息选择特征属性的方法,并整合到朴素贝叶斯算法中,实现对兽医很好的决策支持。曾宇[4]等利用HowNet情感词典、NTUSD情感词典以及收集的网络情感词集进行情感特征值提取,再根据情感词对文本的贡献度计算权重,实现特征加权朴素贝叶斯分类。饶丽丽[5]通过改进互信息,考虑情感词词频提取特征值,并通过TF-IDF-FC算法实现对特征值权重的计算,最后实现加权朴素贝叶斯分类算法。
基于情感词典的特征值选取,受限与词典词库大小,情感词汇数据的稀疏问题将严重影响对情感极性的判断。综合先前学者研究成果,本文采用点互信息(Point Mutual Information,PMI)实现对特征值的选取,利用TF-IDF函数实现对特征值权重的计算,最后实现对传统朴素贝叶斯算法基于PMI特征值TF-IDF加权改进,通过对评教评语的分类实验检验算法效果。
1 朴素贝叶斯
朴素贝叶斯算法描述如下:
输入:评语文本集合训练数据 T={(x1,y1),(x2,y2),…,(xN,yN)},其中是第i个评语的第 j个特征词,j=1,2,…,n,l=1,2,…,Sj,yi∈{c1,c2,…,cK};测试评语x。
输出:测试评语x的分类。
(1)极大似然估计计算先验概率及条件概率
(2)计算评语x=(x(1),x(2),…,x(n))T归属每个类别的后验概率,根据朴素贝叶斯特征值间条件独立假定可知:
(3)取最大后验概率P(ck|x),ck即为X的类别y
在实际的应用中为防止概率计算值为0和下溢出问题,经常采用拉普拉斯平滑和概率运算对数化来解决。
2 改进朴素贝叶斯算法
本文从特征值选取和特征值权重两个维度,实现对朴素贝叶斯算法的改进。特征值选取使得朴素贝叶斯概率计算更具有情感代表性;特征值加权弱化独立假设,更加符合现实。
2.1 利用PPMMII实现特征值选取
训练集评语文本表示成特征向量,需要经过分词处理,去掉停用词,但是构成的特征空间通常还是高达几万维,直接在这样的高维向量上进行分类器的训练和测试,计算量过大。因此,在不影响分类准确率的前提下,需要对原始特征空间降维,将特征维数压缩到与训练文本个数相适应的情况[6]。
PMI(Point Mutual Information)点互信息通过计算词语与基准词在语料库中共现概率[7],体现与基准词的关系。利用PMI算法实现评教评语特征值的选取,首先计算特征词语与种子集中元素的关联程度,其中种子集为类别词集E=(E1,E2,…,EK)。
其中P(x(j)Ek)为x(j)和Ek在评语训练集合T中共现概率;P(x(j))为包含特征值x(j)评语在T中出现的概率;P(Ek)为类别Ek在T中出现的概率。
点互信息易受临界文本特征概率影响,当P(x(j)Ek)值相等时,P(x(j))小的PMI值较大,从而导致概率相差太大的PMI值不具有可比性。没有考虑词频特性是PMI算法的缺点,借鉴饶丽丽[8]文本特征选取算法设计,对 PMI公式(5)改进:
其中,P(TF(x(j)))为x(j)的频数在集合评语语料库中的概率;P(Ek|x(j))表示x(j)属于类别Ek的概率,P(Ek)为词集项Ek的概率。
其中阈值θpmi值的大小依赖训练数据集中的表现。当高于θpmi时,选为特征值。
2.2 利用TFF--IIDDFF函数计算特征值权重
一个优秀的文本特征集,应具备:①完全性,即能够涉猎文本内容;②区别性,即将目标本文和其他文本分开的特性。文本特征值的选取不仅应考虑特征值的词频特性,还应该考虑其权重,文本特征词权重综合反映了该文本特征词对表示文本内容的贡献度和文本之间的区别能力[9]。
假设x(j)的权重wi,依据朱颢东[10]关于TF-IDF函数设计,并对wi进行归一化处理,特征值权重公式(8)
2.3 基于PPMMII特征值TFF--IIDDFF加权朴素贝叶斯评语情感计算
朴素贝叶斯分类认为所有特征值属性在分类过程中权重一样,这样就使得与情感分类无关的、相互有影响的特征值,对有效的情感分类的特征值造成污染,降低了分类的准确率。将加权算法应用到朴素贝叶斯分类器中,有效地解决了训练样本的数据不均衡问题,弱化特征间相对独立假设,提高分类型的性能。根据文献[11]加权朴素贝叶斯算法设计为如下:
(1)对评语语料库和待计算极性的词x进行分词处理并去掉停用词,基于HowNet情感词库和PMI实现评语特征词提取。
(2)计算x(j)特征值的权重Wj。
(3)基于评教评语语料库,整合TF-IDF权重算法计算评语x(j)特征值的后验概率,然后计算出x归属ck(k=1,2,…,K)的概率。计算公式(9)如下:
(4)选择后验概率最大P( ck|x),对应的ck即为x归类情感y。计算公式(10)如下:
3 实验与分析
情感分析领域通常采用准确率P(Precision)、召回率 R(Recall)和 F1 值(F1-measure)作为分类结果的指标。准确率是用来衡量检测系统的查准率的指标,准确率值越大说明实验的分类效果越好,反之分类效果越差。召回率是用来衡量检测系统查全率的指标。F1值是召回率与准确率的综合体现,当F1值较高时说明分类方法效果较好[12]。假设实验语料的数量为N条,从中提取出M条进行分类,分类后正确的语料数量为n条,则准确率、召回率和F1值的计算公式如公式(11)所示。
采用广州医科大学2014年全校的教师教学学生评价数据集作为语料,并把它分为训练语料和测试预料。数据集包含9854条数据,每条数据都由量化评分和质性评语构成。质性评语集合构成了语料库中的Data(数据属性),量化评分经过如下规则构成语料库中的Label(目标属性)值。
表1 目标属性构建规则
分5次进行传统朴素贝叶斯评语情感分类算法和加权朴素贝叶斯算法实验,学生评教数据集分别取1000条、1500条、2000条、2500条、3000条作为测试集,剩余为训练数据集。实验对比结果,如表2所示。
表2 分类对比实验
从表2中可以看出,改进后的加权朴素贝叶斯算法分类效果有一定的提高。通过计算数据集中每条评语的词语元素与类别间的PMI相关性选择特征值,并计算其权重值,对后验概率的每个概率项进行加权修正。可以看出,对PMI特征值进行TF-IDF加权有效地利用了语料数据信息,提升了分类器的性能。
4 结语
特征值间独立性假设在现实中很难达到,数据分布不均衡等因素都影响着朴素贝叶斯文本分类效果。为了实现评教评语的准确情感分类,本文提出了改进特征值加权朴素贝叶斯文本分类算法。该算法基于点互信息实现特征值提取,并对筛选后的特征值进行TF-IDF权重计算,最后把计算得到权重应用到朴素贝叶斯算法上。通过特征值权重的计算,减小了数据分布不均衡的影响,使得数据特征值间弱化独立假设,权重越大,则代表归属类的能力越大。通过实验表明改进后的朴素贝叶斯算法较传统的朴素贝叶斯算法分类效果更好。在教学评教质性评语情感分析中,本研究算法具有较大的意义。