APP下载

网络电影评论的情感倾向性分类研究

2018-11-28

遵义师范学院学报 2018年6期
关键词:倾向性语料库分类器

唐 利

(安徽三联学院,安徽合肥230601)

近些年来,随着计算机的迅猛发展与信息化技术的日渐成熟,互联网已逐渐在人们的生活、学习与工作中普遍开来并占据不可或缺的地位[1]。据统计,截止到2017年6月,中国的网络普及率高达百分之五十四点三,这意味着中国目前有超过七点五亿的网络用户使用互联网进行娱乐、工作或学习[2]。互联网普及的同时,也在慢慢改变着人们生活的方方面面,其中变化最为明显的是娱乐休闲的方式。

经过前期的网络调研与大量的文献查阅发现,网络电影评论的情感分析具有不可估量的市场前景。目前,相比于实体影院,选择在线观看电影的观众越来越多,并且这种方式已经成为一种趋势。网络在线影院除了具备方便快捷、足不出户便可点播观看用户想看的电影这方面的优势以外,还为广大用户提供了一个在线交流与评论的平台[3],它没有实体影院的种种约束,用户可以随时随地发表自己对所观看电影的评论,还可以与其他人对某部电影进行交流。而这一部分海量的信息数据,相对于一些企业的推广信息或宣传广告来说,更具真实性,更能代表用户的主观体验感受,更容易被接受。相应地,本课题主要针对这些数据进行挖掘分析,分析结果不仅可以为其他用户提供较为可靠的参考,还可以帮助电影网站或制片公司更好地了解网络观众的需求和某一类电影的前景,以辅助其对电影的制作的投放分配做出更加合理的决策来保证企业价值的最大化。

一、相关理论与技术研究

(一)文本情感倾向性分类概念及研究内容

文本情感倾向性分类是近几年来基于文本分类挖掘领域流行起来的研究课题,同时也是情感分析领域中很重要的一部分内容。目前的文本情感倾向性分类,主要将一段包含感情色彩的文本作为研究对象,通过处理、分类和分析来判断该段文本的情感倾向性。总的来说,情感倾向性主要有两种分类方法:一种将情感分为喜怒哀乐四种倾向[4];另一种是将情感倾向分为正面情感倾向、中性情感、负面情感倾向三种类型[5]、[6]。本文采用第二种分类方法来研究网络电影评论文本的正负情感倾向。

目前研究的文本情感倾向性分类过程如下:首先进行训练语料库与测试语料库的收集与生成[7]、[8],训练语料库的作用是生成分类模型,而测试语料库是用来测试所生成的分类模型的分类效果如何。一般来说,要求测试语料库和训练语料库中要包含不同的数据集。然后进行的是训练语料库文本的预处理、向量化、特征提取与选择[9]、[10]、[11]。最后,处理后的训练语料库通过三个不同算法分别进行三个不同分类模型的构建与训练,再将测试语料库的数据输入分类模型,根据分类结果来评估分析不同分类模型的性能。

(二)文本情感倾向性分类关键技术

文本预处理的对象是文本中没有实际意义的虚词和不带感情色彩中性词语,使得到的结果便于计算机的处理与进一步分析。文本预处理工作主要包括中文文本分词、去停用词、词性标注等。本课题研究过程中使用ICTCLAS3(Institute of computer technology,Chinese lexical analysis system)分词系统[12]。

文本在经过预处理之后形成的是词语集,这些词语表示的是中文文本的情感倾向性,词语与情感倾向性的类别之间有着相对应的关系,如何将这种关系表示成为计算机可以识别的文本表示模型,便于后面文本的分类处理,是文本向量化所要做的工作。本文采用的是向量空间模型,不仅形式简单,而且准确率相对于其他方法来说较高。

特征提取是为了从文本中提取出可以和其他类别的文本相区别的数据项,从而选出最有效的特征。目前特征提取的算法有很多,如文档频率(Document Frequency,DF)、期望交叉熵(Excepted Cross Entropy,ECE)、信息增益(InformationGain,IG)[13]。本文采用的是信息增益算法,并将其作为特征提取的标准。

二、网络电影评论的情感倾向性分类实验

本课题关于网络电影评论的情感倾向分类模型的建立过程包括海量网络电影评论文本数据的收集、数据的规范化预处理、数据向量化及特征降维以及最终的主观识别和情感极性分类。

(一)数据收集

新浪微博目前已经成为网络推广、品牌宣传、用户交流的重要平台,对于电影行业来说亦是如此。总的来说,本课题针对网络电影评论的数据对象首先是新浪微博中微博电影模块中来源于普通用户的原创评论,不包括官方微博;其次,评论内容应该围绕电影本身,而非个人情感表述。我们收集到的评论不仅工作量大而且不利于分类工作,为了能快速的收集网络电影评论,我们将采用专业的数据抓取工具。

1.网络电影评论样本抓取程序

本课题采用的是专用的数据抓取工具MetaSeeker实现新浪微博电影网页中电影评论数据的抓取。该工具是Gooseeker公司设计并推出的一种抓取网页信息数据的插件,根据用户的指定的需求,该工具可以实现网页中目标信息的筛选和提取,最终以XML文件的形式提交给用户。目前为止,火狐浏览器通过插件的方式支持MetaSeeker网页数据抓取工具的使用。抽取的内容如设定为普通用户的原创非转发评论内容,包括评论用户的用户名、认证状态和评论内容,筛选条件包括电影名称、时间、类型等,而不关注用户评论内容的转发和收藏次数。

2.网络电影评论样本抓取结果解析

由于通过抓取工具是以30个XML文件的形式向用户提交最后的抓取结果,我们需要将这30个文件进行解析处理,得到适合本课题研究的初步的数据形式。通过perl对结果文件进行自动处理,删除掉@后的文字和连接以及标签文字之后,生成一个包含三列内容的结果文件。形式如表1所示:

表1 解析后结果文件样式表

经过初步整理后得到的电影评论总共 48736条,经过进一步的筛选处理后,符合本课题研究内容的评论数据最终有24923条。最后将评论的内容存储到TXT文本中,同时随机抽取其中的2400条评论,将其作为情感倾向分类的样本数据。对着2400条评论样本进行手动分类,类别包括情感倾向为正面、负面、中性的评论以及噪声评论,最终得到表2的样本集统计:

表2 网络电影评论数据样本统计表

(二)数据规范化预处理

1.分词和词性标注

本课题采用的基础训练语料库来自于ICTCLAS3分词系统,该词法分析系统是由中科院开发,但是对于本课题的研究内容来说是远远不够的,因此在研究过程中还需添加电影行业相关的专业名词以及目前流行的网络词语,将最后生成的新的语料库作为本课题的词典。

电影行业专业词汇本课题采用的是百度的中文分词词库和相关的细胞词库,还使用了已经整理成型的电影名称词典、影视明星词典;流行网络词语方面,使用的是目前发展相对成熟的搜狗输入法的词库和其细胞词库。另外微博中还提供表情的功能,用户评论中的表情在数据库中会转换成文字形式存储,如鼓掌、大笑等。因此还需统计微博表情转换后的词汇,通过相应的文本算法,将其连同以上词库及词典导入到本课题的基础语料库中,形成适合本课题的非结构化网络电影评论语料库,其中包括24735个流行网络词语、10276个电影评论相关词汇、1250个表情词汇。其中包括 18624个正面情感词汇和17637个负面情感词汇,将其作为对上一小节所整理的网络电影评论文本数据的样本集进行分词和词性标注的依据。

2.去除停用词

本课题所涉及的停用词主要包括通用停用词和电影领域的停用词。前者主要有一般文本中出现频率比较高、但对于情感倾向贡献值很小的修饰性词语,如量词(“一部”,/q)、代词(“我”,/r)、介词(“在”,/p)等。后者主要指的是一些电影的名称以及专业词语,这类词语仅仅有指示作用,也可以停用。

本课题选择通过计算信息增益的方法来进行特征选择,最后所提取的特征结果中每一个特征对应的是一个分词,并得到最后的特征权值后,每一个特征向量可以表示一条电影评论内容,如表3所示:

表3 一条网络电影评论文本的特征向量表示

本课题采用N折交叉验证的方式进行主观性内容识别检验评估。结合样本的收集与手工分类过程可以知道,中性评价中对于课题研究的意义不是很大,情感分类过程中只针对正面情感的评论和负面情感的评论。该电影评论的情感倾向性分类是建立在样本主观识别的基础上的,显而易见,该过程中的识别率与最终的情感分类精确度以及分类效果是成正比的。

(三)数据情感分类器分类

本课题的数据挖掘平台采用的是Weka[14]平台,它的一个很重要的组成部分就是分类器,包括了决策树、贝叶斯分类等,而训练与检测工作通过Java来实现。实验过程中首先要对三种分类器进行训练、学习,然后才可以利用其对测试集进行分类。其中贝叶斯分类器分类是线性可分的,故而不需要进行参数的设置,而其他两种分类器则需要事先设置好参数。

本课题采用模型性能评价常用的评价指标:查全率(Recall)、查准率(Precision)和F1 测度(F1-Measure)。以下通过模拟分类结果建立矩阵来更清楚地表示查准率、查全率和F1测度的计算方法。

其中,查全率(O)和查准率(O)是代表客观性评论的查全率和查准率,查全率(S)查准率(S)是代表主观性评论的查全率和查准率。查全率和查准率反映了分类质量的两个不同方面,两者必须综合考虑。三种分类器分类的混淆矩阵在此不在赘述,表4是以上者三种分类器对测试数据进行主客观分类的的结果性能评估:

表4 主客观分类测试结果

从检验结果来看,文本算法结合三种分类器后进行主客观分类的精确度都比较高,在百分之九十左右,说明通过文本算法结合三种分类器对网络电影评论进行分类的方法是可行的。从精确度的角度来看,经过文本算法初分类后,支持向量机的精确度最高,其次是决策树,最后是朴素贝叶斯。主观性评论分类中三个分类器的性能如图1所示:

本课题中对于网络电影评论的主观判别结果分析时候,查准率要比F1测度更重要,查全率重要性最低。由上图可知,尽管朴素贝叶斯的查全率最高,但是它的查准率并不是最高的,最高的分类器是支持向量机,针对网络电影评论情感分类,文本算法结合SVM来作为该网络电影评论的主观识别分类器比较合适。

表5是三种分类器对网络电影评论的正负情感倾向性进行极性分类所得到的各个评价指标的结果:

表5 网络电影评论的正负情感倾向性分类结果

对于本课题的网络电影评论文本的正负情感倾向性进行分类的时候,需要同时对具备正面和负面倾向性的评价有很好的识别度,所以此时每个分类的精确度以及相应的F1测度的重要性是相同的,然后再查看的是查全率和查准率这两个指标。F1测度的结果图如2所示:

通过上图三个分类器的F1值进行分析、对比之后,可以很直观地看出支持向量机算法对于positive和Average这两项都是具有最高值的,虽然朴素贝叶斯算法在negative时是最高的,但是它的精确度却只有65.72%,决策树虽然比较平衡,但是由之前的研究可知,在数据量极大的时候,其处理时间会增长很快,而支持向量机则相对稳定。

总的来说,非结构化的网络电影评论文本的情感倾向性通过将文本算法与三种机器学习的分类器结合后可以进行有效的分类,本文不仅可以并识别出正负面情感,还可以识别出主观情感。并且如上的实验数据还显示出,支持向量机的分类器对于本网络电影评论的情感倾向性分类中有较好的效果,其中表现在准确率和F1测度值上,相较于其他两种分类器,该分类器的表现稳定均衡,效果突出。

三、结语

关于网络电影评论的情感倾向性的分类研究,对电影市场投放何种类型,投放比例等方面都有很重要的意义。通过我们的研究可以知道将文本情感分析与机器学习算法结合是可行的,并且能构建出既减小工作量又提高准确率的算法模型。

这里,我们的主要工作是对网络电影评论的情感倾向性进行分类研究。通过文本算法构建适合本研究的新的情感词典。最后,选用了三种目前运用比较普遍的情感分类模型,通过比较和深入地分析三种分类模型的分类结果,总结三种机器学习算法的优劣,找到更适合网络电影评论倾向性分类的模型。当然这里的研究并不是完美无缺的,因为种种原因限制,使得本文还有提升的空间。在今后的研究中会针对以上提到的可提升之处进一步完善,使得该课题更加丰富、更加具备应用价值。

猜你喜欢

倾向性语料库分类器
基于模糊数学法的阿舍勒铜矿深部岩体岩爆倾向性预测
《语料库翻译文体学》评介
BP-GA光照分类器在车道线识别中的应用
把课文的优美表达存进语料库
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
关于医患冲突报道的倾向性分析——以“湘潭产妇死亡案”为例
基于JAVAEE的维吾尔中介语语料库开发与实现
“没准儿”“不一定”“不见得”和“说不定”的语义倾向性和主观性差异
一种面向博客群的主题倾向性分析模型