基于词典与机器学习的中文微博情感分析
2016-12-26刘开元
刘开元
摘 要
目前,社会正处于一个微博崛起的时代,一切有关于微博的问题都被社会广泛关注,并得到了工业界和学术界的高度重视。微博从出现以来,取得了良好的发展,并拥有大众的普遍关注和应用。微博的超大信息量和高速度的更新等,都是值得研究的话题。同时,微博处理自然语言已经成为当前最新型和热门的研究课题,而其中最值的探讨的热点课题就是中文微博情感分析。
【关键词】词典 机器学习 中文微博 情感分析
在当前众多社交网络平台中,微博以新型的信息发布手段具有重要的社会影响力。根据我国相关数据统计可以发现,我国微博用户使用量已经高达3.5亿,并处于逐年上升的趋势,占全国网络居民中的百分之五十。微博情感分析是按照主观倾向性将微博文本分为三类:第一是正向;第二是负向;第三是中性。
1 情感的分析方法
目前,主要通过两种技术来对情感进行分析。第一类是根据情感词典来进行,微博文本中所包含的正向情感词和负向情感词都通过情感词典来进行统计分析,而文本的情感极性则依靠所取得的差值来决定。第二类是机器学习的使用方法,对测试预料和训练词进行相关的标注,再使用分类器对情感进行分析,其中分类器包括有:
(1)KNN;
(2)最大熵;
(3)支持向量机等。
另外,Wang与相关研究人员对Twitter情感分析系统进行了构建,其能对相关评论信息的情感倾向性进行较为实时的分析。Agarwal与相关人员通过对极性词语的特征研究,对微博文本通过树内核模进行了情感分类研究,其也获得了一定的成绩。Jiang及其成员对微博文本的情感分析使用了主题无关和主题相关的方式进行了分类,一种是正向情感,一种是负向情感。
与英文微博相比,中文微博具有很大差异,其中主题较为发散是中文微博的主要特点,且内容十分繁杂丰富,并与英文微博的行文习惯也有很大区别。因此,部分研究人员通过多种计算方法对微博的情感分析进行了全方位的分析,其中所包括的算法有:
(1)三种特征选择方法;
(2)三种及其学习算法;
(3)三种特征权重计算方法,但该方法对微博文本的行文特点并没有考虑到位,导致在整条微博中,微博表情符号直接影响了文本的情感极性。
同时,其他研究人员提出了微博情感分析的层次结构分析方法,但由于表情符号的规则原因,其有了提高分类效果的作用,但却使微博文本中的极性信息被忽视。由于中文微博主题发散和内容简短,以及不规范的用语和未登录词较多等问题,使中文微博文本目前的情感分析效果未取得一定的进展。由于词典方法和及其学习方法都存在各自的问题,针对中文微博的文本内容简短、口语化国多和主题不集中等特点,提出了有关于结合词典和机器学习的方法,以对中文微博情感进行更为准确的研究。
2 基于词典与机器学习的中文微博情感分析
基于中文微博的特点研究,采用词典与机器学习相结合的方式,进一步分析研究中文微博文本的情感倾向性。
2.1 特征降维
经过分析微博文本可以看出,其中的形容词和动词是最主要的情感词语,也能够准确反映文本情感的倾向性,所以特征的选择应当主要以形容词和动词为主。微博文本中所包含的所有形容词和动词都被特征空间所集合包含,当产生较大训练文本集时,则具有非常高维数的特征空间。同时,中文微博中还较频繁出现表情符号,并还含有多个词或是十多个词,使绝大多数维上的值在特征向量中显示为0,导致数据稀疏性的问题出现在特征空间中,所以,必须使用降维来对特征空间进行缓解。
常用的特征降维方法有两种:
(1)特征选择;
(2)特征抽取。
但特征抽取具有大计算量和储存方面的问题,对于处理文本具有一定的局限。特征选择在性能方面十分良好,通过特征降维的统计法后,依然出现特征空间的严重数据稀疏性问题,则需进一步对特征空间进行降维操作。在聚类词语方面,层次聚类算法具有明显的作用。所以,可以采取统计法融合层次聚类算法的层次结构来实现降维。特征选择在进行统计法后,可以对特征空间进行初步的维数降低,并依靠层次聚类算法实现特征空间的有效降维,保证特征空间维数的进一步降低,最终实现特征降维的有效目的。
2.2 特征极性值
中文微博中的修饰词和情感词所构成的极性值短语为极性特征的极性值。绝对值越大的极性值,具有越强的情感极性,反之越小的绝对值,其情感极性越弱。在微博文本中可以出现很多次同一个极性特征,每出现一次,则极性副词彼此之间都有不同的顺序,也导致每次的极性值计算都有所差异。所以,该极性特征可以通过极性值的平均算数值来作为最终极性值。中文微博中的评论性所使用的符号表情,对于本人的立场和情感都有真实的反应和重要作用,能使该条文本的情感极性进一步增强。如果在微博文本中,正向极性特征的极性值在微博文本中得到加强,那其正向表情符号肯定超过负向表情符号的有效数目。相反,如果负向极性特征的极性值出现减弱,则微博文本中的负向表情符号肯定大于正向表情符号的有效数目。中性特征的极性值在正常情况下应当为0,但为了实现和出现次数为0的特征项目进行区别,可以对中性特征的极性值设置一个小的公式设计。
3 结束语
总之,本文对词典与机器学习的中文微博情感分析方法进行了探讨,并根据中文微博的相关特点,对层次结构的降维方法进行理论探讨。同时,随着网络信息的逐步发展,中文微博中还在不断产生一些新鲜的词汇,导致其无法被当前的分词系统进行有效识别,对分类中文微博情感造成了一定的阻碍,所以,未来还应不断尝试新的分类方法来对其进行识别匹配。
参考文献
[1]孙建旺,吕学强,张雷瀚.基于词典与机器学习的中文微博情感分析研究[J].计算机应用与软件,2014(07):177-181.
[2]孙晓,叶嘉麒,龙润田,任福继.基于情感语义词典与PAD模型的中文微博情感分析[J].山西大学学报(自然科学版),2014(04):580-587.
[3]张庆庆,刘西林.基于机器学习的中文微博情感分类研究[J].未来与发展,2015(04):59-63.
作者单位
广州大学计算机学院 广东省广州市 510006