基于词向量的藏文情感词典的构建方法研究
2018-01-17巴桑卓玛
摘 要 随着藏文信息技术的发展,藏文文本情感分析是近年来迅速兴起的一个研究课题,而藏文情感词典的构建是藏文文本情感分析与文本挖掘领域中重要的基础性工作。情感类别手工标注不但费时费力,且容易受到主观性的影响,同时对领域性的过分关注也大大限制了情感词典的适用性。因此,本文在分析国内外情感词典扩充方法的基础上,结合藏文本身的特点,提出了“基于词向量的藏文情感词典的构建方法”,其核心思想是在人工标注的基础上定义基准词;然后基于词向量来扩充情感词典,并实践和验证了几种不同的扩充情感词典的方法,并选取最优的KNN扩充法从语料中自动扩充藏文情感词,建立了一部比较实用的藏文情感词典。
【关键词】词向量 藏文情感词典 情感词典扩充 K近邻方法
1 引言
在通常情况下,藏文文本情感分析主要通过藏文情感词来体现,而藏文情感词典的好坏直接影响情感分析的结果,因此,一个有效的情感词典至关重要。徐琳宏等人于2008年发布了大连理工情感本体,该本体将情感分为乐、好、怒、哀、恶、惧、惊7类。全昌勤等人构建了博客情感语料库,其中共提取了8类情绪,并通过矩阵空间的方式运用支持向量机实现情感分类。以上研究对藏文情感词典的构建起到了巨大的推动作用。
情感类别手工标注不但费时费力,且容易受到主观性的影响,同时对领域性的过分关注也大大限制了情感词典的适用性。因此,本文在分析国内外情感詞典扩充方法的基础上,结合藏文本身的特点,提出了“基于词向量的藏文情感词典的构建方法”,并依次构建藏文情感词典,这不仅藏文本身的语言特点,而且能提高藏文文本情感分析的结果,为藏文文本情感计算奠定一定的基础。
2 构建藏文情感词典的方法
藏文情感词典的构建是藏文文本情感分析和文本挖掘领域中重要的基础性工作,且情感词典的质量在很大程度上影响了文本情感分析的结果。随着网络词语的流行和使用,完全依靠人工完善和扩充情感词典的方法是不可行的。为了建立一部较完整、实用、准确的藏文情感词典,需要分两部分来完成:构建藏文基准情感词典和动态扩充藏文情感词典。首先人工收集和整理了一部藏文基准情感词典,在此基础上,基于词向量扩充情感词典,最终能建立一部比较实用的藏文情感词典。
2.1 构建藏文基准情感词典
本文参照大连理工大学信息检索研究室构建的中文情感词汇本体库的相关标准来构建藏文情感词典,利用词语、词性种类、情感类别、情感强度及极性等信息来描述情感词,同时借助中文情感词典,并结合藏文本身的特征构建了藏文情感计算的词汇构建标准。其中,情感分为7大类21小类;情感强度分为1、3、5、7、9等五档,9表示强度最大,1为强度最小;情感极性分为0、1、-1三种,0为中性词,1为褒义词、-1为贬义词。程度副词和转折词在藏文情感词分析中起着非常重要的作用。否定词和双重否定词在基于规则的藏文情感分析中有着至关重要的地位。若是只考虑情感词而不考虑否定词计算,情感倾向与实际的情感倾向不一致,甚至结果完全相反。因此,本文构建的藏文基准情感词典主要包括两个方面,即基础情感词和辅助词表,具体内容如表1所示。
2.2 基于词向量扩充藏文情感词典
近年来,随着深度学习的发展,词向量被广泛应用自然语言处理领域中。采用神经网络训练出来的词语向量,能够方便、快速的挖掘词与词之间的语义关系,词语的相似度越高,其向量距离越近,情感词典的扩充正是基于这一理论。
2.2.1 传统的相似度扩充法分析
传统相似度扩充法是按照词语的相似度来扩充情感词典,相似的词语其词向量的余弦距离会很接近,基于这一理论,研究者们提出了计算相似度扩充情感词典的方法。其核心思想是对种子词库Train_Set中的每一个种子词语w,计算w与目标词库Test_Set中的所有目标词的相似度,选取相似度大于某一阈值的词语,如果这些词语不在种子词库中,那么按照w的情感类别进行标注。然后将这些新词作为新的种子词放入种子词库Train_Set中。相似度越高,说明两个词语的距离越近。模型框架如图1所示。
这种方法是词典扩充中最基本、最常用的方法,但它存在三个方面的问题:第一,对基准词典的广度和精度要求高,对语料的广度要求高。种子词库的质量和相似度计算的优先顺序都会对词典质量产生影响,而迭代扩充会逐步加大误差的范围;第二,没有进行一词多考察,可靠性不高;第三,针对一般语义的词向量本身具有一定的局限性。如“????????/??????????/??/????”(扎西喜欢德吉)和“????????/??????????/??/???????”(扎西讨厌德吉)两个句子中的“???”(喜欢)和“???????”(讨厌)具有相同的上下文语境,如果训练语料比较单一,有可能将“喜欢”和“讨厌”归为近义词。为了改进和优化以上问题,本文结合KNN思想对基于词向量扩充情感词典的方法进行了研究。
2.2.2 KNN方法
KNN(K最近邻居)算法的基本思想是在距离空间里,如果一个样本的最接近的k个邻居中,绝大多数属于某个类别,则该样本也属于这个类别。俗称为“随大流”。针对情感新词的识别,还要增加距离阈值的限制,保证找到的邻居确实为“近邻”,如果一个词语与所有种子词的相似度都低于阈值,则认为该词不属于情感词。该理论用于情感词典扩充中,首先对目标词库Test_Set中的每一个目标词w,计算其与种子词库Train_Set中所有种子词的相似度,选取与该目标词w相似度大于阈值的前k个词语存入top_k_set中;然后通过匹配情感词典找出这k个词语中出现次数最多的情感类别,将该目标词标注为这个类别;最后将w放入种子词库Train_Set作为新的种子词继续进行扩充。模型框架如图2所示。
该方法不同于传统的相似度扩充法,KNN方法一次只能确定一个词语的情感,虽然降低了效率,但可以有效避免传统方法的迭代误差,提高情感标注的准确率。另一方面,该方法对中性词和非情感词有较好的识别效果。特别是非情感词,因为有了距离阈值的限制,非情感词经过相似度计算,理论上应该找不到与其相似的种子词,从而不对其进行情感标注。endprint
3 基于词向量扩充藏文情感词典的实现
基于以上理论,本文将KNN方法应用于藏文情感词典的构件中。为了验证方法的有效性,本文同时实现了基于词向量扩充情感词典的另外两种方法:权重增益法和SVM方法。权重增益法是基于目标词与整个种子词库的相似度来确定其情感分类;SVM方法是利用种子词库训练分类器从而对目标词进行情感分类。以便于实验结果的对比和评估。
3.1 实验准备
3.1.1 种子词库建立
从基准情感词典中按照情感极性(正、负、中)和情感强度(1、3、5、7、9)分为15个类,从每个类别中各选取具有代表性的100个词语,共1500个词语作为种子词。
3.1.2 目标词库建立
首先对训练语料进行去噪、分词。藏文字符编码范围为“0F00~0FFF”,其中包括了九十个藏文特殊符号。然后用‘/作为分词标记,对文本进行分词。然后针对分词结果,查询基准词典,如果当前词语不在基准情感词典中,则可以作为目标词。
从语料中得到的目标词在实际扩充的时候才使用。在实验阶段要计算准确率、召回率等指标以衡量三种方法的效果,因此选择了400个已知情感倾向的词语作为目标词,其中褒义词150个,贬义词150个,中性词100个。为了使模型具有较好的实际应用效果,实验中除了要衡量几种方法对情感词的识别效果,还要衡量方法对非情感词的識别效果。因此,目标词库中还包括了100个非情感词。
3.2 KNN方法在藏文情感词典扩充上的应用
本文主要通过计算词语间的余弦距离来实现藏文情感词的扩充,其计算公式如(1)所示。
如以上公式所示,y是目标词的向量表示,xi种子词的向量表示,主要计算y和xi的cos值,如果cos值越大,说明两个词语越相似,经过多次试验,发现阈值大于0.6时效果最佳。实验的步骤如图3所示。
核心算法描述如图4所示。
由于词向量是从语料中获取词语的语义关系,因此skip-gram的输入为已分词训练语料,藏文语料的编码格式为Unicode或UTF-8。本文在一万多个已分词的藏文文本上进行实验,使用Word2vec工具训练词向量,经过多次试验,发现词向量维度为100,词窗口大小为5的时候结果最优,共得到45469条藏文词向量,将其以文本文档的格式进行存储。结果如表2所示。
3.3 实验结果分析
本文对基于词向量扩充情感词典的几种方法进行验证,并选取最优的KNN扩充法,并使用该方法从语料中自动扩充藏文情感词,实验结果如表3所示。
该方法与SVM方法和权重递增法的结果对比如图5所示。
实验结果表明,本文提出的方法综合效果最佳,有效避免了SVM方法对非情感词识别效果差的问题,同时解决了权重递增法不能支持情感多分类的问题。
3.4 KNN方法扩充得到的藏文情感词典
基于以上的探讨和实验分析,本文选择KNN方法在一万多个藏文文本上进行扩充藏文情感词。共得到了2000个正向情感词,2000个负向情感词,1739个中性情感词。部分结果的截图如图6所示。
4 总结
本文在分析国内外情感词典扩充方法的基础上,结合藏文本身的特点,提出了“基于词向量的藏文情感词典的构建方法”,并选取最优的KNN方法,其准确率为71.22%,与另外两种方法相比高出七到十个百分点,这充分说明KNN方法比较适用于扩充藏文情感词。今后将进一步完善基准词典的质量,扩大训练语料的范围和类别,从而增加词向量的规模和质量,以便获得更实用的藏文情感词典。
(通讯作者:高定国)
参考文献
[1]梅莉莉,黄河燕等.情感词典构建综述[J].中文信息学报,2016(30).
[2]TURNEYP. Thumbs up or thumbs down? Semantic orientation applied to unsupervised classification of reviews[C].Proc of the 40th Annual Meeting of the Association for Computional Linuistics,2002:417-424.
[3]QUAN Chang-qin,REN Fu-ji. Construction of a blog emotion corpus for Chinese emotional expression analysi[C].Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing; Volume 3,Association for Computational Linguistics,2009:1446-1454.
[4]杨小平,张中夏,王良,等.基于Word2Vec的情感词典自动构建与优化[J].计算机科学,2017(44).
[5]王科,夏睿.情感词典自动构建方法综述[J].自动化学报,2016(42).
[6]杨奎,段琼瑾.基于情感词典方法的情感倾向性分析[J].计算机时代,2017.
[7]林思娟,林柏钢,许为等.一种基于词语能量值变化的微博热点话题发现方法研究[J].信息网络安全,2015(10):1671-1122.
[8]杨阳,刘飞龙.基于词向量的情感新词发现方法[J].山东大学学报(理学版),2014(49).
作者简介
巴桑卓玛(1991-),女,研究生,主要研究方向为藏文信息处理。
李苗苗(1988-),女,研究生,主要研究方向为藏文信息处理。
高定国(1972-),男,藏族,教授,硕士,主要研究方向为藏文信息处理。
作者单位
西藏大学信息科学技术学院 西藏自治区拉萨市 850000endprint