APP下载

中文情感分析研究

2021-03-07闫婷婷王恒

网络安全技术与应用 2021年9期
关键词:歧义词典词语

◆闫婷婷 王恒

中文情感分析研究

◆闫婷婷 王恒通讯作者

(宁夏大学信息工程学院 宁夏 750000)

情感分析作为自然语言处理领域比较热门的研究方向,备受研究人员的关注。本文从情感分析的任务出发,对情感分类、情感信息抽取、情感信息的检索与归纳三个任务进行了介绍,重点阐述了情感分类研究中基于词典、基于机器学习的情感分类方法,最后本文介绍了情感分析的应用和情感分析的研究难点。

情感分析;情感分类;情感信息抽取;情感信息的检索与归纳

1 引言

随着互联网技术的快速发展,我国逐步向全面互联网时代迈进,根据2020年4月中国互联网络信息中心发布的第45次《中国互联网络发展状况统计报告》[1]显示,截至2020年3月,我国网民规模达9.04亿,互联网普及率达64.5%。越来越多的人喜欢在微博、贴吧、论坛上对热点话题、国家政策、产品服务等内容进行交流讨论,发表个人意见、观点,表达情绪,从而产生了大量的主观性文本。对这些文本捕捉进行分析从而得到公众对事件或事物的看法,能够帮助政府部门获得相关舆情信息,消费者也能在购买产品时将获取相关评价内容作为参考依据。因此有效挖掘此类文本信息对舆情监控、电子商务、信息预测具有重要价值。文本情感分析成为目前学术界研究的一个热点。

2 情感分析研究内容

文本情感分析是指对用户表示的主观性文本进行分析和挖掘,是对网上各种新闻资讯、社会媒体和用户评论内容进行提取、分析、处理、归纳和推理的过程。根据处理文本粒度的不同,情感分析可分为词语级、短语级、句子级、篇章级等研究内容;根据情感分析研究的任务类型可分为情感信息提取、情感分类以及情感信息的检索和归纳等问题[2]。

2.1 情感分类

情感分类又称情感倾向性分析,主要用来判别文字中所表达的观点、喜好等相关信息。情感分类按照不同的划分方法导致划分结果也不同,可分为主、客观类,褒、贬类。按照分类粒度进行划分,可分为词语级、段落级和篇章级。本文主要从基于词典和语义规则的情感分类方法以及基于机器学习的情感分类方法进行说明。

2.2.1基于词典和语义规则的情感分类方法

基于词典和语义规则的情感分类结合语法结构、设计的判别规则以情感词典作为判断情感倾向的主要依据。基于词典和语义规则的情感分类对文本进行情感分析的主要思路[3]是首先对文本进行预处理,使用标点符号进行分割,得到分句,经过设定好的情感词典、否定词典、程度副词词典,在不同的分句中,标注这些词出现的位置。按照不同的组合方式制定不同的权值计算方法。分析句间关系,通过对不同句型的处理强化情感分析的合理性,最终得到整体的情感分值,根据阈值来对文本分类。基于词典的情感分类关键在于词典的构建,目前国内外的情感词典的构建方法主要是在已有的情感词典的基础上扩充所需要的情感词典。顾宇杰在论文[4]中提到爬取微博评论数据进行过滤、分词、词性标注,其从微博评论数据中提取一部分词建立适合对明星微博评论进行情感分析的基础情感词典、程度副词词典和否定词词典,并设计了一套情感打分规则。从微博评论中选取1000条进行人工标注,使用词典和打分规则进行情感打分,通过计算正确率、召回率和F-测度值来验证文中构建的情感词典以及打分规则的有效性。

2.2.2基于机器学习的情感分类方法

基于机器学习的情感分类关键在于特征选择、特征权重量化以及分类模型等要素。常用的特征选择方法有信息增益法、基于文档频率的特征提取法、主成分分析法等。常用的特征量化方法有熵权重、布尔权重、TF-IDF方法等。常用的分类器模型有朴素贝叶斯、支持向量机、K近邻等。张柳等人[5]基于词云统计对文本内容进行特征分析,获取用户评论高频词,通过对高频词的降维高效训练朴素贝叶斯分类器,完成文本情感分类。最后展示出微博环境下的高校舆情情感演化图谱。

随着深度学习理论的不断发展,基于深度学习的算法被应用在各种领域,许多学者也将其用在文本处理中来试图提高文本分类的效果。深度学习是机器学习中发展的新领域。深度学习通过构建网络模型对文本分析、自动学习文本特征,优化模型输出来提高文本分类的准确性。秦欣在其论文[6]情感分析中对N-Gram切词生成的元组使用邻接熵和互信息进行边界自由度以及内部凝固度度量后得到的候选词集,使用词典过滤后得到新词集,将新词加入分词系统中来提高分词的准确性,基于BERT词向量改善语义欠缺和文本特征稀疏的问题,提出基于注意力机制的BiGUR-Att模型并进行情感分析,为进一步强化文本情感特征,引用注意力机制对BiGUR层输出结果分配权重,从而提高对微博文本情感分类的准确率。

2.2 情感信息抽取

情感信息抽取是情感分析的底层任务,抽取情感评论文本中有意义的信息单元。情感信息抽取主要研究的问题包括观点持有者的抽取、评论对象的抽取和评论词语的抽取和判别。观点持有者的抽取目的在于辨别情感文本的意见主体。在产品评论以及社交媒体的评论中,观点持有者通常是评论员或者作者,可以查看其登录账号,所以观点持有者的抽取相对简单。

评价对象是指某段评论中所讨论的主题,是评论文本中评价词语修饰的对象。蒋盛益[7]等人在评论对象研究综述中对评价对象方法进行了归纳、总结,并对基于模板规则、基于频率、基于图论和基于深度学习的评价对象抽取等方法进行重点分析,对评价对象抽取的评测情况以及可用资源进行回顾,对评价对象抽取的难点从跨句子评价对象和隐式评价对象两个角度进行了讨论。评价词语的抽取和判别是对评价词语的识别和极性的判断。

2.3 情感信息的检索与归纳

情感信息检索是为用户检索出主题相关且蕴含情感信息的文档,情感信息归纳是为减少用户浏览相关文档的事件,针对大量主题相关含有情感信息的文档进行分析和整理,将情感分析的结果提供给客户作为参考。因此情感信息归纳是对情感信息检索的进一步加工。

3 情感分析的应用

文本情感分析根据文本数据所提供的特征信息来计算文本的情感倾向,从而为决策的制定提供有力的依据。文本情感分析作为自然语言处理的基本任务,是人工智能的关键技术之一,被广泛用于医疗卫生、舆情分析、政府管理、国防建设等领域。例如随着电子商务的高速发展,在线商品的评论数量急剧增加,商品评论中蕴含着具有商业价值的用户偏好信息,对这些具有主观性评论信息进行挖掘和分析,消费者可以了解到商品的详细信息以便更好做出选择,生产商和销售商也可以通过消费者反馈过来的信息掌握自己的优劣势,通过改进产品或服务赢得竞争优势。

4 情感分析的研究难点

情感分析作为自然语言处理的子领域,其研究难点有着自然语言处理的共性及其自身的特殊性。情感分析的研究难点有分词歧义、词性标注歧义和情感语义歧义等[8]。分词需要面临歧义切分以及新词发现的问题。歧义切分是指在分词时面临多种分词方式,可以根据词语在字典中出现的概率等方法来进行判断,但新词不存在字典当中可能会导致切分错误。词性标注歧义,词性标注产生的歧义问题是同一个词语在不同的句子中有着不同的词性类别。情感语义歧义有一词多义和反义表达等,一词多义是指相同的词语在不同的语境下所表达的情感倾向并不相同,并且词性相同、语法相近,所以通过句法分析很难识别词语本义。反义表达是指贬义词褒用、褒义词贬用的表达方式。

5 总结

随着互联网和自媒体时代的到来,网上出现了大量的带有主观性的文本,对这些文本进行分析,能够为个人生活、企业运行、社会改革以及国家政策的制定提供支持。情感分类按照不同的划分方法划分结果也不同,本文从情感分析的任务出发,对情感分类、情感信息抽取、情感信息的检索与归纳三个任务进行了介绍。对情感分析的应用现状进行了总结。同时情感分析的研究中依然存在着许多问题和挑战,值得我们进一步进行研究。

[1]中国互联网络信息中心(CNNIC).第45次中国互联网络发展状况统计报告,2020(4).

[2]赵妍妍,秦兵,刘挺.文本情感分析[J].软件学报,2010,21(08):1834-1848.

[3]孔杏,林庆.主观性文本情感分类研究综述[J].信息技术,2018,42(08):126-130+134.

[4]顾宇杰.面向微博评论的中文文本情感分类研究[D].云南财经大学,2018.

[5]张柳,王晰巍,王铎,韦雅楠.微博环境下高校舆情情感演化图谱研究——以新浪微博“高校学术不端”话题为例[J].现代情报,2019,39(10):119-126+135.

[6]秦欣.基于深度学习的微博短文本情感分析技术研究[D].西安建筑科技大学,2020.

[7]蒋盛益,郭林东,王连喜,符斯慧.评价对象抽取研究综述[J].自动化学报,2018,44(07):1165 -1182.

[8]薛益定.中文情感分析研究综述[J].电脑编程技巧与维护,2016(05):22-24.

猜你喜欢

歧义词典词语
容易混淆的词语
找词语
米兰·昆德拉的A-Z词典(节选)
米沃什词典
eUCP条款歧义剖析
词典引发的政治辩论由来已久 精读
语文教学及生活情境中的歧义现象
English Jokes: Homonyms
基于关联理论的歧义消除研究
一枚词语一门静