情感分析研究综述
2018-10-20江红
江红
Abstract: With the rapid development of e-commerce and social media, vast amounts of information regarding every aspect of the social life sprang into existence on the Internet. It has become urgent requirements of multiple fields in the society to analyse this information, mine the opinions behind it, and determine the sentiment orientation. This paper elaborates on the review of sentiment analysis and opinions mining in terms of their definitions, applications and classifications.
引言
情感分析与观点挖掘是自然语言处理领域的一个基础任务,属于文本分析范畴。其目的是从文本中判定识别论点,挖掘分析情感倾向,抽取得出主要的观点要素。
近年来,随着互联网与社会媒体的迅猛发展,涌现、并累积了含有观点的海量文本,故而引发了人们对情感分析的探索研究热潮。目前,在社会很多方面都可见到有关情感分析的应用与产品,如医院、旅游、金融领域等。正因如此,所以情感分析已经吸引了研究学界的高度重视与关注。本文即针对这一内容方向展开如下的研究讨论。
1情感分析(观点挖掘)定义
首先,需要厘清情感与观点的区别与联系。在Merriam-Webster词典中,情感指的是一种态度、想法,或者是感性的判断,而观点是一种论断和判断,或者称之为一种在人脑中形成的对于某一事物的评价。观点用来描述情感、评价、态度及其要素,情感则用来描画观点中蕴含的褒义或贬义的情感倾向。从上述定义不难看出,两者之间有着紧密的内在联系,只是侧重不同。观点偏重于一个人对于某一事物形成的具体看法,而情感更侧重的是一个人内在的某种感情。此外,情感和观点还具有一个共同特征,即都带有鲜明的主观性,都是主观意愿的一种表现。而每个人的性情、经历、兴趣、爱好等方面各有不同,即使同一个人,在不同时期也可能处于不同环境和地位,这些因素都会直接或间接影响一个人对事物所产生的情感倾向结果。
在学术界,情感分析,也可称为观点挖掘。其研究目标是从文本中分析展示人们对于实体及其属性所表达的观点、情感、评价、态度和情绪。这里的实体可以是各种产品、个人、机构、事情和服务等。这是一类旨在利用可计算的方法从自然语言文本中提取观点和情感信息的研究。从自然语言处理的角度看,情感分析的任务就是识别出人们谈论的主题以及针对主题所表达出来的观点倾向。
2情感分析的应用
综合前述研究,本文拟从个人、企业(机构)这2个角度来阐释解读情感分析的应用需求,系统论述详见如下。
2.1个人角度
当某一个体试图去做决定、并转换为行为时,通常会斟酌、考虑他人的意见、建议、观点及看法。或者说,他人的意见和观点对一个人的决定和行为将产生显著影响。例如,当某人在购买一款商品时,就不仅会主动听取朋友、同事等对这个商品的有关意见,在当今的大数据时代,更多的还会从互联网上搜集与此商品有关的热点评价或各种形式的集体讨论等开放信息,根据这些信息来决定是否将购买这一行为付诸实施。
2.2企业(机构)角度
在过去,一个企业(机构)若想了解自己的产品或服务在大众心中的品质形象和评价等信息,只能通过面对面交流或采取设计调查问卷的方式获取。同样,在大数据时代,即可从互联网上探寻搜罗相关信息。此外,对于企业(机构)来说,还有另一种路径可以得到这些信息,即企业(机构)内部数据。例如,企业(机构)的内部生产数据、销售数据、各种数据报表,调研报告等。从这些数据中,同样可以反映出针对产品或服务的观点信息。
3基于文本粒度的情感分析分类
情感分析的处理对象是文本,而文本有大有小,既可以是一个完整的文档,也可以是一个句子,还可以是一个单词或短语。根据文本的这一特性,情感分析研究可以划分为3个层次,即:文档级情感分析、句子级情感分析、属性级情感分析。基于此,可得研究工作分述如下。
3.1文档级情感分析
文档级情感分析(document-level sentiment analysis)是判别一个完整文档所表达的情感倾向是褒义的、还是贬义的技术处理方法。显然,文档级情感分析在运行上也存在着一定欠缺,究其原因有2个方面。一方面,因为文档级情感分析是将一个文档视作一个整体,其目标是判别通篇文档的整体观点和情感,而未对文档中的具体实体或属性进行情感分析,因此,文档级情感分析未能臻至更精细的情感辨识,导致文档级情感分析的实用价值表现出明确的局限性。例如,针对一篇有关某个商品的含有观点的文档,文档级情感分析只能判别出这篇文档对这个商品总体上是褒义、还是贬义的情感倾向,这个判别结果对人们来说是粗糙的,人们往往需要探究了解更多细节,而且这些细节对人们未来的决策可能发挥至关重要的支持作用,但是文档级情感分析却难以达到这一效果。另一方面,文档级情感分析需要立足于一个前提假设基础上,即假设这个完整文档只对一个实体进行评价,研究可知该假设并不能满足实际需求。实际情况往往是一个文档会评价多个实体,这也在一定程度上削弱了文档级情感分析的实用价值。例如,对论坛发言、博客等帖子的情感分析,在此過程中大多数帖子会同时评价多个实体,此时文档级情感分析就不能判别出帖子的情感倾向。
3.2句子级情感分析
句子级情感分析(sentence-level sentiment analysis)的研究对象是含观点文档中的句子,判别句子中所包含的情感倾向,换言之就是判别每个句子中的情感倾向是正面、负面、还是中性的。其中,中性情感倾向意味着不含有观点和情感倾向。相对文档而言,句子可看成比较短的文档,因此句子本身包含的信息较少,这就导致句子级情感分析的研究将颇具现实难度。
句子级情感分析与文档级情感分析相比,有2个相似点。分析阐述如下。
(1)两者都不研究观点和情感倾向所指向的实体(或属性)是什么。
(2)两者都有一个前提假设。文档级情感分析的前提假设是只对一个实体进行评价;句子级情感分析的前提假设是一个句子只表达了一个观点或只含有一个情感倾向。
句子级情感分析与文档级情感分析的不同之处,除判别对象的粒度不同外,句子级情感分析增加了中性情感倾向这一判别结果。实际应用中,文档中会出现很多不表达观点和情感倾向的句子,这是句子级情感分析不容回避、且亟待有效判别的一个重要问题。
虽然句子级情感分析不像文档级情感分析般宽泛、粗糙,但由于句子级情感分析仍然不能识别观点和情感倾向的实体(或属性)是什么,即使得句子级情感分析在性能评价效果上依然欠佳。具体表现在2个方面。一方面,实际应用中,如果只能给人们提供观点和情感倾向,却不能给出这些观点和情感倾向所指称的对象实体(或属性),这对人们的需求而言,其意义和参考价值就会有大幅降低,那么句子级情感分析的应用范围也将受到很大限制。另一方面,因为句子级情感分析有潜在的前提假设,即一个句子只表达一个观点或只含有一个情感倾向,所以句子级情感分析只能判别仅有一个观点的简单句,不能判别和处理复杂句、组合句等,也不能判别相对特殊的比较句。
3.3属性级情感分析
属性级情感分析(attribute-level sentiment analysis)直接关注的是观点以及观点的对象,而不是文档、句子、短语等语言单位。该项研究内容是通过判别和挖掘发生在实体及其属性上的观点信息,并最终描述输出所关注的对象实体及其属性的观点信息。属性级情感分析能够满足人们想获取有关实体及其属性详细信息的需求,具有良好的应用价值和可观的研究前景。还需一提的是,基于主题的情感分析、基于实体的情感分析、基于目标的情感分析是属性级情感分析在不同应用领域中的不同命名。
在此基础上不难看出,属性级情感分析包含2个主要问题。一是观点判别对象的抽取,即属性本身的抽取。考虑到属性与实体的密切关系,属性抽取本身包含实体抽取。二是属性级情感的抽取,其任务就是甄别判断句子中针对不同属性所表达的观点倾向,推出其为正面、负面还是中性。
属性级情感分析也面临诸多问题尚且处于研发阶段,在此仅给出方向性概述如下。
(1)在实体和属性抽取方面。因为抽取精度不高,需要研究和创建新的提取方法;而且,目前只是基于名词和名词短语进行属性的抽取,还未能拓展到由动词表达的属性抽取。
(2)在属性级情感抽取方面。研究发现表达情感的语言学模板因为囿于自身在应用和描述上的困难而导致其应用效率仍然差强人意;同时,情感词典因领域不同而存在显著差别,所以情感词典的建立和维护工作量则可堪称巨大;此外,关于如何去掉各种拼写、语法和标点错误等数据噪声,实现预处理也是目前一个焦点性的研发课题。
4结束语
近年来,针对情感分析,人们在研究和应用方面已经进行了深入探讨,取得了长足进步。虽然如此,人们对于情感分析的认识以及时下的解决方案仍未达到理想水准。目前还没有一个算法能够实效、完备地解决情感分析问题。也就是说,在技术上,情感分析仍然具有广阔的研究天地和发展空间。尤其是伴随社会媒体数据的海量兴起态势,让人们可以在大数据基础上开展研究、设计实验。期待不久的将来,通过不断的探索创新,人们能够搭建一个针对自然语言的情感分析处理系统,只要对这个系统输入一些含有观点和情感的文档、句子等,系统就能够自动调取情感分析高智能地处理输出相应观点和情感的详尽结果信息。
参考文献
[1] LIU Bing. 情感分析:挖掘观点、情感和情绪[M]. 刘康,赵军,译. 北京:机械工业出版社,2017.
[2] CHEN Zhiyuan, LIU Bing. Topic modeling using topics from many domains,lifelong learning and big data[C]//CML'14 Proceedings of the 31st International Conference on International Conference on Machine Learning. Beijing, China:ACM, 2014:II(703)-II(711).
[3] CHEN Zhiyuan, LIU Bing. Mining topics in documents:Standing on the shoulders of big data[C]//Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, USA:ACM,2014:1116-1125.
[4] MICHALSKI R S,BRATKO I,KUBAT M. 機器学习与数据挖掘:方法和应用[M]. 朱明,译. 北京:电子工业出版社,2004.
[5] 黄林军,张勇,郭冰榕. 机器学习技术在数据挖掘中的商业应用[J]. 中山大学学报论丛,2005,25(6):145-148.
[6] 梁晓音. 机器学习在数据挖掘中的应用[J]. 广西质量监督导报,2008(11):38-39,42.
[7] GROTH R. 数据挖掘—构筑企业竞争优势[M]. 侯迪,宋擒豹,译. 西安: 西安交通大学出版社,2001.
[8] 田文英. 机器学习与数据挖掘[J]. 石家庄职业技术学院学报,2004,16(6):30-32.
[9] BOSE I, MAHAPATRA R K. Business data mining- a machine learning perspective [J]. Information & Management,2001,39(3):221-225.