基于HMM的个体微博情感分析预测方法研究＊

2014-11-23

舰船电子工程 2014年2期

（海军工程大学电子工程学院计算机工程系武汉 430033）

1 引言

人类的情感是一种多成分、多维量、多种类、多水平整合的复合心理过程，是对趋向知觉为有益的，离开知觉有害的事物的体验倾向［1］。对于人类情感的研究主要集中在情感的产生、识别和表达三个方向，语言是个体情感外在表现的重要途径之一，分析个体语言表达是进行情感识别研究的重要方法。2010年中国互联网舆情报告指出，微博成为网络舆论主要载体［2］，大量微博用户发布的文本信息表达个体情绪情感，通过对用户文本情感提取、识别个体情感，对预防个体极端情绪和行为倾向有重要参考意义。

目前，微博情感分析主要针对大量微博文本情感倾向进行统计分析，研究在商品评价和舆情监控等领域的应用。本文则在研究个体情感发展特点基础上，分析当前文本情感提取基本方法，提出了基于隐形马尔科夫链方法的情感分析模型，从而分析微博用户情感及其发展倾向预测。

2 研究背景

2．1 情感特点

情感是一个十分复杂的现象，包含丰富的内容。情绪和情感是人对客观事物的态度体验，是人的生理需求和社会需求是否获得满足的反映，包括了情感过程和情感个性［3］两个层次：

1）情感过程：情感的具体表现为情绪和心情两种情感状态，情感状态变化是变化过程的一个重要方面。当为情绪状态时，激动水平较高，有强烈的情绪表现和明显的情感行为；当为心情状态时，激动水平较低，变化缓慢，没有强烈的情绪表现和明显的情感行为；从性质上情感状态可分为高兴、愤怒、恐惧、悲哀等。从变化方式上情感过程可分为受外界刺激影响的应急变化和由自身特性决定的自然变化。

2）情感个性：情感个性是与个体特性相关的包括需求、动机、兴趣等个性倾向性和能力、性格、气质等个性心理特征。情感态度表示对人或事物在态度方面的比较稳定的评价性情感，包括褒贬、喜恶等；情感在气质、性格方面主要体现情绪体验的强度、情绪状态变化的速度、情绪的稳定性和持久性，以及在同样外部刺激条件下产生某种情绪倾向性大小等。

情感具有多维度结构，情感的表示可看作具有信息度量的多维空间的点在情感空间中的映射［4］。情感映射维度论认为不同情感是逐渐的、平稳的转变，不同情感之间的相似性和差异性由维度空间距离显示。代表性的情感维度模型包括：1966年Watson等设计的二维量表分析模型，设计了正负性情绪量表PANAS和症状自评量表SCL-90等，1974年Mehrabian和Russell提出的PAD 三维情感模型，认为情感具有愉悦度、激活度和优势度三个维度，以及R．Plutchik 提出结合维度和基本情绪理论的情感锥球模型［5］。

2．2 情感分析模型

情感分析模型是采用数学方法分析人类情感，实现情感的模型化和形式化［6］。依照描述情感的数学方法可分为维度空间、非线性、灰色理论和随机过程等。

情感分析模型建模主要先对情感进行量化分析，采用情感维度或情感熵等方法，然后对情感自然个性和外界刺激等方面进行分类分层考虑，从概率转移、分层网络等方面研究情感状态变化，完成对情感的分析。情感分析模型研究主要方法包括基于欧氏空间的情感数学模型，建立情感空间的概率模型进行分析计算；基于马尔科夫链的情感计算模型，建立情感概率空间从而实现情感变化的模型模拟，给出了情感能量、情感强度和情感熵等概念；基于自组织理论的情感建模，依据情感由基本情感和表征人意志力的内驱力形成，借鉴自组织理论，模糊数学，最优化理论等数学思想，构建不同性格特征的数学模型；基于贝叶斯网络的情感分析建模，定义了性格空间和情感空间，设计了分层和网络化的情感分析模型［7］。

2．3 文本情感提取

文本情感分析主要任务就是根据文本来判断作者的情感倾向，主要利用底层情感信息抽取的结果将情感文本单元分为若干类别，如分为褒贬，喜悲等对立两类或更为细致的感情类别（如喜怒哀乐等），并进行分析归纳。文献［7］最早给出了情感分析的概念，文献［8］针对中文的文本情感分析的任务、内容和主要技术进行描述。

文本情感分析可分为三个研究层次，即情感信息的抽取、情感信息的分类以及情感信息的检索与归纳。其中情感信息抽取是抽取情感文本中有价值的情感信息，是情感分析的基础任务，为后续文本情感分析提供数据基础。

文本情感提取按照处理文本的粒度不同可以分为词语级，语句级和篇章级；按照不同分析目的，可以分为主客观分析和主观分析，前者主要研究作者对客观事物的褒贬评价，后者则主要研究作者自身的喜怒感受；按照分析内容的不同，可分为对新闻事件的情感分析和对商品评价的情感分析；按照技术处理手段可分为基于词典的情感分析和基于机器学习的情感分析，前者主要是利用基础情感词典对文本中词语进行情感分析，后者则是利用SVM 方法、神经网络、朴素贝叶斯等分类器进行文本情感分析；按照有无人工参与可分为无监督分类方法和有监督分类方法，主要区别在于是否需要人工词语情感标注。

结合微博文本的长度较短，结构不规范，中文语法结构复杂等特点，本文的文本情感提取算法主要基于情感词典的方法。

3 基于改进HMM 的情感分析模型

本文主要通过个人微博文本进行情感提取，建立适当模型研究个体情感发展趋势。隐形马尔科夫模型（Hidden Markov Model，HMM）是一种用参数表示，用于描述随机过程统计特性的概率模型，因具有成熟算法及其数据处理中表现很好的鲁棒性广泛应用于自然语言处理、文本分类等领域［9］。

3．1 隐马尔科夫模型

按照系统的发展，将时间离散化为事件节点，对应的系统状态用随机变量表示为一定的发生概率，这个概率成为状态概率。当系统由随机过程中的某一个阶段状态转移到另一个阶段状态时，在这个转移过程中存在着转移的概率，称为转移概率。如果转移概率只和目前相邻两个状态的变化有关，也就是说下一阶段的状态只和现在状态有关而与过去无关，这种离散状态按照离散时间的随机转移系统过程，称为马尔科夫过程［10］。

HMM 是在马尔科夫链的基础上发展起来的。在实际问题中，由于观察值和状态值通常不是两相对应的，二者通过一定的概率分布描述，实质是一个“双重随机过程”。其中T为观察值的时间长度，马尔科夫链过程通过转移概率（π，A）描述状态之间的转移，确定状态序列，随机过程通过观察值概率矩阵B确定观察值和状态之间的对应关系得到对应的观察值序列。

隐马尔科夫模型的定义如下：λ＝｛X，O，π，A，B｝，由五个部分组成，详细含义如下：

1）设X表示状态的集合，其中X＝｛S1，S2，…，SN｝，N表示状态的个数。在t时刻的状态用qt表示。虽然状态是隐藏的，但在很多应用中，物理意义和状态或者状态集合相关。状态之间的内部关系，即从一个状态转移到另一个状态。

2）O用来表示一组被观察值的集合。O＝｛V1，V2，…，VM｝，M的含义是某状态可输出的不同观察值个数。

3）状态转移概率矩阵A＝｛aij｝，矩阵元素的含义是从一个状态转移到另一个状态的概率。aij＝P（qt＋1＝Sj｜qt＝Si）其中1≤i，j≤N。某些情况下，若任意两个状态之间都可以一步达到，则aij≥0，也就是说状态转移概率矩阵的元素值都大于0。

4）状态j时的观察概率矩阵B＝｛bj（k）｝是在状态为j的情况下，其相应观察值的概率求解方式为bj（k）＝P｛Ot＝Vk｜qt＝Si｝，其中1≤j≤N，1≤k≤M。

5）初始状态π＝｛π1，π2，…，πN｝，其含义是在初始时刻为某个状态概率，其表达式πi＝P｛q1＝Si｝，其中1≤i≤N。

HMM 模型的基本要素由五个部分组成，也可简写成λ＝｛π，A，B｝，前文提到HMM 模型是双重随机过程，在表达式中也体现了这一点，三个关键元素实际上可以分为两个部分，用π，A来说明马尔科夫链，即根据初始值和状态数可画个有向图，观察概率矩阵B来描述随机过程。

图1 情感分析模型结构图

3．2 情感分析模型

本文建立针对个体微博文本的情感分析模型，模型基本结构如图1所示。

其基本步骤为

1）微博文本情感提取，采用基于情感词典方法对微博文本基本情感进行提取。

2）微博情感量化分析，采用情感维度对提取情感进行量化。

3）利用HMM 对情感进行分析，完成情感状态转移概率研究，进行分析预测。

3．2．1 微博文本情感提取

本文的微博文本情感提取采用基于情感词典的方法，采用“知网”（Hownet）的语义词典，是一款为自然语言处理研究人员使用的一个共享软件。它是将汉语及英语词语所代表的概念作为描述对象，以展露概念之间、概念所包括的属性之间的关系作为基础内容的常识知识库。它所反映的内容包括概念的共性及个性，同时还展示了概念之间及概念的属性之间的各种关系。知网知识库内容包括中英双语知识词典、义原分类源文件、知网管理工具以及一些说明文件［11］。

本文采用基于知网的方法对微博文本中情感词以及否定副词和句法结构按文献［12］方法进行情感倾向判别，同时研究文本中副词、标点符号等采用文献［13］方法对情感倾向程度进行量化分析，同时采用文献［14］方法对评价的主客观进行分析判别。

3．2．2 情感维度量化

根据微博情感提取的情感倾向T、强度I以及主客观情感类型SI，采用PAD 情感维度方法构建情感空间。PAD 三维情感模型将情感分为愉悦度、激活度和优势度，其中P代表愉悦度，表示个体情感状态的正负特征；A代表激活度，表示个体的神经生理激活水平；D代表优势度，表示个体对其他事物的控制状态。

采用统计学方法建立个体微博文本情感特征：倾向T，强度I和主客观类型SI，同PAD 模型P、A和D之间的映射关系。研究不同个体已发布的300条带情感色彩的微博，通过基于知网的情感提取得到T、I和SI值，14 名专家针对各微博给出PAD 值，按照GEP算法［15］得到映射公式：

部分基本情感状态与PAD 模型空间存在对应关系［16］如表1所示。

表1 情感状态空间与PAD 空间对应表

3．2．3 基于HMM 情感分析

设计基于HMM 的情感分析模型，建立简单的六种情感状态的集合X＝｛Xi｝，Xi＝｛平静，高兴，愤怒，恐惧，悲伤，厌恶｝，微博文本的观测集合O＝｛Oi｝，Oi＝｛倾向Ti，强度Ii，主客观SIi｝，对微博文本按发布时间分为时间序列1，2，…，i，N，通过对应映射关系和隶属函数概率得到与集合X的对应。

HMM 模型进行微博文本情感分析，在给定模型的情况下观察序列O的概率，如何快速地选择在一定意义下“最优”的状态序列，使得该状态序列“最好地解释”观察序列，以及可能的模型空间，如何来估计模型参数，也就是说，如何调节模型｛π，A，B｝的参数，使得P（O｜λ）最大。

按照前后向递推法，由模型λ得到观察序列O的概率：

按照Viterbi算法，在给定观察序列O和模型λ的条件下t时刻处于状态S的概率：

采用Baum-Welch 算法用于情感模型的参数估计：

其中，φ为对向前变量a和向后变量β进行处理的比例因子，l为对应观察序列的序号。

那么建立HMM 情感分析模型如图2所示。

图2 微博文本情感分析HMM 模型框架

HMM 模型进行个体微博文本情感分析的基本步骤为：

1）设置模型初始值：隐状态数L＝6，观察状态数N＝3，初始情感为平静л＝（1，0，0，0，0）。

2）模型参数计算：使用训练样本按照上述方法得到转移概率矩阵A以及输出观察状态概率矩阵B，从而得到HMM 模型（A，B，л）。

3）分析对象状态提取：按天进行时间序列划分，进行文本情感提取倾向T0，强度I0，主客观SI0，利用隶属函数得到初始状态概率л0。

4）情感预测：根据初始状态л0和HMM 模型预测时间序列后的情感状态Ot＋1。

4 实例及分析

4．1 实验数据及指标

个体在日常生活中无重大外部时间刺激下，其情感发展和情绪变化具有相对稳定变化状态，其特点与个体本身特征相关。根据上述HMM 模型方法可以分析得到微博用户个体的情感状态转移变化过程，从而能对个体心理情感进步发展进行预测并及时予以疏导和干预。

本文选用新浪微博中某活跃用户P 连续发布的200篇微博，采用情感词典Hownet进行情感提取，按照映射公式得到PAD 值，并根据隶属函数和情感对照表1得到微博的六种基本情感状态，按照HMM 模型方法得到情感状态转移矩阵：

以及情感状态分布矩阵：

那么，矩阵A，B表征了用户P个体情感变化的固有稳定特征，结合某时刻T发布微博文本情感状态概率лt＝（1，0，0，0，0），按照HMM（лT，A，B，）模型得到最大概率情感状态序列，从而得到T＋t时刻的用户P的情感状态。

4．2 实验结果

对于该个体10个阶段不同初始状态的t＝10天发布的微博文本进行情感分析，预测10天后情感特点并根据实际发布的微博情感进行比较研究。发现10个分析案例中其中7个能得到很好预测，其余3个预测结果与实际出入较大，发现均为外部重大事件发生导致。分析可以得到以下结论：

1）在个体情感稳定情况下，模型能较好地预测分析个体情感发展。

2）在外部重大事件突发时，模型矩阵A，B以及部分参数应当进行调整。

3）模型具有较好的适应性，在多种初始状态情感和发展变化下，均能较好完成预测。

结合实例分析，对个体微博文本HMM 情感分析模型下一步可以从以下几点进行改进研究：

1）根据微博文本情感实时变化建立反馈参数，对模型进行调整。

2）对进一步研究个体应对外部时间刺激的反映程度对其稳定情感模型影响，并针对不同类型时间建立不同影响模型，从而实现对外部事件刺激模型建立的完善。

5 结语

微博已经逐渐成为个体表达情感重要途径，研究微博情感和预测个体情感发展具有重要意义。本文建立了基于HMM 的个体微博情感分析模型，通过微博文本情感提取，PAD 情感模型维度量化为HMM 分析做好数据准备，采用HMM 模型对个体情感发展进行分析得到个体情感状态变化稳定特征，并进行情感预测以实现及时心理疏导，通过实例研究发现该方法在无外部重大事件刺激下具有很好预测效果，下一步将针对外部事件刺激的情感变化进行研究，提高模型效能。

［1］Tracy J，Ramsey J．Emotions［M］．North Carolina：The Guilford Press，2001：21-25．

［2］中国互联网信息中心．第二十五次中国互联网发展状况统计报告［R］．中国互联网统计报告，2010（1）：1-10．

［3］李维杰．情感分析与认知［J］．计算机科学，2010（7）：11-16．

［4］Picard R W．Affective Compution［M］．London：MIT Press，1997：12-17．

［5］王良志．人工情感［M］．北京：机械出版社，2009：39-49．

［6］张颖，罗森林．情感建模与情感识别［J］．计算机工程与应用，2003（33）：98-102．

［7］Bo Pang，Lillian lee．Thumbs up：Sentiment Classification Using Machine Learning Techniques ［C］／／EMNLP'02，July 6-7，Philadelphia，USA，2002：22-240．

［8］魏韡，向阳，陈千．中文文本情感分析综述［J］．计算机应用，2011，31（12）：3321-3323．

［9］李开荣，孔照昆，陈桂香，等．基于改进隐马尔科夫模型的文本分类研究［J］．微电子学与计算机，2012（11）：161-165．

［10］李杰．隐马尔科夫模型的研究及其在图像识别中的应用［D］．北京：清华大学图书馆，2004：12-18．

［11］董振东，董强，郝长伶．知网的理论发现［J］．中文信息学报，2007，21（4）：3-9．

［12］党蕾，张蕾．一种基于知网的中文句子情感倾向判别方法［J］．计算机应用研究，2010（4）：1370-1372．