基于SVM的文本情感倾向性智能分析方法

2021-11-11王冰毕新伟

赤峰学院学报·自然科学版 2021年10期

王冰　毕新伟

摘要：情感分析属于一项具有强大实用价值的分类技术，可以识别出文本中隐藏的观点。为方便用户获取所需文学作品，本文提出基于SVM的文本情感倾向性智能分析方法。利用向量空间模型计算用户模型与文本匹配度模型的向量相似程度，增强文本信息的结构化特征，完成文本信息预处理;建立否定词、条件词等情感资源，确定特征提取规则，通过计算互信息值，以阈值高低为依据做特征提取，降低特征维数;将文本特征作为训练数据，获取分类线方程与分类间隔，求出最佳分类平面，明确情感倾向所属类别，再采用Logistic回归模型分析出情感倾向程度。仿真实验证明，该方法的查准率与查全率较高，表现出较好的情感智能分类性能。

关键词：支持向量机;文学文本;情感倾向;智能分析;特征提取

中图分类号：TP391 文献标识码：A 文章编号：1673-260X（2021）10-0016-04

1 引言

文学文本表示组成文学语言艺术品的语言系统，是表达人生体验的特殊语言结构，可分为诗歌、小说、散文等形式。随着科学技术的日新月异，如何从海量文学作品中选出优秀的文本对读者而言非常重要。文本情感倾向分析是计算机、智能信息与自然语言处理领域中较为活跃的分支。通过对文本主观内容进行过滤分析，识别并判断该内容表达的真正含义。在如今信息“沸腾”的时代背景下，每天会产生大量的新的文本数据，所以需要对这些内容进行高效分析，识别出情感倾向，方便用户获取想要的文学作品。

为满足上述需求，相关学者提出如下情感倾向分析方法。陈潇^[1]等人以半监督问答为基础，对文本数据进行褒义、贬义的分类。对已经标注过的文本与未经标注的文本进行分析，建立异构网络，再通过该异构网络获取相关词的向量，并将获取的词的向量在可分层匹配的情感分类模型中应用。王立志^[2]利用改进粒子群优化的方法实现文本情感分析。利用word2vec词向量加权的方式量化信息，再将该信息作为可识别输入;引入交叉算子将粒子群的算法进行改进，并且交叉算子还可对损失、惩罚与核等函数进行优化，实现文本情感分类。

但是上述两种方法没有准确的提取文本特征，包括一些重要的情感词与依赖关系等，影响情感倾向分析的准确性，给读者带来不便。为解决这一问题，本文的文本情感分析采用支持向量机（Support Vector Machine，SVM）进行。SVM是个较为智能的学习模型，具有监督功能，如实际存在非线性情况，可采用映射函数利用现有文本建立线性函数分类。此种空间转换可使该模型的分类能力大幅提高，有效解决了关于维数的灾难问题，本文模型还采用更有效的文本特征提取方法，进一步提高文本分析精度。

2 基于SVM的文本情感倾向性智能分析

2.1 文本数据预处理

文本通常表现为字符串，表达丰富的信息，但是不能直接用于情感分析。数据预处理是文本情感倾向分析的必经阶段，主要目的是将计算机不能识别的、海量非结构化数据进行处理，使其满足计算机处理要求。

本文对数据进行预处理可采用向量空间模型（Vector Space Model，VSM）的方式^[3]。向量空间大都是利用自然语言查询，基于此，可将查询结果作为一个小信息处理，则在向量空间内的某一信息项可被表示为：

公式中，n代表全部索引项，w_jn则表示信息项内索引项的权重。

设定D_j为文本项，k_i为索引项，k_i在D_j中的出现频率为tf_i，j，逆文档率为idf_i，文本项数量越多，逆文档率越小，词语w的区分能力就越好，其中对于索引项权重的计算利用TD-IDF（Term Frequency-Inverse Document Frequency）方法进行，其计算公式如下：

假设全部索引项k_i是相互独立的，通过对上述相似度度量值的计算即可完成数据预处理，使所有文本信息具有结构化特性，为特征文本特征提取奠定基础。

2.2 基于互信息值特征提取

根據文本数据预处理结果可知，处理后的文本的特征向量较多，如果不对其中的关键词语进行选择，则会产生维数灾难[5]，提高计算复杂性。所以需利用特征提取的方式去除关联性不强的特征，降低特征维数。

2.2.1 情感资源建立

本文对文学文本中的部分否定词、条件词语转折词等进行分析，建立情感资源。

收集程度副词，计算不同强度值，程度副值与强度如表4所示。

2.2.2 特征提取规则

本文共制定如下五条特征提取规则：

（1）文本中的关键词特征，确定名词、动词、形容词与副词数量。

（2）否定词特性，将总次数对2取余，如果值为1，此时情感词的极性相反;如果值等于0，情感词极性不发生变化。

（3）程度副词特性，如果情感词前面有程度副词，则文本情感强度随之变化。

（4）条件句式特性，若情感词前面出现条件词，则条件句式特性值等于1，反之为0。经过对随机语料的分析，条件词对情感表达强度有弱化作用。

（5）转折句式^[6]特性，当情感词前面只有一种转折词时，则判定情感词极性为反;如果为两种，则表示不发生变化。

2.2.3 文学文本特征提取

特征提取利用数学形式表示即为从初始特征集合T={t_1，t_2，…，t_n}内选择一个真子集合T′={t_1，t_2，…，t_n′}，其中n′≤n，则提取后的特征数量小于初始特征数量。本文通过计算互信息值（Mutual Information，MI）的方法来进行文本特征提取。

互信息值实质描述的是两个事件集合之间存在的关联性，针对特征提取而言，互信息表现出词条t′与类别c_i存在的相关性，表达式如下：

公式中，i表示类别数，p（t）代表t在训练集合中出现的次数，p（t′|c_i）表示t′和c_i一同出现的概率。针对计算得的全部MI值，进行由高到低排序，将阈值较高的词条当作特征词。本文特征提取流程如图1所示。

2.3 潜在语义分析

经过上述特征提取后，能够获取文本较为显著的特征，但是没有考虑“一词多义”的问题，因此，还需进一步对潜在语义进行研究。

首先确定如下概率变量：P′（D_j）表示文本集合中选取文本D_j的概率，P′（w_j|z_k）代表在潜在变量z_k约束下，某词语w_j的条件概率，P′（z_k|D_j）为潜在变量^[7]中文本D_j的概率分布情况。

根据以上定义，经过下述步骤可构成一个生成模型：

步骤一：结合P′（D_j）随机选取一个文本D_j。

步骤二：在文本D_j基础上，通过P′（z_k|D^j）选取文本表达的潜在变量zk。

步骤三：获得一个不具有潜在变量的观察变量对（d_i，w_j），将生成过程变为联合概率分布形式：

构建完生成模型后，通过最大相似性表达式来确定参数，实现潜在语义挖掘。表达式如下：

2.4 情感倾向智能分析

将上述获取的文本表明特征与潜在特征当作训练数据，利用SVM构建分类器模型，即一个决策函数[8]。该模型可以接受没有类别标签的新样本输入。

基于SVM的情感倾向分析的实质就是在n′维特征空间中确定最大间超平面，该平面能够将不同种类数据最大程度进行区分。基本思路图如图2所示。

在图2中，H为分类线，H_a與H_c为穿过各自分类线最近的数据点且和分类线相互平行的直线。

最优分类线不但能正确划分两种不同类型的数据，还能最大程度划分类间隔。获取分类线的方程式如下：

公式中，w′表示斜率^[9]，属于一个常数，x′是横向坐标值，b为一个常数。

在对文本进行情感分析时，对公式（12）做归一化处理，确保数据点集合（x′i，y′i）在满足公式（12）的同时也符合下述公式要求：

Logistic回归属于一种数据挖掘[10]方式，其回归函数不仅持续递增，还和线性回归方程存在递减一致性，所以可通过该回归函数表示文本情感强度。具体过程是：利用回归函数使变量的无穷区间映射在[0，1]中，通过设置合理阈值来调节分类区间，构成持续特征表示。

在反映文本情感倾向性强度过程中，在SVM分类基础上，使用Logistic函数的持续性表示情感趋势强度的走势。假定g（x″）=a′x″+b′代表初始线性方程，g（x″）是文本分类函数，且满足SVM分类面条件，则与其相对的Logistic回归强度函数表示为：

3 仿真实验分析

为评价不同方法对于文本情感分析的准确性，实验语料库利用Python开发的网页从当当网中获得文学文本信息。实验环境中存在五个节点，分别为2个Master与3个Slave，操作系统是Ubuntu14.04。为准确评价出文献[1]、文献[2]与本文方法的分析性能，利用查准率、查全率和F值三个指标进行评价。

在已知不同文学分类文本特征情况下，文献^[1]、文献^[2]与本文方法的情感倾向分析结果如表5、6和7所示。

由实验结果可知，随着特征种类的增多分类结果表现出良好特性，指标值都有明显提高。其中本文方法在无论在哪种特征组合下，都能表现出良好的情感倾向分析性能。这是因为支持向量机具有较强的学习能力，通过最优分类平面准确划分文本情感倾向，使情感分析更加智能化。

4 结论

本文利用SVM方法在多维特征空间中找出最大间隔超平面，通过该平面实现文学文本情感倾向分类，在Logistic基础上确定每种情感强度，完成情感倾向智能分析。实验证明所提方法的查准率、查全率与综合评价值均较高，表现出良好的分析性能。但是也存在一些不足，有待进一步改进。结合已有成果，后续工作主要研究可以自动完善情感词典，对于网络不断出现的情感词，能够及时更新，但是由于本文只考虑了简单词语对情感的影响，在今后研究中还需增加一些复杂句式。

参考文献：

〔1〕陈潇，李逸薇，刘欢，等.基于网络表示的半监督问答文本情感分类方法[J].郑州大学学报（理学版），2020，52（02）：52-58.

〔2〕王立志，慕晓冬，刘宏岚.采用改进粒子群优化的SVM方法实现中文文本情感分类[J].计算机科学，2020，47（01）：231-236.

〔3〕陈郑淏，冯翱，何嘉.基于一维卷积混合神经网络的文本情感分类[J].计算机应用，2019，39（07）：1936 -1941.

〔4〕党莉，陈锻生，张洪博.对抗长短时记忆网络的跨语言文本情感分类方法[J].华侨大学学报（自然科学版），2019，40（02）：117-122.

〔5〕吴鹏，李婷，仝冲，等.基于OCC模型和LSTM模型的财经微博文本情感分类研究[J].情报学报，2020，39（01）：81-89.

〔6〕赵传君，王素格，李德玉.跨领域文本情感分类研究进展[J].软件学报，2020，31（06）：143-166.

〔7〕吴小华，陈莉，魏甜甜，等.基于Self-Attention和Bi-LSTM的中文短文本情感分析[J].中文信息学报，2019，33（06）：100-107.

〔8〕林世平，林松海，魏晶晶，等.融合知识图谱的文本情感分析[J].福州大学学报（自然科学版），2020， 48（03）：269-275.

〔9〕张新生，高腾.多头注意力记忆网络的对象级情感分类[J].模式识别与人工智能，2019，32（11）：997 -1005.

〔10〕王名扬，吴欢，贾晓婷.结合word2vec与扩充情感词典的微博多元情感分类研究[J].东北师大学报：自然科学版，2019，51（01）：55-62.