APP下载

Python自然语言处理方法在文本情感分析中的应用

2020-02-22张永成王怀彬

电脑知识与技术 2020年36期
关键词:自然语言处理情感分析深度学习

张永成 王怀彬

摘要:文本情感分析又被称之为意见挖掘,其基本原理是利用自然语言处理方法、文本挖掘方法以及计算机语言学方法等,对需要挖掘的主观信息进行识别和提取。通过开展Python自然语言处理方法在文本情感分析中的应用研究,从基于Python自然语言处理的文本预处理、文本情感特征降维、文本情感分类,提出一种全新的文本情感分析方法。通过实验证明,该方法与传统文本情感分析方法相比可有效降低对文本的判错率,保证最终情感分析的准确性,以期为Python自然语言处理方法的广泛应用提供新的路径。

关键词:深度学习;自然语言处理;情感分析;Python

中图分类号:TP181    文献标识码:A

文章编号:1009-3044(2020)36-0087-02

文本情感分析是对带有情感色彩的主观性文本进行分析、处理、推理等操作。文本情感分析自提出以来,受到了极大的关注,虽然在提出之前,该领域研究人员便已对情感分析进行了深入的 研究,但由于当时互联网并未得到广泛的应用,因此可以进行分析的数据量较少,所以当时情感分析并未得到大规模的研究。大数据时代的到来,使得网络环境中的信息量不断增加,如何更加便捷地从海量的文本当中挖掘出更加有意义的信息,是当前情感分析领域中最受关注的研究话题。Python自然语言处理方法与其他情感分析技术相比,具有易学、易读和易维护的优势,针对海量的文本信息进行分析可以在保证传统编译语言的强大性以及通用性的基础上,借鉴更加简单的脚本与解释语言的易用性[1]。除此之外,Python自然语言处理方法还具有网络爬虫功能以及强大的数据分析功能,将大多数编程语言融为一体。虽然其算法的本质仍然是采用传统神经网络或机器学习,但从应用角度可以看出,其在实际应用中操作更加简单,并且更加容易产生结果。综合上述分析,本文基于Python自然语言处理,提出一种全新的文本情感分析方法。

1 基于Python自然语言处理的文本情感分析方法

1.1 基于Python自然语言处理的文本预处理

在对海量文本信息进行情感分析时,第一步要对文本进行预处理,基本操作步骤是对文本信息当中所有包含词汇进行划分,并在划分阶段采用Python自然语言处理方法实现。Python自然语言处理可实现对文本分词、句法分析、语义分析以及篇章分析等功能,与字符相比,词是最小可以进行独立活动,并且含有一定意义的文本组成成分。因此,本文在对文本进行预处理时,采用将文本信息划分为多个词的形式,针对文本信息中的分词预处理可分为人工分词和机械分词两种,但由于传统人工分词会出现效率低、速度慢的问题[2]。因此,本文采用机械分词方法,结合计算机技术实现对文本的自动分词。利用Python自然语言处理中的字符串匹配分词,将文本中一串完整的字符串最长词条包含字符数量为x个,将其进行正向最大匹配,并进行分词预处理,按照从左到右的顺序提出x个字符,并将这x个字符看作是一个字符串,与对应的文本进行比较。若该字符串当中所有字符均与相应的文本匹配,则说明通过将文本词条分离处理后的词条为分词结果[3]。再从词条的第x个字符之后的一个字符开始,按照从左至右的顺序,再次寻找x个字符,并将寻找到的字符组成一个词条,再重新进行上述匹配操作。若匹配未成功,则将这一组x个字符组成词条,并将最后一个字符去掉。再从词条的第x个字符前一个字符开始,重复上述操作进行匹配,直到完成对文本中所有词差分为止[4]。针对存在两个或多个词条的互现文本,对其词条的共同出现概率可用公式(1)表示:

公式(1)中,L(M1,M2)表示为文本当中词语M1和词语M2出现相邻情况时的概率;L(M1)表示为词M1在语料库当中出现的次数;L(M2)表示为词M2在语料库当中出现的次数。根据公式(1)计算得出的结果可以充分将两个或多个词条之间的紧密程度反映。当得出的计算结果越高,说明该字符串能够构成一组完成词语的概率越大。

1.2 文本情感特征降维

利用Python自然语言处理完成对文本的预处理后,还需要对文本中的情感特征进行降维,通常情况下,对文本进行词条分类时,需要将每个词条看作是一个维度,因此对于篇幅较长、词条较多的文本,经过处理后会形成一个维度较高的特征空间[5]。通过文本情感特征降维可以有效提高分类算法的效率并将受到外界环境噪声的影响降到最低,使最终的分类准确度更高。根据卡方统计量计算公式,按照统计量衡量词条与情感标签之间存在的关联度,得出其公式如下:

公式(2)中,[χ2]表示统计量;[ai]表示为衡量词条;[Dj]表示为情感分类标签;[N]表示为训练文本当中共包含的文本量;[S]表示为包含在情感分类标签[Dj]并同时文本中也有词条[ai]的文档数量;[T]表示为不包含在情感分类标签[Dj]但文本中有词条[ai]的文档数量;[U]表示为包含在情感分类标签[Dj]但文本中没有词条[ai]的文档数量;V表示为不包含在情感分类标签[Dj]并且文本中也没有词条[ai]的文档数量。假设在计算过程中词条[ai]与情感分类标签[Dj]二者均满足有一阶自由度的[χ2]分布,则通过公式(2)得出的结果数值大,则表示词条与情感分类标签之间的关联程度大,其中携带的信息量也较多。反之,说明该词条与该类的关联程度小,所携带的该类别的信息量少。

1.3 文本情感分类

在本文提出的基于Python自然语言处理的文本情感分析方法中,文本情感分类是影响最终分析结果的主要因素,本文采用最简单、最基本的K近邻分类算法作为本文分析方法中的文本情感分类算法[6]。结合概率统计算法,对文本进行情感分类,利用得出的结果对各个待分析的本文所属情感类别可能性进行预测。最终根据计算结果得出数值最大的情感类别作为最终结果。假设,给定一个已经完成降维处理后的文本测试数据集。定义一种距离的度量方式,并在训练过程中查找出距离最近的K个训练样本。则在这K个训练样本当中,某一类的训练样本最多,根据概率统计将输入的训练样本归为一个情感分类标签[7]。具体计算过程为:第一步,输入训练文文本测试数据集:Q={(a1,d1),(a2,d2),…,(an,dn)},其中a∈A表示为输入训练文本中的特征向量,d∈D表示为所属情感类别。第二步,输出与训练文本a相对应的情感类别d。第三步,根据分类前事先給定的计算距离数值,在文本测试数据集当中找出与设定距离最近的K个点,将覆盖所有点的区间定义为a的领域。第四步,在a的领域当中根据投票规则,按照少数服从多数,判断a所述的情感类别。第五步,由输入的训练文本的K个邻近训练文本中的大多数决定所述的情感标签,实现文本情感分类。

2 实验论证分析

选取某部电影的评论词条组成一个完整的文本,将该文本作为实验对象,实验对象中字符为2434个,需要进行分析的字符为1200个。分别利用传统文本情感分析方法与本文提出的基于Python自然语言处理的文本情感分析方法对该文本进行情感分析。针对电影文本当中主体的特殊性以及机器分析的机械性,为保证实验结果的有效性,利用两种方法分析时,将文本中“一个”这样类似的无效词汇自动屏蔽。将两种分析方法得到的结果进行记录,并绘制成如表1所示的实验结果对比表。

由表1可以看出,本文方法与传统方法在对含有1200个字符的文本进行情感分析时,随着字符数的增加,两种方法判错率均随着字符数的增加而表现出降低的趋势。但从整体来看,本文在对1200个字符的文本进行情感分析时判错字符量明显少于传统方法,并且在对600个字符进行分析后,基本可以实现准确的判断与分析。因此,通过实验证明,本文提出的基于Python自然语言处理的文本情感分析方法判错率更低,对文本情感分析准确,并且随着文本中的字符数增加,分析更准确。

3 结束语

本文结合Python自然语言处理方法,提出了一种全新的文本情感分析方法,在实际应用中可以在一定程度上,有效降低在文本分词过程中信息的缺失程度,提高最终分析结果的准确性。但本文采用了K近邻分类算法在实际应用中会受到K值选择、文本长度等因素的影响,仍然存在分析受到影响的情况。利用机器处理实现对文本情感分析仍然是从数学统计的角度融合自然语言处理,而情感是一个十分复杂的研究课题。因此,在后续的研究中还将针对机器对人类情感深入、细腻的把握与分析进行更加深入的研究,并采取更加精确的分类算法,实现对文本的无判错情感分析。

参考文献:

[1] 陈珂,梁斌,左敬龙,等.一种用于中文微博情感分析的多粒度门控卷积神经网络[J].郑州大学学报(理学版),2020,52(3):21-26,33.

[2] 徐红霞,于倩倩,钱力. 基于主题模型和情感分析的话题交互数据观点对抗性分析[J]. 数据分析与知识发现,2020,42(7):110-117.

[3] 杨秀璋,武帅,夏换,等.基于主题挖掘和情感分析的 “新冠肺炎疫情” 舆情分析研究[J].计算机时代,2020(8):31-36.

[4] 成永坤,朱菊芳,牟向前. 滑雪游客的产品认知、情感表达及满意度——基于网络评价文本分析[J].体育成人教育学刊,2020,36(4):15-21.

[5] 杨莉,王敏,程宇.基于LDA和XGBoost模型的环境公共服务微博情感分析[J].南京邮电大学学报(社会科学版),2019,21(6):23-39.

[6] 李佳晶,尹华光. 基于网络文本分析的张家界市旅游酒店游客生态文化感知研究[J].旅游纵览(下半月),2019,31(12):62-64,67.

[7] 刘惠,赵海清.基于TF-IDF和LDA主题模型的电影短評文本情感分析 ——以《少年的你》为例[J].现代电影技术,2020(3):42-46.

【通联编辑:梁书】

猜你喜欢

自然语言处理情感分析深度学习
基于组合分类算法的源代码注释质量评估方法
在线评论情感属性的动态变化
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望