基于约束型LDA的评价对象-情感词关联关系提取
2021-11-03万红新彭欣悦
万红新 彭欣悦
DOI:10.19850/j.cnki.2096-4706.2021.08.008
摘 要:随着社交媒体的发展,网络上产生了大量的评论类文本数据,这些数据蕴含了丰富的情感信息。对这些文本数据进行情感极性分类,需要提取评价对象-情感词的匹配关系。文章提出了基于约束LDA主题模型的评价对象-情感词关系提取模型CE-LDA,将语义先验知识嵌入到LDA模型,在有效提取评价对象和情感词的同时,发现它们之间的关联性。通过实验分析,CE-LDA模型对于评价对象和情感词及其关联关系的提取具有较好的效果。
关键词:语义知识;主题模型;约束嵌入;情感分类
中图分类号:TP311 文献标识码:A 文章编号:2096-4706(2021)08-0027-03
Extraction of Association Relationship between Evaluation Object and
Emotion Words Based on Constrained LDA
WAN Hongxin,PENG Xinyue
(School of Mathematics and Computer Science,Jiangxi Science & Technology Normal University,Nanchang 330038,China)
Abstract:With the development of social media,a large amount of comment text data has been generated on the internet,which contain rich emotion information. To classify the sentiment polarity of these text data,it is necessary to extract the matching relationship between the evaluation object and the emotion words. An the evaluation object and the emotion words relationship extracting model CE-LDA based on the constrained LDA topic model is proposed,which embeds semantic prior knowledge into the LDA model,and discovers the relevance between evaluation object and emotion words while effectively extracting them. Through experimental analysis,the CE-LDA model has a good effect on the extraction of evaluation object,emotion words and their associated relationships.
Keywords:semantic knowledge;topic model;constraint embedding;emotion classification
0 引 言
互聯网的发展普及使得网络上产生了大规模的评论类文本数据。如何有效提取海量文本中存在的情感知识,是文本数据挖掘面临的挑战问题。应用情感分析技术可以对评论类文本进行情感极性分类,了解舆情走向,从而实现舆情管控和疏导。要有效实现情感分类,首先要能够提取评价对象和情感词,并发现它们之间的匹配关系,在此基础上才可能进行情感分析。
现有评价对象-情感词提取模型和算法存在的主要问题有:
(1)语义先验知识的提取。中文文本语义结构复杂,模型对于中文语义难以理解,需要提取语义信息引入到模型。
(2)中文文档的有效表示。网络文本的数据量极其庞大,需要有效降低文档表示的向量维度。
(3)模型的语义嵌入。需要设计有效的语义知识嵌入机制,提高模型对中文文本的语义理解能力。
针对已有模型在评价对象和情感词提取中存在的问题,本文提出了加入语义知识的CE-LDA(Constraint Embedded LDA)模型,提升模型对于复杂文本中评价对象和情感词的识别度。
1 研究现状
LDA(Latent Dirichlet Allocation)主题模型[1]是一种概率型文本生成模型,可以利用模型进行关键词聚类,从而提取评价对象、评价词及其关联关系。
谭旭等(2018)[2]结合文本解析和深度学习来实现文本数据的多层次特征选择及情感极性分类,并结合LDA模型和时间序列分析实现动态的多粒度的情感分析;Titov等(2008)[3]将LDA主题模型扩展为广粒度的MG-LDA(Multi-Grain LDA)模型,进行了全局评价对象和局部评价对象的区分;Lin等(2009)[4]对LDA模型进行改进,将情感特征作为层结构加入LDA,设计了JST(Joint Sentiment Topic)模型来抽取评价对象和评价词;Ozyurt等(2020)[5]考虑到数据稀疏问题和缺乏共现模式,设计了SS-LDA(Sentence Segment LDA)模型用于提取商品特征属性;Thenmozhi等(2019)[6]提出了基于LDA的话题提取模型,跟踪和分析可以为各种领域的决策意见提供参考的情感信息;Albuquerque等(2019)[7]提出了基于适用于不同类型数据的Rlda分析模型:模型的数据聚类分析可以应用于生态、遥感、营销和金融等不同领域;彭云等(2017)[8]提出了语义关联介入的SRC-LDA(Semantic Relation constrained LDA)模型,用语义先验知识嵌入到LDA模型,提高模型对于上下文关系的理解力;Lu等(2011)[9]利用种子词语来强化主题和评价词之间的关系,提出了STM(Sentiment Topic Model)主题模型,可以实现文档级别和句子级别的主题提取;Park等(2019)[10]通过基于LDA的主题建模来识别和预测文本主题信息,在加权参数的帮助下提取与未来相关的风险主题;崔雪莲等(2018)[11]基于LDA模型提出了无监督的评论文本的情感分析主题模型,利用情感词典的词语褒贬性进一步计算,从而获取情感极性分类。
2 模型设计
在LDA模型中嵌入词语的语义关系先验知识,来影响LDA模型的词语属于主题的概率分布,发现更多的符合语义要求的评价词和情感词,并通过主题聚类来挖掘它们之间的关联关系。语义关系主要考虑评价对象词语之间的主题必然关系和互斥关系。
2.1 评价对象之间的必然语义关系
必然语义关系是指这类评价对象词语在主题分布中,尽可能地分配到同一主题。评价对象的必然语义联系主要考虑同义词,同义词在主题分配时,分配到同一主题的概率要高于非同义词,这样可以提高主题对于评价对象的内聚度,如商品评论中的“价格”“价位”和“价码”等词语,如图1所示,其中有边直接连接的评价对象具有必然语义关系。利用同义词词典可以实现评价对象的必然语义关系。
2.2 评价对象之间的互斥语义关系
利用句法依存和词性分析,可以实现互斥语义关系的提取,如以上2个例句中的评价对象可表示为如图2所示,其中有边直接连接的评价对象具有互斥关系。
互斥语义关系是评价对象词语在主题分布中,尽可能地分配到不同主题。这种关系可以从句式结构中进行挖掘,一般一个完整句子中评价对象不会重复出现,如商品评论中的句子“不但价格合适,而且外形也很漂亮”“色彩很亮,重量很轻,运行速度也飞快!”等,这些句子中的评价对象基本不会重现,可以利用这种互斥关系来影响主题的词语分配。
2.3 CE-LDA模型设计
CE-LDA模型在标准LDA模型基础上,将提取的语义信息引入到主题-词语分配,提高LDA模型的语义关系理解能力。
2.3.1 語义约束
在词语进行主题分配时,查找词语的必然语义关系集合Sm和互斥语义关系集合Sc,如果词语存在于相应集合中,则和主题已分配的词语进行关系确认,并找出已分配词语和当前词语的关系。如果主题与词语关系属于Si,则增加当前词语属于该主题的概率,否则减少属于该主题的概率。
2.3.2 CE-LDA模型
CE-LDA模型依然保持为三层结构:文档层、主题层和词语层。只是在主题-词语分配时,需要根据当前词语与已分配主题词语的必然关系和互斥关系进行概率的调整。CE-LDA模型设计如图3所示,符号说明如表1所示。
2.3.3 评价对象和情感词关联关系提取算法
算法主要考虑主题-文档分布θ、主题-词语分布φ以及受约束的主题-词语分布φm和φc,具体步骤为:
(1)选择主题分布θ~Dirichlet(α)。
(2)选择词语分布φ:
1)if(r=1)选择词语分布φc~ζc·Dirichlet(β);(ζc是互斥语义关系权重参数)。
2)else if(r=2)选择词语分布φm~ζm·Dirichlet(β);(ζm是必然语义关系权重参数)。
3)else选择分配概率φ~Dirichlet(β)。
(3)对于待分配的文档词语w:
1)主题分布概率z~θ。
2)if(w∈Sm)选择词语w~φm。
3)if(w∈Sc)选择词语w~φc。
4)else选择词语w~φ。
(4)文档-主题分布参数θ和词语-主题分布参数φ如式(1)和(2)所示。
3 实验比较和分析
实验数据来源于淘宝购物平台用户的“平板电脑”商品评论文本数据,共采集98 647篇文档,包含374 632个句子。对商品评论文本数据的评价对象-情感词的关联关系提取进行比较,主要考察关系提取的召回率,对比的模型包括:JST模型、STM模型和CE-LDA模型。用召回率来评估评价对象-情感词的关联关系的提取率,如图4所示。其中,横坐标表示主题个数,纵坐标表示召回率。
从图4不同模型的召回率对比可以发现,随着主题个数的增加,召回率都在提升,这是由于主题词语增加后,必然会发现更多的关联关系。CE-LDA模型的提取率优于其他模型,尤其是当主题数设置为90~120个时,其他模型的关系提取率没有显著提升,而CE-LDA模型的提取率明显高于其他模型。由于在CE-LDA模型中嵌入了2类语义约束,使得主题内部的内聚度提高,而主题之间的耦合度减少。
4 结 论
在海量的中文网络文本数据挖掘中,复杂的语义关系增加了评价对象和情感词的挖掘难点。CE-LDA模型对现有LDA模型进行了改进,提出了约束型的LDA主题模型,将词语间的必然语义关系和互斥语义关系加入LDA。通过对不同模型的评价对象和评价词关联关系提取进行比较和分析,发现本文提出的CE-LDA模型的召回率优于其他模型。通过实验数据表明,在LDA模型中引入语义先验知识,可以改善LDA概率型模型对于词语语义关系理解的不足,在主题-词语分配中提高词语的主题内聚度,同时降低词语的耦合度,提升主题对词语关系的识别度和区分度,从而更有效地提取评价对象词、情感词及其之间的关联关系。
参考文献:
[1] BLEI D M,NG A Y,JORDAN M I. Latent Dirichlet Allocation [J].Journal of Machine Learning Research,2003,3(3):993-1022.
[2] 谭旭,吴俊江,徐磊,等.面向深度学习的多维度中文网络舆情分析 [J].小型微型计算机系统,2018,39(7):1471-1477.
[3] TITOV I,MCDONALD R. Modeling online reviews with multi-grain topic models [C]//Proceedings of the 17th international conference on World Wide Web(WWW).New York:Association for Computing Machinery,2008:111-120.
[4] LIN C H,HE Y L. Joint sentiment/topic model for sentiment analysis [C]//Proceedings of the 18th ACM Conference on Information and Knowledge Management(ACM CIKM).New York:Association for Computing Machinery,2009:375-384.
[5] OZYURT B,AKCAYOL M A. A new topic modeling based approach for aspect extraction in aspect based sentiment analysis:SS-LDA [J].Expert Systems with Applications,2020,168:114-231.
[6] THENMOZHI M,INDIRA R,DHARANI R. Using Lexicon and Random Forest Classifier for Twitter Sentiment Analysis [J].International Journal of Computer Science and Engineering,2019,7(6):591-594.
[7] ALBUQUERQUE P,VALLE D,LI D J. Bayesian LDA for mixed-membership clustering analysis:The Rlda package [J].Knowledge-Based Systems,2019,163:988-995.
[8] 彭云,万常选,江腾蛟,等.基于语义约束LDA的商品特征和情感词提取 [J].软件学报,2017,28(3):676-693.
[9] LU B,OTT M,CARDIE C,et al. Multi-aspect Sentiment Analysis With Topic Models [C]//Proceedings of the 11th IEEE International Conference on Data Mining Workshops(ICDMW).Vancouver:IEEE,2011:81-88.
[10] PARK I,YOON B,KIM S,et al. Technological Opportunities Discovery for Safety Through Topic Modeling and Opinion Mining in the Fourth Industrial Revolution:The Case of Artificial Intelligence [J].IEEE Transactions on Engineering Management,2019,99:1-16.
[11] 崔雪莲,那日萨,刘晓君.基于主题相似性的在线评论情感分析 [J].系统管理学报,2018,27(5):821-827.
作者简介:万红新(1970—),女,汉族,江西南昌人,教授,硕士,研究方向:数据挖掘、软件工程;彭欣悦(2001—),女,汉族,江西宜春人,研究方向:软件工程、数据库技术。
收稿日期:2021-03-16
基金項目:江西省高校人文社科项目(JC191 17);江西省教育厅科技项目(GJJ201127);江西科技师范大学大学生创新创业训练计划项目(2021 11318002)