基于改进LDA的细粒度主题建模方法研究①

2022-11-22李慧宗

佳木斯大学学报（自然科学版） 2022年5期

邰悦, 葛斌 , 李慧宗

(1.安徽理工大学计算机科学与工程学院,安徽淮南 232001; 2.南阳师范学院计算机科学与技术学院,河南南阳 473061)

0 引言

随着互联网与信息技术的快速发展，新浪微博、亚马逊等互联网平台的快速普及，各类各样的网络数据出现爆炸式增长，其中社会化标签的用户评论数据是这些网络数据中的重要组成部分。对于电商平台而言，社会化标签数据具有自发性，这些数据源于用户对自己购买过或者感兴趣的物品进行评价、标签(tag)或者总结[1]。电商平台也会根据商品种类或者用户评论类别进行标记(label)和分类，对于这些数据信息进行主题识别具有重要意义。目前处理这类数据有一些传统方法，如LSA[2]，PLSA[3]，LDA[4]等。LDA的提出得到了广泛应用，在无监督主题模型中具有重要意义，许多研究人员在LDA基础上进行了改进和应用[5-6]。Ekinci等[7]提出一种Concept-LDA主题模型，可以有效针对评论系统进行情感分析。Wu等[8]提出SKP-LDA的短文本聚类算法。由于微博中短文被赋予了情感性，通过对情感词共现和知识对特征提取，并插入LDA中获得语义信息，最终采用K-Means获得聚类。但是这些方法无法有效利用数据标记(label)进行主题建模，依旧以无监督学习方式去实现主题识别，无法有效判断该语料库属于哪一个模块或者场景，从而造成生成的主题分布存在不相关主题词等主题语义混乱问题，在主题粒度上更为粗糙。针对该类问题，对LDA模型进行以下改进：(1)引入TextCNN深度学习方法并进行改进，有效利用标记数据，实现语料库的分类；(2)将改进的分类方法与传统LDA结合形成有监督学习，实现细粒度主题建模。

1 基于深度学习的主题建模

1.1 文本分类模型

TextCNN[9]是卷积神经网络在文本分类问题上的变形，如图1所示。通过设置不同的卷积核大小，实现对不同大小的局部区域特征提取，使得神经网络提取到的特征向量和权重具有多样性和代表性。与传统CNN一样，由卷积层、池化层、特征融合层和全链接层组成。

1.2 主题模型

PLSA模型在两层概率分布的基础上对整个样本空间建模，可以有效的提取“主题-词”这一关系，但是PLSA容易存在着过拟合以及在大批次数据集上存在运算速度慢的缺陷。在PLSA的基础上LDA(Latent Dirichlet Allocation)随之被提出，如图2所示。

在LDA模型中，主题分布和词分布是由狄利克雷先验生成。在采样过程中通过吉布斯采样方法生成出对应的主题和词,该模型也成为了目前主流的产生式概率模型。

2 基于改进TextCNN的细粒度主题识别方法

2.1 改进的文本分类方法

通过引入注意力机制思想，提出一种基于注意力的文本卷积神经网络 (Attention-TextCNN, ATT-TCNN)，ATT-TCNN模型如图3所示。具体方式如下：

通过相连操作之后，特征信息通过全局平均池化方法，特征向量转变为通道的向量，并且进行均值化，全局平均池化方法汇总了空间通道信息，对传入的上一层输出，赋予空间特点通道特点，同时全局平均池化方法作为一个结构化的正则器，缓解了训练过程中的过拟合问题。使用Sigmoid激活函数，对模型学习和非线性函数有重要的作用，引入非线性因素，把当前特征空间通过一定的线性映射转换到另一个空间，Sigmoid函数能够映射到(0,1)区间，使模型具有非线性的映射能力。最后将主分支和侧分支的特征向量进行相乘操作，赋予原先的主分支空间通道信息，加强了网络的特征信息识别和传播能力，并且将Relu6作为激活函数作用于ATT-TCNN。

2.2 ATT-TCNN-LDA主题模型

神经网络模型在文本分类上具有较好的分类效果且具有较高的分类精度。通过将有监督的神经网络模型与传统无监督的LDA模型进行融合，在ATT-TCNN作为分类器的基础上，提出一种基于ATT-TCNN的LDA(ATT-TCNN-LDA)有监督主题模型。

ATT-TCNN-LDA通过融合ATT-TCNN文本分类模型和LDA主题模型用于细粒度主题识别，ATT-TCNN-LDA模型如图4所示。具体建模方法如下：

将带有标记的文本语料库作为ATT-TCNN的文本输入，通过ATT-TCNN的迭代学习获得带有标记的分类语料库；针对每个分类语料库，引入LDA主题模型进行主题识别，分别形成对应的主题簇。

对于第i个分类簇LDA模型，根据词分布和主题分布进行Gibbs采样，其中词分布和主题分布为：

(1)

(2)

(3)

(4)

3 实验与结果分析

3.1 实验数据集与评价方法

为验证提出的ATT-TCNN-LDA模型有效性，在Amazon公开数据集下的Books，Digital Music，Baby三个类别上进行实验，在Books，Digital Music上验证二分类建模效果，记为Amazon-2C。在Books，Digital Music，Baby上验证多分类效果，记为Amazon-3C数据集。Amazon-2C实验数量为18000条，Amazon-3C为27000条。

ATT-TCNN-LDA分为两个模块，分别是基于ATT-TCNN的文本分类模块和基于ATT-TCNN-LDA的主题识别模块，采用两种评价方法进行实验。在分类器模块中与TextCNN进行对比，在主题识别模块中与LDA进行对比。分类器的准确率效果直接影响到ATT-TCNN-LDA的细粒度识别效果，分类器模块以准确率(Accuracy，Acc)为评价标准，针对文本分类模型ATT-TCNN采用Acc为评价指标，其计算方法如式(5)：

(5)

对于主题识别模块采用主题间平均相似度作为评价指标[10]，在本文中主题间相似度越高说明主题相似性越强，主题之间的粒度更细，主题观点和语义更明显则效果越好。为了获得有效且有意义的主题，取100个最相关的主题词作为生成主题词，则采用的主题间平均相似度(Avg_ Similarity)计算方法如(6)，(7)：

(6)

其中

(7)

K为主题数，V表示生成主题词数。

3.2 参数设定与结果分析

每个模块都需要进行参数设定，在文本分类模块中批量大小为128；学习率为0.001；交叉熵函数作为损失函数；一个周期(Epoch)为1次正向和反向传播，Epoch设定为500，优化器为Adam；训练集和验证集比例为2:1。

在主题识别模块实验中，先验超参数α=50/K，β=0.01。ATT-TCNN-LDA每个主题簇设定主题数集合K在区间[10,100]中每次按10个主题递增。为了体现不同条件下的实验效果，分为不同主题簇与LDA的对比，LDA主题数设为K，以及全部主题簇与LDA的对比，LDA主题数则为nK，例如采用三分类来验证多分类情况，则n=3。

图5(a)-(b)分别为在Amazon-2C和Amazon-3C进行TextCNN和ATT-TCNN的准确率对比情况。图5可以看出无论在二分类还是多分类上ATT-TCNN都具有较好效果，在二分类上相对于TextCNN平均提升0.31%，在多分类上最优情况下ATT-TCNN相对于TextCNN提升约0.39%，平均提升约0.35%。体现了ATT-TCNN在多分类上相对于TextCNN依旧具有优势。

图6和图7分别是ATT-TCNN-LDA和LDA在不同条件下的主题间平均相似度对比。图6(a)，6 (b)分别为各模型在二分类和多分类下，ATT-TCNN-LDA各个主题簇平均相似度与LDA的对比。可以看出ATT-TCNN-LDA各个簇在K=60和K=90达到最优聚类主题数，平均相似度分别优于LDA约36%和29%。图7(a)， 7 (b)分别是各模型在二分类和多分类下，ATT-TCNN-LDA和LDA生成的所有主题平均相似度对比。可以看出，无论在二分类还是多分类上都具有明显优势。

4 结语

对于传统主题模型而言，大多数都是基于无监督学习的模型，无法有效利用其标记信息，在建模过程中数据具有独立性和复杂性，导致生成的主题语义混乱、复杂、不清晰以及主题不够鲜明。提出一种改进的LDA细粒度主题识别方法，通过结合深度学习方法形成有监督主题模型，可以有效提升生成的主题粒度，主题语义更为鲜明，表达更为直观。经过实验表明，方法在文本分类效果和最终生成的主题语义效果上与其他模型相比都具有提升效果。但是方法存在和深度学习其他领域中相似度的问题，对于新的未知标记数据的处理，这也是下一步的研究重点。