APP下载

基于ATM并行化采样优化算法的研究

2018-06-25黄启萍

长春师范大学学报 2018年6期
关键词:扩展性语料单词

童 威,黄启萍

(1.安徽文达信息工程学院,安徽合肥 231201;2.安徽电气工程职业技术学院,安徽合肥 230051)

[通讯作者]黄启萍(1985- ),女,助教,硕士研究生,从事经济学研究。

随着互联网和移动互联的快速发展,微博作为一种新兴的社交平台,满足了人们信息获取、日常交流等目的[1]。企业微博是其中一种微博群体,作为企业发布产品信息,了解行业动态的新兴平台。利用数据挖掘和文本分析等技术对企业微博语料进行分析挖掘,可以帮助企业更加方便地进行产品营销、客户沟通,把握行业信息动态,获取行业相关的商业信息,从中挖掘出更多的商机,促进企业发展。因此,对企业微博的分析研究具有重要的研究意义和良好的应用价值。

微博主题分析是其中一个基础任务,通过对企业微博进行主题分析可以发现企业特征,查找相似企业和构建企业产品主题变化图[2]。对于主题分析的任务情况,作者主题模型ATM(Author Topic Model)能对语料作者和单词同时建模,从而解决类似于微博主题分析任务,探索企业与微博主题之间的相关性。然而巨大的微博数量给作者主题分析工作带来了难度:一方面作者主题模型训练复杂度高,耗时长,需要改进其采样算法来降低复杂度;另一方面随着语料规模增大,单机无法训练,需要借助大数据技术进行并行化训练。然而目前主题模型的并行化训练主要集中在LDA主题模型上,作者主题模型的并行化训练仍是空白。

1 问题分析

作者主题模型的求解通常采用吉布斯采样算法求解,其每一轮迭代对语料中每个单词的采样公式如公式(1)所示。

(1)

在作者主题模型的标准吉布斯采样算法中,每采样出一个文档的单词,需对全局计数进行更新,并且后续单词的采样依赖于更新后的全局计数。此种采样方式不适合作者主题模型的并行化训练[3]。

在大规模微博语料的作者主题分析任务中,对作者主题模型进行采样优化,需要改进作者主题模型采样算法,避免实时更新全局计数。并且降低每个单词采样算法的复杂度。采样优化之后,再借助Spark大数据平台实现大规模作者主题模型的训练过程[4]。

2 算法设计与优化

2.1 MCATM采样算法

本文提出的作者主题模型延迟更新采样思想在每轮迭代过程中不更新全局计数,每轮迭代完成之后统一更新全局计数,其相应的采样MCATM算法如下:

MCATM算法的单轮采样:

步骤1 对于文档中的每个单词,采样得到其作者和主题根据和验分布:

(2)

2.2 MHATM优化采样算法

2.3 ECATM优化采样算法

MCATM算法和MHATM算法在采样时,同时采样作者和主题,本文提出ECATM采样算法,将此二维采样问题进行分解。首先分析在知道单词w的作者a的情况下,算法只需采样得到单词的主题即可,采样主题k如式(3)所示。

(3)

经研究得到了作者主题模型的延迟更新采样算法MCATM和相应的优化采样算法MHATM和ECATM之后,作者主题模型训练基于上述三种采样方式进行并行化训练。其并行化训练流程图如图1所示。步骤1和步骤2为预处理步骤。作者主题模型的训练是迭代过程,迭代按照步骤3至步骤8进行。步骤8结束之后更新DataRDD的单词的作者和主题,以便于继续进行下一轮的迭代。

图1 作者主题模型并行化训练流程图

3 性能评估分析

在性能评估分析中,首先验证本文提出算法的正确性,其次评估大规模作者主题模型训练的数据扩展性。

3.1 算法正确性

通过计算模型迭代过程中的混淆度值(perplexity)来判断不同算法是否最终收敛到同一精确度[5]。试验选用weibodata和networkdata语料来进行测试,结果如图2所示,参照标准为作者主题模型的标准吉布斯采样算法ATM。

图2 语料正确性测试

从图2可知,ATM、MCATM、MHATM和ECATM经过一定轮次的迭代后收敛到同一精度,证明了MHATM、ECATM、MCATM算法的正确性。

3.2 数据扩展性

图3 数据扩展性实验结果

在数据扩展性实验中,本文选择不同规模的数据,在不同的采样算法上进行训练,统计迭代时长来分析,在不同规模数据下算法的扩展性,数据扩展性在并行环境下进行[6]。实验环境设置核数均为256,每个executor分配核数8个,模型的主题统一设置为1000,超参数alpha为0.01,beta为0.01。统计前50轮迭代的平均时间,实验结果如图3所示。

从图3可知,ECATM算法具有很好的语料扩展性。MHATM增长幅度缓于MCATM算法,有良好的语料扩展性能。MCATM算法随着语料增大每轮迭代时间基本呈线性增长趋势。

4 结语

针对作者主题模型,本文提出了一种作者主题模型的延迟更新采样思想,以及相应的吉布斯采样优化算法MCATM算法。在此基础上提出了两大优化算法,即MHATM和ECATM算法。实验结果表明,本文提出的MCATM、MHATM和ECATM采样优化算法,能与原始作者主题模型的吉布斯采样算法达到同样的收敛程度,有着较好的数据扩展性。

[参考文献]

[1]张晓飞.关于企业微博营销策略问题的探讨[J].太原城市职业技术学院学报,2013(5):115-116.

[2]郑诚,熊大康,刘倩倩.基于卡方特征选择和LDA主题模型的中文短文本分类[J].电脑知识与技术,2014(13):280-283.

[3]杨勇,朱影.一种基于MapReduce的粗糙集并行属性约简算法[J].重庆邮电大学学报:自然科学版,2015(1):93-100.

[4]郑涛,王路路.基于PBTM的海量微博主题发现[J].计算机应用研究,2015(3):134-136.

[5]Lechtenborger J,Vossen G.Multidimensional normal forms for data warehousedesign[J].Information Systems,2003(28):415-434.

[6]Pilevar A H,Sukumar M.GCHL:A grid-clustering algorithm for high-dimensional verylarge spatial data bases[J].Pattern Recognition Letters,2005(7):999-1010.

猜你喜欢

扩展性语料单词
单词连一连
看图填单词
提高初中阶段学生英语扩展性阅读能力策略分析
看完这些单词的翻译,整个人都不好了
基于语料调查的“连……都(也)……”出现的语义背景分析
高中物理如何充分利用扩展性栏目
比ITX还小华擎推首款Mini—STX主板
网络教学平台的扩展性研究
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法