APP下载

基于层叠条件随机场的微博热点话题跟踪

2016-05-09冯旭鹏刘利军黄青松

计算机应用与软件 2016年4期
关键词:热点话题词典阈值

戴 丹 胡 杨 刘 骊 冯旭鹏 刘利军 黄青松,2

基于层叠条件随机场的微博热点话题跟踪

戴 丹1胡 杨1刘 骊1冯旭鹏3刘利军1黄青松1,2

1(昆明理工大学信息工程与自动化学院 云南 昆明 650500)

2(云南省计算机技术应用重点实验室 云南 昆明 650500)

3(昆明理工大学教育技术与网络中心 云南 昆明 650500)

微博文本的数据稀疏特性,使传统话题跟踪技术只能捕获部分话题微博且准确度不高。同时,在追踪过程中,话题会出现漂移现象。针对以上两个问题,提出一种基于层叠条件随机场的微博热点话题跟踪方法。该方法先通过标识模型标识出可能相关的微博,源热点微博和标识微博分别作为分类模型的观察序列和状态序列来计算相关度分类。其次,通过构造自适应模型对识别模型进行更新且削弱数据稀疏问题,并从相关微博中选取新的观察序列,其余作为新的状态序列进行迭代分类处理。实验表明,该方法比传统方法综合指标F值平均提升4.13%。

话题跟踪 话题漂移 层叠条件随机场 话题词典

0 引 言

微博凭借开放性、低门槛、短文本等特性,已成为一个新兴的网络服务平台。大量用户在微博中参与话题讨论,导致微博每天产生大量涉及多个热点话题的信息。微博热点话题,代表网民当前关注的重点,其内容随时间的发展而变化。某些微博可能只是某热点话题中的一部分,并不能体现其完整性。所以,如何从海量微博中挖掘出热点话题的发展走向具有重大的实际意义[1]。通过话题跟踪,将热点话题的相关微博组织起来,用户可以即时了解微博热点与舆论主题。相关政府部门和企业等机构可以了解民众对特定话题的态度和发展动态,对微博中舆论的传播与方向进行恰当引导,保证用户合理表达微博网络传播的正确秩序。

本文对传统话题跟踪方法准确度不高且只能捕获部分话题问题,在微博热点话题跟踪过程中采用层叠条件随机场CCRFs(Cascaded CRFs)来解决。该方法通过多个条件随机场 CRFs(Conditional Random Fields)建立CCRFs模型来分别对微博进行标识、分类和实体识别从而实现话题跟踪和缓解话题漂移。实验结果表明,该方法对于微博话题跟踪具有较好效果。

1 相关研究

针对微博话题跟踪研究的基础方法[2]是计算文档之间的相似性,从而判别是否与该话题相关。张剑峰等人[3]指出微博话题在进行相似性计算时,常常会伴随数据稀疏问题,对话题跟踪性能产生严重影响。针对数据稀疏问题,Liu等人[4]提出选择词性丰富的词汇作为初始特征,并将这些词汇通过HowNet的相关语义进行扩展,这样短文本就有更多有用特征,最终克服微博文本的数据稀疏问题。Sriram等人[5]考虑到短文本没有提供充足的词信息,选取了八类特征(作者信息,话题时间短语等)。加入这些特征后,分类性能得到了显著提高,改善了数据稀疏问题。在微博话题跟踪方面Lin等人[6]利用基于复杂的分类器过滤博文流,提出了面向在线语言模型的平滑技术跟踪微博流中的话题。Swit等人[7]提出在名词上增加权值并根据热点流行度和可信度因素来收集、分组、排序以及跟踪Twitter中的突发新闻方法。上述研究工作对话题追踪有良好效果,但由于初始信息相对稀疏,并只是发现利用微博部分特点与现象,无法有效跟踪一段时期以后微博话题的发展。且在话题追踪过程中,话题会动态发展并产生话题漂移现象。以上方法无法缓解话题漂移现象,识别不了最新相关话题。

为解决话题漂移现象,王会珍等人[8]提出基于反馈学习自适应的中文话题追踪,其方法是采用增量学习的思想并考虑时序性,提出在话题跟踪中的自适应学习算法,此算法可以解决话题漂移现象,还可以弥补现有自适应方法的不足。张辉等人[9]提出基于三维文档向量的自适应话题追踪器模型,此模型在追踪过程中可根据事件的发展动态来进行自我学习和自我修正,在避免话题漂移方面具有一定优势。郝秀兰等人[10]在中文论坛内容监测方法的研究上提出了将话题表示为种子向量与后续学习的改进模型,在此模型上运用最新的命名实体权重调节策略,缓解了话题漂移现象。由于上述文献提出的方法并不是针对微博,且微博具有社交、实时更新等特性,对于缓解话题漂移存在一定困难,并不适用于本文所研究工作的场景。

针对话题跟踪过程中存在的相似度计算与话题漂移现象,本文分别引入条件随机场模型来解决这些问题。CRFs模型[11]可很好地捕捉上下文信息,它克服了最大熵等模型的标记偏置问题,同时,能够考虑节点之间的联系,从而利用上下文特征获得全局最优的标注结果。近年来,在词性标注、命名实体识别等自然语言处理方面具有较好的应用效果[12]。由于本方法需要CRFs来实现微博标识、分类与实体识别的多任务处理,仅单层CRFs达不到最佳效果,因此引入了CCRFs模型[13,14]。

2 CCRFs微博热点话题跟踪模型

对微博话题进行跟踪是一项复杂的任务,在本方法中,将该复杂任务分解为微博标识、微博分类与实体识别等子任务,再分别对每一个子任务使用条件随机模型,故通过CCRFs模型来对本文任务进行处理。每项任务之间相互联系与利用,上一模型得到的结果作为下一个模型的起始条件。本文微博热点话题追踪任务模型如图1所示,该模型由3个模块构成:标识模型(M1);分类模型(M2);自适应模型(M3)。模型的输入是采集到的文本,输出是热点微博话题追踪结果。

图1 基于CCRFs微博热点话题跟踪模型

标识模型(M1)为整个CCRFs模型建立基础,它对采集到的文本判断是否存在可能与热点话题相关的微博,主要是通过特征来标识筛选出一部分可能相关的微博,防止以后大量冗余操作。分类模型(M2)起过渡作用,从标识模型得到结果作为输入条件,经处理把输出结果作为自适应模型的条件。该模型主要功能是对标识模型中得到的微博通过计算其与源热点话题微博的相关度来分类。自适应模型(M3)主要是为了缓解话题漂移现象并实现话题深层次的跟踪。对分类模型中得到的相关微博进行实体识别填充到话题词典中,扩充特征并更新标识模型。通过模型迭代得出其余相关微博,防止漏检话题微博。通过以上三个模型相互结合形成CCRFs模型来实现微博热点话题追踪。

2.1 标识模型

标识模型是整个层叠条件随机场模型的基础,通过该模型标识获得可能与热点话题相关的微博,得到结果为分类模型的输入。本节内容主要描述CRFs模型标识过程。

2.1.1 CRFs特征选取

条件随机场模型有一个很好很重要的特性就是可以任意灵活定义各种特征,以构建相应模型。在分析热点微博的基础上,发现热点话题相关微博文本形式复杂多样,且存在不正式语法表达,若从语法方面来选取特征,随话题跟踪一段时间后其特征存在一定的不确定性。从微博内容表达的主题来看,对于热点话题主要是事件的发展,事件主要是由时间、地点、人物和相关机构描述而成。故考虑话题词典特征。用户发表微博字数不能超过140个字符,但如果内容长度太短则包含话题有效信息较少,故考虑内容长度特征。如表1所示。

表1 CRFs特征表

话题词典特征主要是建立时间词典,地点词典、人物词典和机构词典。时间,地点,人物和相关机构都是追踪话题的基本和重要要素。时间和机构词典,通过语料识别,把热点事件发生时间与相关机构加入词典中。对于地点词典,先把热点话题包含的地点存入词典中,接着通过地名大全和地名替换词库等进行扩充,添加地点名的子地点、父地点和替换地点。比如:话题为“云南鲁甸地震”,地点词典则收入昭通市、文屏镇或滇等地名。人物词典构造跟地点词典一样需扩展。如:“郭美美事件”中人物有郭美美,还可有与其相关人物,如其干爹王军,中国红十字会常委副会长赵白鸽等。

内容长度的描述为:微博去除停用词后词汇的数目。微博具有短文本特性,但当微博内容长度低于某一个阈值时,包含热点话题的概率极低。通过多次实验比较,选择阈值为10。

2.1.2 CRFs模型标识微博

针对CRFs模型中因特征单一而导致模型标注识别准确度不高问题,本文将所选特征进行组合,形成复合特征模板。

CRFs模型对采集文档进行标识,将检测话题可能相关微博的问题转化为序列标注问题,即通过对文档序列标注的方法,确定其包含话题相关微博。标识过程如下:1) 通过话题词典的时间、地点、人物和机构中的任意一个特征为序列中的话题事件赋予对应的角色标签;2) 为已经标注的微博贴上边界标签,并判断内容长度是否大于阈值10。在1)中,根据朱莎莎等人[15]的标注方法,分别引入时间标签集Time={T,N}、地点标签集Loc={L,N}、人物标签集Per={P,N}和机构标签集Org={O,N}对句子中的每个词赋予一个标记。每个标记代表词在微博中的位置,T、L、P、O分别标识词在该事件中代表的角色,N标识其他词。对于2),借鉴组块分析中的{B,I,E}标签集,B表示微博开始,I表示中间,E表示结尾。根据这种表示方法,文本根据标识语料被映射成独立标记的微博段落,并转换为序列标识问题。如“2014年8月3号下午4点30分,昭通鲁甸6.5级地震鲁甸县龙头山镇龙井村房屋倒塌严重”,标记为“2014年/B/T8月/I/T3号/I/T下午/I/N4点/I/T30分/I/T,昭通/I/L鲁甸/I/L6.5级/I/N地震/I/N鲁甸县/I/L龙头山镇/I/L龙井村/I/L房屋/I/N倒塌/I/N严重/E/N”。在此表示方法上进行话题词典与长度特征选择,即将获得话题可能相关微博任务转化为序列标注问题。

2.2 分类模型

由于CRFs模型可以计算在给定输入序列时指定输出序列的概率值,通过其概率值来判别是否相关。微博话题跟踪过程中,传统方法计算相似度存在一定困难,本文通过特征扩充与CRFs模型计算相关性来进行追踪,提出了一种解决数据稀疏问题的分类模型。标识模型用于识别出可能与热点话题相关的微博,分类模型则是对标识模型得到的结果进行优化,以进一步确定相关度。在该模型中源热点话题微博作为输入序列,从标识模型中得到的标识微博作为输出序列。在对序列进行模型表示时,本文借鉴Liu[4]的方法通过大量不同的词性标注信息并根据HowNet对每个词汇进行扩充,拓展词性特征,使短文本具有更多的特征。

根据CRFs模型来计算输入微博序列生成输出序列的相关度,相关度用概率值来表征。本文微博跟踪过程中X={x1,x2,…,xn}表示在不同模型中输入的微博观察序列,即分类模型中源热点话题微博、自适应模型中与热点话题相关的微博,随机变量Y={y1,y2,…,yn}表示在给定观察序列下其对应的微博输出序列,即分类模型中标识后的微博、自适应模型中与热点话题不相关的微博。在给定观测序列X,生成输出序列Y的概率分布P(Y|X)公式如下:

(1)

其中Z(x)是归一化因子,公式如下:

(2)

其中,sl和tk是特征函数,μl和λk是对应的权值。给定训练微博{(xk,yk)}预定义的特征函数,可以从微博样本中学习一个CRFs模型。微博样本参数Λ={μl,λk}采用L-BFGS(Limited Memory BFGs)算法[15]来求解最优值。若概率值大于阈值μ,说明此微博跟话题相关并把得到的相关微博作为自适应模型的输入条件。若不大于,则不相关。

2.3 自适应模型

针对在话题追踪过程中会产生话题漂移现象,本方法设计了自适应模型,可削弱先验数据稀疏造成信息的不完备性,并通过不断的自适应学习能力来更新标识模型,最终提高CCRFs模型跟踪话题发展的能力,缓解话题漂移现象。其具体实现为从分类模型得到相关微博集中选取两篇作为输入序列,剩余微博作为输出序列,计算相关度并进行迭代计算。选取规则为:

(1) 分类模型中得到的概率值P={P1,P2,…,Pi},其最大概率为Pmax,最小概率为Pmin,平均概率为Pavg。

(2) 比较概率值P中哪两个概率值是与Px和Py最相近,对应微博就为下一次计算的观察序列。概率Px和Py的计算公式如下:

(3)

(4)

为缓解话题漂移现象,需对话题词典进行扩充,根据邱泉清等人[16]使用CRFs模型对微博命名实体识别,把相关微博里面的人名、地点和机构添加到对应的词典库中,对于时间的识别,利用朱莎莎等[14]基于条件随机场的中文时间短语识别方法,把时间短语加入到话题时间词典库中以提升下一次的识别效果。为了保证迭代的收敛与后效性,在不相关微博数小于k值时结束迭代过程。对于k值选取规则如下:

如果k取值较大,不能对热点话题进行完整的追踪。若k取值较小,话题跟踪信息冗余并且增加复杂度和运算量。本实验中,通过估计相关话题热点占标识微博的百分比,选择k=35%作为阈值。实验完整设计流程如下:

Step1 基于时间段阈值获取微博文本语料,在此设置阈值为一小时。

Step2 根据语料选取热点话题特征,第一层CRFs模型对其微博进行标识与提取。

Step3 提取出来的微博段落作为输出序列,源热点微博作为输入序列S,第二层CRFs模型来计算输入序列S得到每一篇输出序列Oi的概率Pi。

Step4 如果Pi大于等于阈值μ,其输出序列Oi跟热点话题相关,否则就不相关。

Step5 通过第三层CRFs模型实体识别把相关微博中时间、地点、人物和相关机构短语添加到对应话题词典库中。

Step6 从相关话题集中根据规则挑选两篇微博作为输入序列S′={S1,S2},剩余不相关微博作为输出序列O′={O1,O2,…,Oj},通过CRFs模型来计算输入序列得到每一篇输出序列Oj的概率Pj。

Step7 重复Step4-Step6,直到输出序列的微博数小于k值,结束迭代过程。

3 实验及结果分析

3.1 实验语料的准备与过程设计

本实验采用的语料是从新浪微博上从2014年8月01日至2014年8月10日每天上午9点到下午16点每隔一小时采集的文本共70篇,每一篇包含该时间段中发表的微博且作为一个段落,获取微博内容和发表时间。经预处理识别,包括5个热点话题:台湾高雄燃气爆炸、天津动物园老虎骨瘦如柴、李承铉求婚戚薇、昆山中荣工厂爆炸、云南鲁甸地震。

3.2 实验结果分析

在实验中,采用准确率(P),召回率(R),综合指标(F)值作为评价的标准。

(6)

(7)

(8)

其中a表示已经跟踪到与原热点话题相关的微博数,b为跟踪到但跟原热点话题不相关的博文数,c表示为没有跟踪到与原热点话题相关的博文数。

3.2.1 阈值μ的调整

阈值μ对CCRFs模型有着重要的影响,控制着实验的准确度,μ值是对CCRFs中分类模型概率的判别,如果μ值设置过高,则后续相关话题微博的漏检率加大,会遗落一些话题的发展趋势。如果μ值较小,引入大量噪声,而造成不必要的信息发展,导致跟踪方向偏差。通过五个话题的源微博与标识后的微博进行多次概率生成实验,取P、R和F的平均值结果如表2所示。当μ=0.3时,在准确率P和召回率R之间得到较好的平衡点,因此,在CCRFs模型中,选择μ=0.3作为阈值。

表2 阈值μ实验结果

3.2.2 话题跟踪对比实验

在本文方法和传统相似度计算的方法上进行话题跟踪,通过两种方法的对比,得到结果如表3所示,本实验中选择向量空间模型VSM(Vector Space Model)为基本模型。本文方法比基本模型得到的准确率和召回率都有一定提高,且F值平均提高了4.13%。

表3 基本模型与CCRFs模型方法对比结果

在不同时间段,话题走向会发生变化,本文选择影响力较大的“云南鲁甸地震”进行基于时间段网友讨论话题的变化,话题的发展如图2、图3。图2为基本模型的子话题曲线图,图3为CCRFs模型的子话题曲线图,图中横坐标以每4小时为单位,纵坐标分别代表每个子话题在该时间段获得的话题微博与所有相关微博的比例。实验每隔4小时统计微博数,在每天的0~4和4~7点间微博数较之平常下将很多。获取语料是从8月1号到10号,故对于灾后重建的话题微博数较少,大部分是关于地震伤亡情况与救灾活动的微博。从图3中观察到在8月6号20点左右,由于某名人团体发起的救援活动以致救灾活动话题微博数突增。在8月9号与10号,因9号是“七日祭”、10号全国默哀3分钟故关于地震伤亡情况话题微博数剧增。其子话题分别经历了:地震伤亡情况、救灾活动、灾后处理工作三个阶段。

图2 基本模型子话题发展趋势

图3 CCRFs模型子话题发展趋势

通过图2、图3比较可以看出在对灾后处理工作的追踪过程中,基本模型获取到的子话题只有两个,且关于救灾活动话题微博的捕获能力不如CCRFs模型,基本模型几乎没有获取到与灾后处理话题相关的微博,而本实验模型却完全捕获了其相关微博。话题从地震发生到灾后重建已发生了漂移,CCRFs模型能够较准确地跟随子话题的发展,追踪到全部三个子话题,而基本模型遗漏了灾后处理子话题,且对救灾话题捕获能力不足。可见本文方法比传统方法能够更好地应对话题漂移现象。

本实验能缓解话题漂移现象,其中自适应话题模型起了重大作用。该模型通过对话题相关微博进行实体识别填充了话题词典从而实现对初始模型的更新,并对是否相关进行了迭代的模型计算,防止大量救灾话题与灾后处理话题微博被漏检而没跟踪到相关信息。

4 结 语

本文对微博热点话题跟踪采用了基于层叠条件随机场方法,基于三层模型对微博话题进行跟踪并在此过程中考虑到了话题漂移现象,根据自适应模型对话题漂移现象进行缓解,通过实验与传统方法进行比较。实验结果表明,本方法在一定程度上提高了微博话题跟踪的准确率和召回率。但此实验过程中仍存在一些问题:1) 由于存在话题集中时间跨度短、微博内容非正式等问题,话题追踪的效果会受一定的影响;2) 实验效果跟阈值的选定有极大关联。因此,对微博文本不正式语法的研究和增强模型稳定性是后续研究的发展方向。

[1] 王晓岩.微博客热点话题发现与跟踪技术及系统[D].北京:中国科学院大学,2013.

[2] 丁兆云,贾焰,周斌.微博数据挖掘研究综述[J].计算机研究与发展,2014,51(4):691-706.

[3] 张剑峰,夏云庆,姚建民.微博文本处理研究综述[J].中文信息学报,2012,26(4):21-27.

[4] Liu Z,Yu W,Chen W,et al.Short text feature selection and classification for microblog miming[C]//Proceedings of CiSE’2010,2010:1-4.

[5] Sriram B,Davis Fuhry,Engin Demir,et al.Short text classification in twitter to improve information filtering[C]//Proceedings of SIGIR’10.Switzerland,2010.

[6] Lin J,Snow R,Morgan W.Smoothing techniques for adaptive online language models:Topic tracking in Tweet streams[C]//Proc of the 17th ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining(KDD’11).New York:ACM,2011:422-429.

[7] Phuvipadawat S,Murata T.Breaking News Detection and Tracking in Twitter[C]//Proc of the 9thIEEE/WIC/ACM Int Conf on Web Intelligence and Intelligent Agent Technology (WI-IAT’10).New York:ACM,2010:120-123.

[8] 王会珍,朱靖波,季铎,等.基于反馈学习自适应的中文话题跟踪[J].中文信息学报,2006,20(3):92-98.

[9] 张辉,周敬民,王亮.等.基于三维文档向量的自适应话题追踪器模型[J].中文信息学报,2010,24(5):70-76.

[10] 郝秀兰,胡运发,申情.中文论坛内容监测的方法研究[J].中文信息学报,2012,26(3):129-136.

[11] Lafferty J,Mccallum A,Perira F.Conditional random fields:Probabilistic models for segmenting and labeling sequence data[C]//Proc.of the 18th Int’l Conf. on Machine Learning (ICML 2001),2001,28(6):282-289.

[12] 张传岩,洪晓光,彭朝晖,等.基于SVM和扩展条件随机场的Web实体活动抽取[J].软件学报,2012,23(10):2612-2627.

[13] Sutton C,Mccallum A.Composition of Conditional Random Fields for transfer learning[C]//Proc of the Human Language Technology Conference on Empirical Methods in Natural Language Processing Vancouver,Canada,2005:748-754.

[14] 郑敏洁,雷志城,廖祥文,等.基于层叠CRFs的中文句子评价对象抽取[J].中文信息学报,2013,27(3):69-76.

[15] 朱莎莎,刘宗田,付剑锋,等.基于条件随机场的中文时间短语识别[J].计算机工程,2011,37(15):164-167.

[16] Nocedal J,Wright S.Numerical Optimization[M].New York,USA:Springer-Verlag,1999.

[17] 邱泉清,苗夺谦,张志飞.中文微博命名实体识别[J].计算机科学,2013,40(6):196-198.

HOT MICROBLOGGING TOPICS TRACKING BASED ON CASCADED CONDITIONAL RANDOM FIELDS

Dai Dan1Hu Yang1Liu Li1Feng Xupeng3Liu Lijun1Huang Qingsong1,2

1(FacultyofInformationEngineeringandAutomation,KunmingUniversityofScienceandTechnology,Kunming650500,Yunnan,China)2(YunnanKeyLaboratoryofComputerTechnologyApplications,Kunming650500,Yunnan,China)3(EducationalTechnologyandNetworkCenter,KunmingUniversityofScienceandTechnology,Kunming650500,Yunnan,China)

Because of the sparse data characteristic of microblogging text, traditional topics tracking technologies can only capture part of the topical microblogs in low accuracy. At the same time, topic drifting problem will appear in tracking process as well. In this paper, we present a CCRFs-based hot microblogging topics tracking method for two problems mentioned above. The method first marks the microblogs possibly correlated with hot topics through identification model, the source microblogs with hot topics and the marked microblogs are used as the classification model’s observation sequence and the state sequence respectively to calculate the correlation classification. Then, by constructing the adaptive model it updates the identification model and weakens the data sparse problem, and selects new observation sequence from correlated microblogs and leaves the rest as new state sequence for iterative classification processing. Experiments showed that this method improved 4.13% in average in value of comprehensive index (F) compared with traditional methods.

Topic tracking Topic drifting Cascaded conditional random fields (CCRFs) Topic dictionary

2014-12-04。国家自然科学基金项目(81360230);科技部科技型中小企业技术创新基金项目(13C26215305404)。戴丹,硕士,主研领域:机器学习,自然语言处理。胡杨,硕士。刘骊,副教授。冯旭鹏,硕士。刘利军,硕士。黄青松,教授。

TP3

A

10.3969/j.issn.1000-386x.2016.04.013

猜你喜欢

热点话题词典阈值
米兰·昆德拉的A-Z词典(节选)
米沃什词典
小波阈值去噪在深小孔钻削声发射信号处理中的应用
基于自适应阈值和连通域的隧道裂缝提取
比值遥感蚀变信息提取及阈值确定(插图)
2017年高考作文热点话题预测
室内表面平均氡析出率阈值探讨
基于SVM的热点话题跟踪实现过程研究
漫画词典
热点话题排行榜