基于粒度商空间下的话题识别与跟踪研究
2019-12-03毛建景张君君
毛建景,张君君
(郑州工业应用技术学院 信息工程学院,河南 郑州 451150)
0 引 言
随着网络媒体技术的发展,大多社会热点源于网络舆论,对社会舆情的分析也从传统的机械装置逐渐过渡到网络媒体,网络舆情分析是社会舆情分析的重要途径。
如何挖掘出有效的社会热点或敏感问题,以促进网络监管能力,就成为网络舆情分析的主要研究内容[1]。话题识别作为信息跟踪与处理的主要研究技术,其识别精度和准确判断直接影响识别效度。当前,对话题识别的主要研究方式之一就是聚类分析。常用的聚类分析方法有划分聚类法、密度聚类法、层次聚类法、网格聚类法、模型聚类法等。常用的聚类策略大多采用硬聚类,然而硬聚类过程容易造成话题结构的混乱,降低了边界文本识别度及准确度。
1 国内外研究现状及研究任务
1.1 研究现状
话题识别与跟踪技术作为舆情分析的主要技术[2],参与研究的技术人员越来越多,其研究范围也从传统的普通Web页面,逐步扩展到微博、博客、新闻Web、Facebook、论坛等。由于媒体渠道不同,关于话题识别与跟踪技术的研究方法也存在争议。目前,国内外都进行了大量的理论和实践研究。例如,刘倩等对基于情感Ontology的资源分析,利用词汇特征抽取的方式对文本的倾向性进行分析[3];史仁仁等提出了周期分类的概念,利用Single-Pass聚类算法,完成对网络舆情的分析与研究;周丹晨采用WordNet,利用上下文本信息同时构造设计出小灵通定位系统(LSC),基于该系统的文本信息描述采用单向路径的聚类算法用以解决对新出现事件的检测问题。
1.2 研究任务
文中以网络话题识别研究为目的,采用软聚类算法,首先计算出距离函数dis(α,β),并通过与半径di的比较,在相容商空间粒度下,实现对文档信息的反复分析、连续分解和不断合成,以同步达到聚类重心点集合的形成;其次,利用基于隶属度函数的容度决策理论,即函数μ(Xj,X)=|I(Xj)∩X|/I(Xj),测量出边界文本发生的可能性概率,从而确认具有明确话题标注的信息[4]。通过该方法,可以实现对话题的识别、话题容错、精度确认及话题的跟踪研究,也可有效解决细粒度划分和情感分类等知识共享问题。这些研究在后续文本趋势分析中有重要的理论意义和广阔的应用前景。
1.3 话题识别与跟踪技术概述
(1)概念。话题识别与跟踪(TDT),包括话题识别和跟踪。该技术的出现源于网络信息爆炸下衍生的新问题,目的是解决在线媒体信息流中对话题的识别和跟踪问题[5]。(2)作用。该技术可以识别和跟踪某一特定环境下发生的事情,更能拓展到相关外延事件,从而将话题识别与跟踪的研究领域跨越到对突发事件甚至“未然态”信息的处理。与其相关的定义包括事件(Event)、活动(Activity)、话题(Topic)及报道。
(3)任务。话题识别与跟踪主要完成:对新闻报道的切分,也就是将稿件划分成独立模块;对于第一次出现新的报道的识别;Story Link Detection,即关联性检测,主要目的是检测两篇报道是否属于同一话题;对话题的跟踪,抽取某一特征集以进行匹配为主要任务[6]。
(4)评价。常用的评价形式有评估矩阵,以矩阵形式计算话题的查全率和召回率。
召回率公式为:R=a/(a+c)
其中,a是系统判定属于话题;c是系统判定不属于话题。
查全率公式为:F=a/(a+b)
其中,a是系统判定属于话题;b是系统判定不属于话题。
二者之比为调和平均值:p=2/(1/R+1/F)
1.4 基于Ontology的情感分类体系
基于Ontology的情感分类体系是通过词汇语义[7-8],判别其相互之间的相似程度,从而为文本的倾向性提供分析依据。情感Ontology中的词汇量的来源有多种途径,其中主要来源于网络数据库,这些数据源是通过相似度计算为理论基础。表达情感的词汇通常只有正面和负面的词汇。对于词汇倾向性的计算,一般需要基于语义相似及情感深度[9]。语义相似度的计算公式为:
Sim=μHsim(Ti)+(1-μ)0dis(Ti)
其中,Hsim(Ti)是词汇与情感Ontology的相似度计算;0dis(Ti)是词汇在情感Ontology中的深度;μ为可调节参数,且有0≤μ≤1。
情感Ontology采用向量空间模型来表示文档信息,通常可以将文档表示成:Di={(Ti1,wi1),(Ti2,wi2),…,(Tin,win)},其中Tij(j=1,2,…,n)(Ti1,wi1)指的是文本中的词汇,wij(j=1,2,…,n)指的是Tij所对应的权重。在进行情感倾向分析时,一般分两步完成:第一,过滤掉不相似的词汇,需要利用相似度公式来完成;第二,对情感倾向性进行判断和识别,该过程要通过分析模型中的权重进行判别。
2 相关技术及基本原理
2.1 相容商空间理论的粒度变换原理
解决问题的过程可以用三元组(a,b,c)来表示,其中a表示所研究对象的通用名称,也称为论域,函数b表示从a到c的一个映射,c属于论域的结构,反映a中各元素之间相互存在的关系。在对(a,b,c)的分析和求解过程中,主要是指对论域a及其相关结构和属性的分析以及研究计算。当从不同的粒度进行分析和处理问题时[10],将最细的粒度看作为a,然后以粗角度分析并以某种方式简化它,对于特征性质相近的作为等价处理。最后,整体作为一个元素构成一个新的域,也是最大的粒度,称之为[A],并将之前的(a,b,c)转化成[A,B,C]。在简化元组的过程中,仿照数学中商集的概念,把不同粒度世界的世界模型称为相容商空间[11]。此时,用(a,b,c)对一个问题进行描述,并在其论域上引入等价关系T,对应于T的商集[A]作为一个新的论域。在进行分析研究时,对待不同的问题就可以表述成不同的粒度世界,这样就达到了简化问题、解决问题的目的。相容商空间因其强大的表达能力[12],既可以对多种函数进行定义,又可以对论域中的不同元素进行描述,从而分析出不同元素之间的关系以及结构和运算等。
2.2 相容商和粒度计算的基本简介
粒度计算是一种涵盖所有关于粒度基本理论方法、相关技术及研究工具的新的概念和计算公式。其应用领域主要是分析和处理无法确定和不完整的模糊信息[4],属于软计算科学的一个分支。
相容商空间:假设(X,Y)属于拓扑空间,其中Y是X的拓扑。假设T是X上的等价关系,则可以计算X相应的商集,称为[X]。然后,假设在[X]的定义上,将T值诱导计算出来,称为[T]。则([X],[Y])都是商集的拓扑空间。
假设R是相容的,若x,y∈(X,Y)并且x 2.3.1 不同相容商空间粒度的获取 定义1:令[X]={x|Ix∈X},其中[X]是与相容关系I相关的相容商空间。根据公式中的关系定义,可以计算出距离函数。假设a,b,c都是论域X中的三个向量,那么dis(a,b)就是一个距离函数关系。作为距离函数,dis(a,b)满足以下特征: (1)dis(a,b)≥0; (2)dis(a,a)=0; (3)dis(a,b)=dis(b,a); (4)dis(a,b)≤dis(a,c)+dis(b,c)。 根据上述条件可以得知,dis(a,b)≤d就是一个相容关系,其中也要满足条件d≥0,也可将d称之为函数dis(a,b)的半径。 根据上述条件公式得出,相容关系I与距离函数dis(a,b)≤d之间就形成了一种一对一的对应关系。 定义2:假设I1和I2∈I,那么对于任意x,y∈X,都有xI2y⟹xI1y,则称相对I2,I1更细,表示为I1 根据定义2,获得n层层次结构对应的n个相应的相容关系的序关系: I0 可以通过以上相容序关系及距离函数获得n层层次结构,其距离半径有如下序关系: d0>d1>…>dn>0 设Ii对应的相容商集为[X]i(i=0,1,…,n),则不同层次的粒度论域集有如下的相容序关系: [X]0<[X]1<…<[X]n 根据不同级别层次的粒度论域集的相容序关系,可以得到不同相容商空间的粒度。 定义3:假设IS=(U,A)是一种信息系统,X,Y⊆A,则: (1)若x→y,则dis(X)≥dis(Y); (2)若x↔y,则dis(X)=dis(Y)。 由此可以得出,如若X,Y⊂A,则有y→x,从而得出A属于子集,随着属性的增加,粒度不断减小,则表明分辨率在不断增加。 定义4:∀x∈X,令[x]={y|(x,y)∈I},称为[x]的相容类。 2.3.2 相容商空间粒度下的软聚类原理 (1)在所有数据中,选取最初始的T个样本Y={X1,X2,…,Xt}表示样本的重心点数据的所有集合,同时dn仍旧表示相容空间的距离半径。 (2)通过计算dis(Xa,Xb),a∈(1,2,…,t),b∈(1,2,…,t),就能够得出dis(Xa,Xb)和d0之间存在的关系。 (3)通过dis(Xa,Xb)≤d0,就可以计算出原来所有样本和重心之间的距离,还能够与距离半径进行比较。 (4)充分利用相容商空间粒度分析法,对通过软聚类计算得到样本重心点之间的距离调整进行反复分析比对[14]。在实际的计算解答中,也可以采用合并求解法对粒度之间的关系进行调整,还能够实现结构层次的划分。 (5)对于边界距离dis(Xa,Xb)=da,则表示X值在两个结构中都同时存在,利用任何一个结构公式都可以进行解答计算,通过不断的反复解答计算,就可以得出软聚类的结果。 通过不断的分析和计算,就可以得出距离函数和相容关系之间一对一的对应关系,也可以解决话题层次和不确定边界存在的一些问题。 本节提供了话题识别和跟踪的算法基础。相容商空间粒度的确定是连续不断地分析、比较和调整样本重心点集的过程。在软聚类设计时,通过合并和分解来调整粒度[15],以实现层次结构的明确划分;利用相容隶属函数确定边界。基本路线:(1)选取初始k个样本X={X1,X2,…,Xk}作为样本的重心点集合,并以d0作为相容距离的半径;(2)计算相容距离函数dis(Xi,Xj),i∈(1,2,…,n),j∈(1,2,…,n),判断dis(Xx,Xy)与d0的关系;(3)当dis(Xi,Xj) (1)文档向量空间降维。解析Web语料库中的XML文档集并将其表示为向量空间模型D={D1,D2,…,Dr}(Di为向量空间,i为第i篇文档)。Di={(Ti1,wi1),(Ti2,wi2),…,(Tim,wim),…},wij表示词汇权重值,指的是文档信息Di中第j个词汇的权重。由于某些词汇与话题关联度不高或词频较低,影响话题分析的精度[16],因此需对向量空间降维,抽取与已知话题关联度高的词汇和高频词汇,形成n维文档向量空间集D={D1,D2,…,Dr},其中Di={(Ti1,wi1),(Ti2,wi2),…,(Tim,wim),…}(n (2)话题层次划分与不确定话题边界确定。采用软聚类算法对目标文档M进行识别。经过识别后会形成一个层次话题集,即TP={tp1,tp2,…,tps}。在聚类过程中,动态地形成向量集C={c1,c2,…,cs},其被称为话题重心点向量集。 (3)话题标题解析。把重心点向量集反馈到预处理的XML文档集,解析重心向量集得到标题信息,作为话题标题,形成带有标题、具有层次的话题集TP={(tp1,name1),(tp2,name2),…,(tps,names)}。根据话题tpi中的所有文档向量集tpi={di1,di2,…,dic}(0 (4)新报道向量空间软聚类与话题节点信息更新。根据层次话题集TP中的文档向量集tpi={mi1,mi2,…,min},对Web语料文档集中跟话题节点相关的标注信息进行修改更新。确定话题识别后,需要动态跟踪,并在话题监督下完成该过程。 对话题集TP={(tp1,name1),(tp2,name2),…,(tps,names)}和重心点向量集C={c1,c2,…,cs},利用软聚类算法对新报道向量空间V进行分类。 第一步,计算向量空间V与文档重心点集距离函数dis(F,C);第二步,根据以上距离函数的结果,与相关的距离半径dr进行比较,准确地得出V所属的类别。如果获得的距离函数结果大于距离半径,则使用向量空间V为重心点,作为新话题加入新层次话题集:TP={(tp1,name1),(tp2,name2),…,(tps,names),(F,namef)},同时,更新Web语料库中文本文档话题节点的标注信息。 在相容商空间中,粒度计算可以基于原始的知识来变换和分析各种子集。在以不同层次粒度上的论域、结构和属性对待同一问题进行递进求解时,就可以利用商空间中细粒度和粗粒度之间的保真性定理执行空间层次结构的反复推理和计算,最终得出结果,这种计算方式很大程度上降低和简化了问题在求解过程中的难度。2.3 相容商空间粒度原理
2.4 相容商空间粒度下的软聚类设计
2.5 话题识别与跟踪
3 结束语