概念图在文献集合研究中的一个新模型
2015-09-08尹莉
尹莉
[摘要]概念图是一种知识以及知识之间关系的网络图形化表征。本研究中将图结构的非参数先验与潜在狄里克来分布结合在一起,构建了一个新的概率模型GLDA,用来学习文档中的概念图。并将此模型应用于维基百科中关于机器学习的文献集合加以验证,同时与高阶弹球分布模型(hPAM)与高阶潜在狄里克来分布模型(hLDA)进行了比较,对模型的优缺点进行了分析。
[关键词]概念图;潜在狄里克来分布;弹球分布模型;机器学习
DOI:10.3969/i.issn.1008-0821.2015.01.017
[中图分类号]G254.0 [文献标识码]B [文章编号]1008-0821(2015)01-0091-05
概念图(conceptmap)是一种知识以及知识之间关系的网络图形化表征,它是一种用节点代表概念、连线表示概念间关系的图示法。康奈尔大学的约瑟夫·D·诺瓦克(Joserph D.Novak)教授于20世纪70发展出概念图绘制技巧。一幅概念图通常由“节点”、“链接”和“有关文字标注”组成。概念图对于知识表征、协同与组织沟通、教育、教学设计、训练等领域都有重要的应用。概念图对于总结文献集合很有用,并且可以提供一种语义内容和大文献集合结构的可视化。概念图的一个典型例子就是维基百科中的分类图,如图1就是维基百科中关于机器学习的分类图的一部分子图,从这个图中我们能够很快推断出维基百科中机器学习方面的文章主要强调的是算法和马尔科夫模型的演化。
本研究中,将展示一个新的生成概率模型GLDA(Graph Latent Dirichlet Allocationh),来学习文本中的概念图,并对模型进行检验,应用于维基百科的文献集合进行试验,最后对模型进行了评价。本研究将在LDA、PAM、stickbreaking分布的基础上,设计新的生成模型,并解释它怎样适用于原始的图结构。并对模型获得了吉布斯抽样方程,而且在模拟数据和真实文本数据上的进行了一系列实验,最后将模型的性能与分层潜在狄里克来分布和分层Pachinko分布模型进行了比较,对该模型的优点和局限性进行了讨论。
1.理论基础
1.1潜在狄里克莱分布(Laten Dirichlet Auocation)
LDA是给文本建模的一种方法,属于生成模型,足能够在文献收集中自动识别主题的概率模型。可以用来识别大规模文档集或语料库中潜藏的主题信息。它采用词袋的方法,将每一篇文档视为一个词频向量,从而将文本信息转化为易于建模的数字信息。每一篇文档代表了一些主题所构成的一个概率分布,而每一个主题又代表了很多单词所构成的一个概率分布。由于Didchlet分布随机向量各分量问的弱相关性,标准的LDA模型并不包括主题之间的任何关系、依赖。
4.结论
本研究中我们将图结构的非参数先验与潜在狄里克来分布结合在一起,构建了一个新的概率模型GraphlA)A,用来学>J文档中的概念图。主要贡献如下:
第一,我们展示了一个可能有无限多节点的有根节点、有向的无环图的一个可能的非参数先验。将图结构的非参数先验与潜在狄里克来分布结合在一起,构建了一个新的概率模型叫做GraphLDA,用来学习文档中的概念图。第二,我们展示了GraphLDA如何能够被用来学习文献集合中的概念图,如何能用来更新新的标签文献中的图结构。解释了GraphLDA在一个模拟文献集合中的执行情况,在这个集合中我们增加了被标注的文献的比例以用来进行训练学习。笫三,将GraphLDA的执行与高阶Pachinko分布模型(hPAM)与高阶潜在狄里克来分布模型(hLDA)进行了比较。解释了,GraphLDA在维基百科分类图中的应用。我们展示了GLDA如何被用来更新维基百科中的图的部分,以机器学习方面的文献集合为例进行了说明。
研究提出的问题是学习一个给定文献集合的概念图,在这个集合中给文献标注上概念标签,可以得到一个原始的图结构。要得到一个原始图结构,任务就是识别语料库中没有在图中反映出来的那些概念,或者是图中没有反映出来的语料库中的概念之间的关系(通过文献中概念的共现关系实现)。这个模型对维基百科这样的文献集合来说尤为适合,因为在维基百科中文章集合变化得非常快,以至于自动方法用来更新概念图比手工编辑或者重新学习分类更合适。这个方法一个很重要的拓展就是应用到大图中,这是很有意义的一个实践。在抽样过程中计算每一条路径的概率也是值得去研究的一个课题,尤其足算法,M样,还可以探讨模型如何能够处理每个文献中的多重路径。endprint