面向教育技术学文献数据的主题挖掘

2009-07-16王萍

现代教育技术 2009年5期

王　萍

【摘要】对网络环境下海量的科技文献数据进行文本挖掘可以有效地提高科技文献信息的可用性，发现隐藏的知识。LDA（Latent Dirichlet Allocation）模型是一种能够提取文本隐含主题的非监督学习模型。论文基于LDA模型，以三种国际教育技术期刊在2004-2008年间出版的学术文献为研究对象，进行了主题挖掘和文献分析。

【关键词】教育技术学；科技文献；主题挖掘；相似度

【中图分类号】G420 【文献标识码】B 【论文编号】1009—8097（2009）05—0046—05

引言

随着信息技术的发展，网络科技文献资源已经成为知识经济的重要载体，提供了丰富的数字化信息资源和大量的文献数据信息，包括电子期刊、电子图书、学位论文和电子文档等。这些电子文献数据在网络环境下呈指数级增长，成为一座巨大的知识宝库，也为文献数据的管理带来了新的挑战。面对海量的、快速增长的科学文献数据，即使是领域内的专家也无法依靠手工方式从中获取感兴趣的信息。因此采用数据挖掘技术从文献数据库中快速有效的提取知识信息的需求变得非常迫切。

本文的研究是面向文献数据的文本主题挖掘。文本挖掘主要使用自然语言处理技术和机器学习方法从海量文献中有效地找到所需信息，发现隐藏的知识。主题挖掘是通过主题模型从未标签的文献数据中获得抽象的主题信息，进而可以对主题，研究者等信息进行进一步的研究和分析。

文献数据是在科学研究中，人们发表的论文及其相关信息。文献数据包括了大量的信息，如文本信息、作者信息、引用信息、机构信息、时间信息、社会信息等。通过对文献数据进行分析和挖掘，可以发现大量有用或潜在的知识，能够有效地提高研究者对科技文献的整理和总结，对研究领域的理解和把握，进而帮助和指导研究者开展更加有效的科学研究工作。

在教育技术学领域，现在每年出版的国内外教育技术学相关的专业期刊和会议论文集有数十种，但对于大规模科技文献的数据分析和挖掘研究还较少。如何对这些文献进行自动化的内容分析，挖掘隐藏的知识，提高文献信息的可用性，从而帮助教育技术研究者更好地利用文献资源，是本文研究的主要目标。

一主题模型

1主题模型概述

主题模型（Topic Models）研究的主要目标，就是可以在不需要计算机真正理解自然语言的情况下，提取可以被人理解的、相对稳定的隐含语义结构，为大规模数据集中的文档寻找一个相对短的描述。当我们得到一个大规模的文本数据集或者是其他类型的离散数据集合时，为了便于理解，总是希望找到这个庞大的数据集的一个简短描述和概括，来代表或是反映出整个数据集的特征信息。对文本数据来说，就是抽取出一个或几个主题这样的抽象概念来描述整个文本数据集。例如一组论文，如果知道它的主题主要是关于数字化学习和教学设计的，那么它所包含的论文也是和这两个主题相关的，由此可以根据个人的需求选择是否阅读这些文章。

一个文本通常包括若干主题，而文本中的特定词汇体现出所讨论的特定主题。主题抽取模型的主要思想是：认为一篇文档可以理解成是由若干个主题组合形成的，而主题则可以理解成为是词的一种概率分布。主题模型通过参数估计从文本集合中提取一个低维的多项式分布集合，用于捕获词之间的相关信息，称为主题（Topic）。不同的模型会进一步作不同的统计假设，以不同的方式获取模型参数。

2 概率生成与统计推断

主题模型是一种生成式模型，可以根据主题模型所指定的一组概率程序，来创建出一个新的文档。首先选择一个文档的主题概率分布，根据这个概率分布，每次随机的从中选出一个主题，再根据这个主题在单词上的概率分布，生成这个文档的一个个单词，这样就可以产生一个新的文档（尽管里面的词可能不具有组成句子或更深层次语义的逻辑顺序）。如图1左侧的概率生成过程描述了两个主题。主题1与“教学”有关，主题2与“软件”有关，每个主题中有若干词汇，从不同的主题中选取词，可以组成一个文档。如文档1是由主题1中抽样单词组成，文档3是由主题2中抽样单词组成，文档2则分别从主题1和主题2中抽取单词组成。

如果有了概率生成模型，对这个生成模型进行逆向操作可以得到主题信息。即已经有了一些文档的集合，需要反过来推断这个文档集合具体的主题概率分布以及每个主题在词上的概率分布。图1右侧描述了统计推断的过程。

二 Latent Dirichlet Allocation(LDA)模型

统计主题模型的思想最早来源于隐含语义索引（Latent Semantic Indexing，LSI），其工作原理是利用矩阵理论中的“奇异值分解（Singular Value Decomposition，SVD）”技术，将高维度的词汇--文档共现矩阵映射到低维度的潜在语义空间，在该空间中，来自词--文档矩阵的语义关系被保留，同时词用法的变异（如同义性、多义性）被抑制。Hofmann提出的概率隐含语义索引（Probabilistic Latent Semantic Indexing，PLSI）[1]模型将LSI扩展到概率统计的框架下，通过概率模型来模拟文档中词的产生过程。它将文档d表示为一个主题混合，文档中每个词作为主题混合中的一个抽样。但是PLSI并没有用一个概率模型来模拟文档的产生，只是通过对训练集中的有限文档进行拟合，得到特定文档的主题混合比例。这个过程导致PLSI模型参数随着训练集中文档数目线性增加，出现过度拟合现象，而且，对于训练集以外的文档，很难分配合适的概率。

针对PLSI所存在问题，Blei等在2003年提出了Latent Dirichlet Allocation(LDA)[2]，在PLSI的基础上，用一个服从Dirichlet分布的K维隐含随机变量表示文档的主题混合比例，模拟文档的产生过程。在文本的产生过程中，LDA首先从Dirichlet分布中抽样产生一个文本特定的主题多项式分布；然后对这些主题反复抽样产生文本中的每个词。作为一种生成式模型，用LDA提取隐含语义结构和表示文档已经成功的应用到很多文本相关的领域。在LDA的基础上，很多研究人员根据不同的应用需求，开发了多种模型,如Author-Topic Model[3]、Pachinko Allocation Model(PAM) [4]、ToT(Topic over Time) Model[5]等。

1 LDA模型[2]

LDA是一个多层的生成式概率模型，包含文档、主题和词三层结构。LDA将每个文档表示为一个主题混合，每个主题是固定词表上的一个多项式分布，这些主题被集合中的所有文档所共享；每个文档有一个特定的主题比例，从Dirichlet分布中抽样产生。LDA的图模型表示如图2所示，其中的变量及含义如表1所示。

（空心点表示隐含变量，实心点表示可观察值）

给定一个文档集合C，包含D个文档和W个不同的词，D={d1,d2,…,dD}，每个文档d包含一个词序列{w1, w2, . . . ,wN}，假定主题数目固定为T，LDA模型产生文本的过程为：

（1）从参数为β的Dirichlet分布中，抽取～Dirichlet(β)，i∈{1,2,…,T}，其中为一个多项式分布，表示基于主题的词分布。

（2）一个文档d的产生可以表示为以下两个过程：

① 从参数为α的Dirichlet分布选取一个多项式分布θd表示文档d中主题的组成，即θd～Dirichlet (α)

② 文档d中的每个词w的产生。

 从多项式分布θd中选取一个主题z～Multinomial(θd)。

 从多项式分布中选取单词w～Multinomial( )。

2 LDA模型的统计推断

对于主题抽取的需求来说，需要对概率生成模型的逆操作，推断给定数据集隐含变量的后验分布信息，包括：（1）每篇文档的主题分布θ；（2）每个文档集合的主题-词分布；（3）每个单词的主题指派z。近似推理（Approximate Inference）常用的方法有：马尔科夫链蒙特卡洛方法（Markov Chain Monte Carlo：MCMC）、变分法（Variational Methods）等。Gibbs抽样算法是一种马尔科夫链蒙特卡洛方法，它通过一次次的采样来最终逼近目标概率分布，是一种有效的推理方法。

为了获取词汇的概率分布，这里没有将θ和作为参数直接计算，而是考虑词汇对于主题的后验概率p(w|z)，利用Gibbs抽样间接求得θ和的值[6]。计算公式为：

其中，zi=j表示将词wi分配给主题j，z-i表示所有zk(k≠i)的分配，是分配给主题j与wi相同的词汇个数；是分配给主题j的所有词汇个数；是文本di中分配给主题j的词汇个数；是di中所有被分配了主题的词汇个数；其中所有词汇个数均不包括这次zi=j的分配。

对于每一个单一样本，可以按下式估算θ和的值：

其中，表示词汇w被分配给主题j的频数；表示分配给主题j的所有词数；表示文本d中分配给主题j的词数；表示文本d所有被分配了主题的词数。

三基于LDA的教育技术学文献主题挖掘

笔者选取了教育技术学领域的三种影响力较大的国际期刊《Educational Technology Research and Development》、《Education and Information Technologies》和《Journal of Educational Technology & Society》进行了文献主题挖掘。在内容选取上，选取了2004-2008年三种期刊已发表的所有论文题目和摘要的文本数据，数据集如表2所示：

1 数据集

2 主题分析

基于LDA模型，使用Gibbs抽样法，模型参数为：α=0.6，β=0.01，主题数=80，取样次数=3000，对数据集进行运算，计算出主题--词分布和文档--主题分布。表3是所抽取的主题示例。

文档--主题分布反映了文献内容的特点，即文献所涉及的主题或研究层面。如期刊《Educational Technology Research and Development》2007年12月第55卷第6期的一篇论文《Toward an instructional design model based on learning objects》，其主题分布中概率值最大的三个主题为Topic 45（教学设计）、Topic 59（学习对象）、Topic 71（远程教学），表明了该论文的内容主要涉及了这三个研究层面。

四文献分析

基于文献集合中提取出来的主题，可以对文献进行相似度分析。如果一些文献呈现某些相同的主题，则其文献意义间具有一定的相似度。

1 基于K-L Divergence的文献相似度分析

两个文档d1和d2之间的相似度可以通过其主题分布θd1和θd2来进行测量。一种常用的对概率分布之间差异进行度量的方法是通过Kullback-Leibler Divergence，也称为K-L散度和相对熵（Relative Entropy）。两个概率分布p和q的Kullback-Leibler Divergence定义为：。

K-L散度本身是非对称性的，在很多应用场合下，常使用Symmetrized K-L Divergence和Jensen-Shannon Divergence，它们具有对称性的特点，在实际的应用中也有较好的效果。对称性K-L散度（Symmetrized KL divergence）定义为：。Jensen-Shannon Divergence定义为：，其中，M=(p+q)/2。除此之外，对文档相似度的计算还可以通过其他相似度计算方法，如欧几里得距离（Euclidian Distance）、余弦相似度等方法。

笔者使用Symmetrized KL divergence，对数据集的文档进行了相似度分析。如期刊《Educational Technology & Society》2006年第9卷第4期的一篇论文《Web-based Tools for Designing and Developing Teaching Materials for Integration of Information Technology into Instruction》，与该论文相似度最高的文献是：

通过文献的相似度分析，可以为用户进行文献推荐。文献推荐能够帮助用户查找相关主题的文献，提高文献查找效率和准确性，从而有效地提高科技文献的可用性和价值。

2 文献的多维标度分析

多维标度MDS（Multidimensional scaling）源于心理测量学和精神物理学，最早被运用于心理测量领域。作为一种数据分析技术，MDS通过构建一个或多个矩阵来表示实体间的距离或相异程度，并利用各实体之间的相异性来构造多维空间上点的相对坐标图。构造的多维空间上的点与各个实体相对应，如果两个实体越相似，则它们对应于空间上的点之间的距离就越近。MDS可以有效地将高维空间中点际之间距离压缩到了低维空间，并以图形的形式直观呈现研究变量之间的相似性关系，以达到简化数据、揭示数据潜在规律的目的，广泛应用于社会学、经济学、心理学、教育学等研究领域，用于探索性数据分析或信息可视化。[7]

我们随机选取数据集中的20个文档进行了多维标度分析，所得到的二维空间分布图如下所示，从该图中我们可以得到如下信息。

（1）相似度高的文档（主题相近）在空间图中距离较近。

（2）分散在维度1（Dimension 1）与维度2（Dimension 2）两端的文档，在该维度上具有较大的相异性。如在维度1上，文档20和文档15分布处于维度两侧；在维度2上，文档0和文档37处于维度两侧。

（3） 20个文档中有两个比较明显的簇集，一个为：DOC 14、DOC 34、DOC 31、和DOC 40，另一为：DOC 5、DOC 543、DOC 524、DOC 511、DOC 539、DOC 59和DOC 529。每个簇集中的文档在主题上具有一定的相似度。

五结束语

文献数据检索和挖掘是当前数据挖掘领域的研究内容之一，可以有效提高学术信息的可用性，使用户能够快速准确地从急剧增长的科技文献等自由文本中获取知识，更全面的利用海量的文献资源。下一步的研究将在LDA模型基础上，综合考虑文献的其他要素，如作者信息、引文信息，进行文献网络的整体建模，深入对科技文献的分析和挖掘，并将研究结果应用于文献检索和学术推荐系统。

参考文献

[1] Thomas Hofmann. Probabilistic Latent Semantic Indexing [C]. Proceedings of the 22nd ACM SIGIR International Conference on Research and Development in Information Retrieval, 1999:50–57.

[2] David M. Blei, Andrew Y. Ng, Michael I. Jordan. Latent Dirichlet Allocation. Journal of Machine Learning Research[J], 2003,3:993–1022.

[3] Mark Steyvers, Padhraic Smyth, Michal Rosen-Zvi, et al. Probabilistic Author-Topic Models for Information Discovery[C]. Proceedings of the 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2004:306–315.

[4] Wei Li, Andrew McCallum. Pachinko Allocation: DAG-Structured Mixture Models of Topic Correlations[C]. Proceedings of the 23rd International Conference on Machine Learning, 2006:577-584.

[5] X.Wang, Andrew McCallum. Topics over Time: a Non-Markov Continuous-time Model of Topical Trends[C]. Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2006: 424-433.

[6] Thomas L. Griffiths, Mark Steyvers. Finding Scientific Topics [J]. Proceedings of the National Academy of Sciences of the United States of America, 2004, 101(Suppl. 1): 5228-5235.

[7] Ingwer Borg, Patrick Groenen. Modern Multidimensional Scaling: Theory and Applications (2nd Edition) [M]. Springer-Verlag, New York, 2005.