一种基于信息论的文本数据挖掘算法

2017-07-05方玉峰

电子技术与软件工程 2017年12期

方玉峰

摘要随着互联网技术的快速发展和应用，很多领域已经积累了海量数据资源，文本数据占据了85.6%，因此文本数据挖掘和分析成为人们研究的热点，并且引起了百度、Google、京东、腾讯等互联网公司关注。可以在文本数据挖掘中引入支持向量机、BP神经网络、K均值算法，但是这些算法需要依赖经验知识，不能够从多维度挖掘文本数据。因此，为了解决上述问题，本文提出构建一种基于信息论的文本数据挖掘算法，该算法可以从海量文本数据集中发现潜在的有价值的信息，提高文本分类的准确度。

【关键词】信息论文本数据数据挖掘准确度

1 引言

文本数据挖掘包括两个大类别，一种是有监督学习方法，比如BP神经网络、支持向量机、贝叶斯理论；一种是无监督学习方法，比如谱聚类、密度聚类、K均值、信息论等方法。有监督文本数据挖掘方法需要利用人们的经验，预先构建一个分析模型，然后尽可能地提高这个学习模型的准确性，从而保证文本数据挖掘的精确度；无监督学习方法却不需要任何先验知识，系统自动地将文本数据按照不同的关注角度进行分类。

2 文本数据处理发展现状

文本数据处理自从诞生之后，从简单的人工标注发展到当前的自动挖掘，文本数据挖掘取得了显著的应用成效。本文结合笔者实践知识，简要介绍BP神经网络、支持向量机、K均值三种具有代表性的文本数据挖掘算法。BP神经网络能够按照统计学规则，实现文本数据处理，输入层可以接收所有数据，并且将这些数据传输给中间层的神经元，神经元负责数据信息处理、变换，并且能够根据信息变化能力的需求，改变和整合中间层结构。文本数据流经过识别和处理之后，就可以从中间层分发到输出层，这样就可以完成一次学习过程，将BP神经网络训练成为一个准确度非常高的模型，还可以通过误差梯度下降等修正各个层次的权值，向隐藏层逐级反馈，实现反向传播和修正，提高文本数据识别精确度。支持向量机是一种基于统计学习理论的模式识别算法，是一个二类分类模型，在文本数据分析过程中，可以将文本数据划分为正常数据或非法数据，并且可以对文本数据进行深度分析。支持向量机是一种性能强大的文本数据分析技术，其可以解决样本数量较少、非线性或高维模式数据分析的问题，比如推广到函数拟合的其他类型数据分析问题中，可以更好地分析数据、识别模式，用于分类和回归分析。K均值（K-means）算法是一种基于距离的聚类算法，其可以把距离作为相似性评价和度量指标，采用无监督学习模式，通常两个文本数据对象的距离越近，这两个文本数据对象的相似性就会越高，不需要指定数据的类别标签就可以获取文本内部结构，将文本数据汇聚在一起，实现数据解释。

3 一种基于信息论的文本数据挖掘算法设计

在信息论中，熵是最基本的概念之一，熵可以用来度量随机变量中的各种不确定性，服从p（x）分布的离散随机变量X的熵H（X）的计算过程如公式1所示。

（1）

互信息可以描述任意两个概率分布之间的信息量，假设给定了任意两个随机变量（X，Y）服从概率分布p（x，y），同时变量X的边缘概率分布p（x）=∑Y p（x，y），变量Y的边缘概率分布p（y）=∑X p（x，y），则随机变量X和随机变量Y之间包含的互信息如公式2所示。

（2）

其中，如果随机变量X和随机变量Y之间是相互独立的，则两个随机变量之间的互信息I（X；Y）=0。

在使用文本数据挖掘算法的过程中，可以使用变量X描述文本数据对象集合，x可以具体指代某一篇文档；使用变量Y描述单词特征变量集合，y可以具体指代某一篇文档的单词特征。基于互信息的文本信息处理算法从X和Y两个方向开始聚类，详细描述如下：

从X方向挖掘文本数据过程中，可以将Y作为相关信息；从Y方向挖掘特征数据过程中，可以将X作为相关信息；X和Y在聚类过程中都是动态地减少，如果将所有的文本数据划分为多层聚类模式，就可以更加准确地挖掘数据内容，实现对数据的操作和处理。具体地，为了能够度量文本数据挖掘的内容，可以把互信息作为信息保存的量进行设置，如果互信息損失达到阈值，则可以停止算法执行。

为了能够验证本文算法的有效性，采用Lang收集2000篇信息文档进行实验，分为9个子数据集，每一个文本数据集包含了500篇文档，Binary_1，2，3表示拥有两个真实类别的文档数据集；Multi5_1，2，3可以描述拥有五个真实类别文档数据集；Multi10_1，2，3可以描述拥有十个真实类别文档数据集。通常情况下，文本数据挖掘采用精确度作为评价算法运行结果的标准，算法运行结果精确度评价公示如公式3所示。

（3）

其中，t∈T，其可以描述相关的数据对象；c∈C，其可以描述相关的类别号或簇标号；A1（c，T）可以描述相关的已经正确分配到c中的文档或元组的数量；A2（c，T）可以描述相关的算法不正确的分配到c中的文档或元组的数量；A3（c，T）可以描述相关的不正确的没有分配到c中的文档或元组的数量。

4 结束语

实验结果显示，本文提出的基于信息论的文本数据挖掘算法可以精准发现文档类别，文本数据挖掘精确度达到了96.7%，能够根据用户的输入请求推荐更加准确地挖掘结果，可以为百度搜索、搜狗、腾讯、京东等网站的搜索引擎提供服务，具有重要的作用和意义。

参考文献

[1]黄蓉.基于聚类分析的数据挖掘方法研究[J].山东农业大学学报（自然科学版），2017，48（01）.

[2]张军，刘文杰.一种新的基于邻居样本分布特征的异常值检测算法研究[J].科技通报，2017（01）：86-88.

[3]尹治华，张大鹏，谭明，等.一种改进的基于FP-Tree的高效挖掘最大频繁项目集算法[J].济南大学学报：自然科学版，2017，31（02）.

作者单位

云南科技信息职业学院云南省昆明市 650224