基于蚁群智能算法的研究文本分类
2016-11-09李波
李波
摘要:随着信息技术的不断发展,信息量也在呈现爆炸式的增长,对于海量、动态的文本信息,对其展开自动分类有着极为重要的现实意义。模式识别技术的进步对文本分类有着促进作用。文本分类由于具有样本众多、样本类别数目不均、噪音多、类目多等特点,导致各模式识别运用于文本分类中均有着缺点。本文尝试把蚁群智能算法运用到文本分类中,构建以蚁群智能算法为基础的文本分类模式。
关键词:群集智能 蚁群智能算法 文本分类
中图分类号:TP391.1 文献标识码:A 文章编号:1007-9416(2016)09-0126-01
1 基于蚁群智能算法文本分类模型
1.1 分类流程
基于蚁群智能算法文本分类模型大致上分为训练与测试两部分。训练部分分为三个阶段,规则构造、适应的计算、规则覆盖训练数据。利用训练过程获取分类规则,测试过程利用这些分类规则将文本集加以分类[1]。利用分类规则将文本加以分类的方法非常简便,基于蚁群智能算法的训练过程是其中较为重要的组成,其位代码为:
初始化的规则集RS是空;训练集含有M类;令TS是训练文本向量集,当训练文本向量集中第i个文本向量数大于阈值,运行ACORuleConstructer( )函数,更新规则集CTR是发现规则所覆盖的文本向量
1.2 规则构造
伪代码中涉及的构造函数ACORuleConstructer( )具体运算流程。需要进行如下操作。
第一步,初始化蚁群。将m只蚂蚁进行随机分布与第一个属性上的某节点。第二步,初始化信息素。所有路径包含的节点所含有的信息素设置为相同的浓度。其中:τij为条件所具termij有的信息素浓度;α是数据库中不含类别属性的所有属性的总数;bi是属性i全部可能被取的数据。第三步,蚁群移动。根据如下公式对下一节点进行选择。
对于每一个属性而言,它所具有的节点termij被选取的概率是Pij(t)。那么τij(t)是条件项的启发函数值。α与β是重要的参数,说明的是蚂蚁在进行路径选择时路径上所具有的信息数浓度与termij启发函数值所具备的重要程度。
第四步,规则修剪。规则有效性如何根据如下公式进行计算。
修剪方法的目的是依次去除可以使规则有效性能够得到提升的特征节点,也就是说移去无用的特征节点,最终使特征节点的移除均会时规则有效性得到降低。第五步,若达到规则足够良好或者迭代次数最大时,流程结束,否则重新从第三步继续开始。第六步,更新信息素的浓度。根据如下公式进行属性节点信息素浓度的改变。
2 模型验证验证方法及结果
本文对军事、交通、经济、教育四类中的数据集中随机选取共计3240篇文本文档进行测试。首先把全部数据平分为训练集A与测试集B。之后将A与B的数据输入到相应的程序中,使用χ2统计、信息增益、互信息、期望交叉熵等文本选取方式,取得与选取方式相对应的4组训练集的向量矩阵,计作Aj(j=1,2,3,4)。测试集向量矩阵计作 Bj(j=1,2,3,4)[2]。之后将矩阵分别输入到不同的分类公式中,得到不同的分类结果Cj(j=1,2,3,4)。选取其中结果最佳作为评价基准。最佳结果对应的矩阵输入到基于蚁群算法中,得到分类结果,将这两个结果进行比较。KNN、NB、SVM分类模型分别实用χ2统计、信息增益、互信息、期望交叉熵等特征选取方式得到MF和mF的凭据值。通过对测试结果进行分析发现,基于蚁群算法的分类效果相比于传统的分类模型的分类效果有着更好的分类分类性能,从比较结果来看,在数据集进行特征选择时,采用信息增益取得的效果最佳。
参考文献
[1]李建军,宋志章.基于混合智能算法的网页文本分类仿真研究[J].科技通报,2012,06(06):152-154.
[2]杜芳华,冀俊忠,吴晨生,等.基于蚁群聚集信息素的半监督文本分类算法[J].计算机工程,2014,11(11):167-171.
[3]杨义先,李丽香,彭海朋,等.群体智能算法及其在信息安全中的应用探索[J].信息安全学报,2016,01(01):39-49.