APP下载

浅谈覆盖算法在文本分类中的应用

2019-11-12胡超

电脑知识与技术 2019年25期
关键词:文本分类

胡超

摘要:随着我国信息的不断膨胀,基于传统算法模式下的文本分类已经不能满足时代的需求,基于覆盖算法的构造性神经网络文本分类算法,可以有效地解决因为数据量过大而无法实现分类的弊端。因此,本文使用覆盖性前后神经网络算法,从文本的预处理入手,构造了文本的自动分类,并且做出了相应的实验,从实验结果当中来看,覆盖性前后神经网络算法无论是对于文本分类的准确度还是容纳的数据量都远远高于传统算法。

关键词:覆盖算法;文本分类;文本预处理;实验构建

中图分类号:TP311      文献标识码:A

文章编号:1009-3044(2019)25-0278-02

随着我国经济的高速发展,科技水平的病毒案提高,我国已经全面进入了互联网时代,以互联网为基础的信息出现了爆炸式的增长,文本信息作为信息的主体,但是目前我国对于文本信息的分类算法还存在各种各样的不足,文本信息的搜索能够实现文本的分享和查找,是我国广大人民群众最实际的需求。要从如此膨胀的文本信息当中找到自己所需要的信息,文本的自动分类的处理就显得尤为重要,基于覆盖式算法的文本分类可以帮助我们更好地查询和发掘信息。但是由于互联网产业的高速发展,基于传统算法模式下的文本分类已经不能满足广大人民群众的需求,如何利用新型的算法实现更加快速的文本分类,成为目前我国信息产业最需要解决的问题之一。

1 文本分类

随着我国经济水平的不断发展,科技水平的日益提高,互联网产业的不断普及,特别是改革开放以后,我国的信息出现了爆炸式的疯狂增长,文本信息作为信息当中最主要的一部分,在各种各样的媒体信息当中,文本分析的分类也是目前我国广大人民群众最需要的地方,但是因为数据的日益膨胀,如何在如此多的文本信息实现分类的检索从而方便客户找到自己虽需要的资料,算法在文本分类当中的作用就显得越来越重要。在文本的具体分类当中,首先需要对于文本实现基本的预处理,然后通过去除停用词和去除稀有词,通过特征提取,构造专门的自动分类器实现自动分类文本,大大节省了人力物力的同时有效地提高的文本分类的效率。

1.1 文本分类的预处理

目前我国的文本预处理和欧洲发达国家的文本预处理之间最大的一个差别就是在欧美发达国家词汇之间存在一个明显的空格,而我国却规定了文本的预处理必须是连续的字符串,词汇之间没有空格,针对这一差别就要去我们在进行本文预处理的时候,必须确定好特征选项,例如字符,词句,字符串等,现目前最实用的特征类型采用词为基本单位是最高效的处理方式。从实质来看所谓的文本处理和分类就是在某一个特定的文本分类系统下,根据文本之间内容的差距自动分类文本,如果从数学的角度来看的话,其实文本的分类属于一个映射的过程,就是将未标注的文本映射到现有的分类体系当中,这种分类可以一对一,也可以实现一对多。简单来说就是一个文本可以对应一个分类,也可以对应多个分类。而且我们需要理解中英文之间的差距,对于中文的文本分类来说,我们需要基于字符串匹配的方式去实现文本的分类,还需要进行标注和识别,一般我国对于文本的预处理一般为以下三种。

1)去除停用词

具体来说就是在实际根据文本特征进行分类的时候可以根据此行的标识去过滤一部分形容词或者虚词,只保留语句当中较为重要的名词动词。一般来说对于文本中文词汇的分析分为三个主要阶段,分别是词汇的拆分,未登录词汇的识别,标注词汇等三个步骤。进行具体的拆分之后将文本当中出现频率较高但是概念模式并且范围较为广泛的词汇停用。对于某一些词汇使用概率较高的词汇也可以当中停用词停用。

2)去除稀有词

所谓稀有词,顾名思义就是在整个文档当中出现频率都较高的词汇,这些词汇不能作为文本的特征选项,一般我们会选择设定一个词汇数值,低于这个数值的词汇就会当作稀有词汇去除。

3)词汇合并

词汇合并就是将词汇意思相同但是具體表达不同的词汇进行合并,当作同一个词汇进行计算和处理。

1.2 文本的基本表示方法

由于文本的处理和分类不是依靠人工而是使用计算机,所以我们需要将文本转换成计算机能够分别和识别的表示模式,因为大部分计算机不具有智能,不能识别文字,但是我们可以通过将文字转换成0.1模式让计算机进行识别。我们可以将文本当作的词句拆分之后,通过词句的组合来代替文本,以计算机为基础实现文本的实现和分类。

目前在文本信息的处理上,文本的表示一般采用向量模式VSN,利用向量去表示文本,将文本当作的词句作为特征选项,在实际的实践当中我们发现,词相对于句或者字来说,具有更好的特征性。所以我们要建立向量模型就必须要对于文本的词汇进行分类,将文本用词汇组合的方式表达出来,并且根据词汇出现的频率具体化的表示文本,主要使用TF-IDF公式来建设和实现文本的表示。

1.3 特征选择

在信息文本的分类当中,特征选择是最重要的部分,特征选择就是通过去除不能表达信息的词汇,分类和提取重要词汇。特征选择可以有效地提高信息文本分类的效率降低所需要的计算量。特征选择的方式一般是通过构建评价函数,然后通过特征集的特征去对于分本进行分类,这样会让文本得到一个大概的分值,在根据所得分支大小将文本排序,选择特征文本当中的特征子集,然后通过特征子集实现文本的分类。一般来说,我国目前常用的特征选择为以下四种。

1)通过文本的频率实现文本特征的选择,当文档当中某一个词汇出现的频率小于某一固定值或者大于某一固定值的时候就可以将该词汇停用或者去除,提高文档分类的准确性。

2)通过信息增益实现文本特征的选择,所谓的信息增益也就是这个词对于这个文档分类的价值,如果该词汇的价值较低就将词汇停用。

3)X2统计量,所谓统计来就是文档当中某一个词汇和文档的独立性以及相关性,当词汇和文档的相关性越高,独立性越小那么这个词就当作文档分类的重点词汇,如果该词和文档的相关性较低,独立性较高那么在文档分类的时候就删除或者停用这个词。

4)期望交叉熵,期望交叉熵的特征选择是通过鉴定词汇对于本次分类的影响比重,如果本次词汇对于文档分类的影响比重超过某一固定值,那么就将该词当作文档划分的重要依据。

2 覆盖算法

2.1 前后神经网络交叉覆盖算法

如果一个文档经过上述所有预处理之后,那么这个文档就变成了一个特征选择文档,我们就可以通过前向神经网络交叉覆盖算法去进行文档的分类,所谓前向神经神经网络覆盖算法就是通过某一个输入集合例如K(K为N维的欧式空间的集合),然后我们在将集合K细分成八个不同的小集合K1,K2,K3,K4,K5,K6,K7,K8.然后再具体的网络机构实现的时候,建立一个圆球性区域当作一个神经元,每一个神经元的功能函数表达式为

将X,Y分别当作内积,这时候就可以形成一个以X为主体,以O为具体值的覆盖区域C,将样品当中的每一个点都映射到最开始设定的神经元网络当中,按照这样的方法可以得到文档的全部覆盖和具体分类。

前向神经网络交叉覆盖算法可以快速地构建一个分类正确的神经网络体系,对比于传统的文档分类算法,前向神经网络交叉覆盖算法可以提高效率。

2.2 算法的具体应用

要想实现前向神经网络交叉覆盖算法的具体应用,那么就必须学习算法,首先我们需要设定一个具体的样本X并且将它划分为N类,利用数学表达为X=(X1,X2,X3...XN),具体的应用为,先将X样本当中计算得出一个最大的模R,然后将X当中的每一个类,映射到半径为2R的圆球当中,分别设定好覆盖的数值和类别的数值,将类别覆盖到设定好的覆盖数值当中,如果无法覆盖则将这个类停用,如果可以覆盖就按照具体构造公式计算这个类的覆盖范围,实现前向神经网络交叉覆盖算法的具体应用。

2.3 算法的准确性测试

要实现前向神经网络交叉覆盖算法的精准性测试,就必须通过给定一个具体的测试样本,若果这个测试样本符合之前设定的类别当中某一个类别的圆球形区域,然后将其带入算法当中计算,如果计算结果和最后的文档分类正确那么本次前向神经网络交叉覆盖算法准确性合格,如果带入算法之后无法计算或者最后的文档分类出现错误,那么本次前向神经网络交叉覆盖算法精准性测试不合格。

3 实验结果和具体分析

本次的前向精神网络交叉覆盖算法的实验,通过实现基于互联网检索并且人工审核之后确定分类的文档,本次文档的类别分别为交通类,体育类,自然类,灾害类,生活类,娱乐类六个大类,每个大类挑选了200个文档,将每一个大类的文档分别挑选出100篇训练和100篇测试。再训练类文档当中,通过稀有词除去,停用词去除以及词汇合并的方式,确定每一个文档的特征选择,然后统计总计成为该文档的特征词汇表,再将100个测试文档进行计算,通过对于前向神经网络交叉覆盖算法去进行分类,然后通过计算准确率和查全率两个方法验证本次覆盖算法的准确性。准确性=正确文档分类个数/总文档个数,查全率=正确文档分类个数/属于该类别的文档个数。

具体实验如下所示:

根据实验数据表可以看出本次前向神经网络交叉覆盖算法的精准性较高,可以较为快速快慰准确的分别出文档的类别。

4 总结

文档的分类实质上就是通过文档的特性词汇和内容的识别,将文档划分到不同的类别当中,可以让用户更加准确和快速地查找到自己所需要的相关资料,目前文档的自动分类已经成为我国信息文档處理最主要的方式之一,本次基于前向神经网络交叉覆盖算法通过去除停用词和稀有词以及词汇合并的方式,构建一个类别文档的选择标准,然后实现对于该类别文档的选择和分类。本次基于前向神经网络交叉覆盖算法的文档分类具有较高的准确性,而且文档分类速度较快,比起传统模式的文档分类具有较大的优势。

参考文献:

[1] 高洁,吉根林.文本分类技术研究[J].计算机应用研究,2014(7).

[2] 王灏.文本分类实现技术[J].广西师范大学学报,2011(9).

【通联编辑:李雅琪】

猜你喜欢

文本分类
基于组合分类算法的源代码注释质量评估方法
不同情境下中文文本分类模型的表现及选择
基于内容的英语录音教材标注研究与应用