APP下载

基于BP神经网络的文本分类算法研究与设计

2018-01-05王雪丽宋启祥

通化师范学院学报 2018年2期
关键词:精确度共振文档

王雪丽,宋启祥

基于BP神经网络的文本分类算法研究与设计

王雪丽,宋启祥

随着云计算、大数据、互联网等多媒体技术的快速普及和发展,文本分类已经在多领域取得显著应用成效,因此文本分类已经成为百度、天猫、京东等各大搜索引擎准确运行的关键技术.该文详细地描述了BP神经网络算法及其应用现状,同时针对这些BP神经网络算法引入自适应共振理论,构建一个自适应的BP神经网络算法,与BP神经网络算法、K均值算法相比,实验结果表明文中的算法可以提高文本分类的准确度.

BP神经网络;文本分类;自适应共振理论;数据挖掘

互联网、云计算、多媒体等信息技术的发展,促进了分布式管理系统在电子政务、智能旅游、在线学习、电力通信、金融银行等领域中的应用,这些自动化软件运行积累了海量数据,并且这些数据增长速度较快[1].为了更好地利用数据资源,许多研究机构和产业公司提出了分类搜索、深度学习技术,尤其是在文本分类方面,根据用户输入的信息精确定位期望的信息,从海量数据中查找到有价值的知识,提出了BP神经网络、支持向量机、K均值、贝叶斯理论等技术,将散乱的、无序的文本数据形成文档簇,这些文档簇内部具有高度相似性,簇之间高度相异,因此就可以根据用户输入的文档信息主体划分数据资源,提供一个合理的知识解释和决策信息[2].但是,网络文档按照指数级速度上升,评价的维度也日益增多,提高聚类算法在文本数据中的应用精确度,已经成为人们研究的热点.本文提出基于自适应共振理论改进BP神经网络算法,该算法可以利用自适应反馈学习机制,提高模型分类的准确度,实验结果表明该算法具有良好的可用性.

1 BP神经网络概念及应用现状

BP神经网络又被称为连接机模型,它是基于心理学、现代神经学等专业的研究成果建立的,是生物神经系统活动过程在其他领域的再现和表现,是模仿人的大脑神经系统活动的规律建立起来的计算模式,是对众多需要处理的单元进行互联形成的网络系统,其基本特点或特征与生物系统所具有的基本一样,很大程度上体现了人脑功能的反应,是对生物系统在一定程度上的模拟和再现,其包含自行学习和组织、分布式处理数据等优点,在语音分析、计算机视觉、图像识别等方面具有突出的贡献[3].目前,人工神经网络技术得到跨越式的发展,已经成为模拟识别的主要工具,其应用开辟了新的领域,在一些领域已基本取代了其他模式识别的应用,尤其在模式识别与分类的应用上处于领先地位.传统的神经网络算法包括三个层次,分别是输入层、隐含层和输出层,如图1所示[4].

图1 BP神经网络算法处理模型

BP神经网络在语音识别过程中,可以利用语音波形进行拟合,从而实现语音的识别,目前已经在门禁系统、银行取款、手机解锁等领域得到普及.BP神经网络在图像分类过程中,可以提取图像中的特征信息,利用特征信息进行分类和对比,将具有相同特征的图像划分到一起.BP神经网络在计算机视觉处理过程中,可以将拍摄到的帧序列按照时序信息、空间信息进行处理,同时可以将计算机视觉图像中的相同目标物体进行分类,实现人体、景物的分类和定位.BP神经网络在文本图像识别过程中,由于文本数据急剧上升,造成BP神经网络运行速度慢,同时拟合分类的准确度较低,因此亟需引入新的算法进行改进.

2 基于BP神经网络的文本分类算法设计

2.1 算法设计

为了改进BP神经网络文本分类算法,本文提出引入自适应共振理论(Adaptive Resonance Theory,ART)之后,可以将其划分为两个关键的子系统,分别是注意子系统和调整子系统,因此算法通过两个子系统和控制机制之间的交互作用就可以处理熟悉或不熟悉的事件,算法模型如图2所示[5].

图2 基于自适应共振理论的神经网络算法

其中,F1表示神经网络的隐含层,F2表示神经网络的输出层,调整子系统是由A和STM重置波通道组成,STM表示神经元的激活值,也即是由S函数经过处理的输出值,LTM是指权系数[6].

基于自适应共振理论的神经网络能够实时地进行学习,具有自归一能力,可以在系统不稳定的环境下进行有效的学习,并且可以很快地识别学习对象,建立一个新的输出方式.基于自我学习机制的审计网络可以与选择性机制有效结合,应用于计算机视觉过程中包括两个方面的内容,一方面是采用选择性注意机制针对计算机视觉处理对象进行预处理,提取输入图像的显著特征作为神经网络的输入向量.另一方面是利用神经网络的自学习机制调整隐含层参数,这样就可以根据应用需求形成一个强大的分类识别结果.基于自我学习机制的神经网络可以通过竞争机制在F2中构建一个对应于输入模式的相关编码,实际上就是对外界输入模式进行学习,以便能够得到一个最佳的权系数.具体地,神经网络算法主要内容包括从F1到F2,从F2到F1两个权系数的学习过程.本文为了验证算法的有效性,采用自下而上的权系数学习算法.F1到F2的学习方向又被称为自下而上权系数学习模式.F1网络中的神经元可以使用Ni描述,F2网络中的神经元可以使用Nj描述,F1中的神经元Ni到F2的神经元Nj的权系数使用Wij描述,并且在学习时,权系数Wij可以使用的公式(1)描述.

其中:f(xj)描述神经元Nj到F1的输出信号;h(Xi)描述神经元Ni到F2的输出信号;Eij和K1表示相关的参数,参数Eij可以使用公式(2)表示.

其中,L可以描述常数L-1=1/L.如果参数K1取值为常数,则其取值为K1=KL,则权系数为Wij的微分方程如公式(3)所示.

当F2层中的神经元Nj的输出为正值时,位于F1层中的神经元节点Ni可以按照速率为影响权系数Wij的改变.

因此,利用自适应共振理论BP神经网络可以构建一个文本分类模型,并且针对这个文本分类模型进行训练,提高数据发现的准确度,数据挖掘利用自学习功能,可以利用互信息距离作为相似性评价和度量指标,采用无监督分析模式,通常两个数据对象的距离越近,这两个数据对象的相似性就会越大[7].通常情况下,文本数据虽然量非常大,但是这些文本在协作风格、主题内容等方面都有特别的自身特点符号,具有内在的相似性行为和特征,系统可以针对这些数据进行分析和评价,从而不需要指定数据的类别标签就可以获取文本内部结构,将数据汇聚在一起,实现文本分类.基于自适应共振理论BP神经网络的文本分类系统结构如图3所示.

图3 基于自适应共振理论BP神经网络的文本分类系统

2.2 实验及结果分析

本文实验数据集来源于Lang收集的数据集,这个数据集共计包含2000篇信息文档,并且分为20个种类,对每一件文档都进行了评论,每个评论组均包含100个用户,因此评价指标包括2000个评价得分[8].本文通过对2000篇文档进行评价,将其分为9个子数据集,每一个文本数据集包含了500篇文档,每一个子数据集都是从2000篇文档中随机挑选的,具体的,Binary_1,2,3表示拥有两个真实类别的文档数据集;Multi5_1,2,3可以描述拥有五个真实类别文档数据集;Multi10_1,2,3可以描述拥有十个真实类别文档数据集.

通常情况下,文本数据挖掘采用精确度作为算法评价运行结果的标准,算法运行结果精确度评价如公式(4)所示.

其中,t∈T,其可以描述相关的数据对象;c∈C,其可以描述相关的类别号或簇标号;A1(c,T)可以描述相关的已经正确分配到c中的文档或元组的数量;A2(c,T)可以描述相关的算法不正确地分配到c中的文档或元组的数量;A3(c,T)可以描述相关的不正确地没有分配到c中的文档或元组的数量.

在MATLAB集成开发环境中实现了本文改进的BP神经网络算法,并且将数据输入之后进行运行,通过观察可以得知,在9个数据集上,本文算法可以很好地发现真实文档之间存在的模式,更加精准地寻找到潜在结构和类别,尤其是在两类文档中,算法分析的精确度可以达到95.23%,因此,可以发现针对二类的文本数据划分具有最好的效果;同时,随着数据集类别的增加,每一种算法的运行精确度都在下降,但是本文算法依然具有较高的准确度,这就表明随着数据集的增加,本文算法具有较强的鲁棒性和稳定性,能够更好地发现文本数据集中蕴含的类别,能够推荐更符合和满足用户需求的文档数据搜索结果,具有非常重要的意义和价值,这些搜索数据集结果可以为百度搜索、搜狗、腾讯、京东等网站所使用,更好地为用户提供真实文档数据分析服务,发掘潜在的价值.算法运行结果如表1所示.

表1 三种算法的实验结果精确度对比

3 结束语

文本分类作为智能搜索的重要技术之一,其已经在有监督学习和无监督学习两个方面获得了广泛的研究和关注,提出了支持向量机、BP神经网络、贝叶斯理论、谱聚类、K均值、密度聚类等多种技术,这些技术可以根据有标识或无标识等内容训练一个分类模型,然后针对这个模型进行自动化学习,提高文本分类的精确度.

BP神经网络作为一种先进的文本分类技术,文本分类过程中存在精确度低等问题,因此,引入了自适应共振理论,进一步利用文本数据中蕴含的有价值信息,将这些信息进行分类和挖掘,可以从不同的角度进行分类和操作,将文本信息划分为多个类别,实验结果显示基于自适应共振理论的BP神经网络能够提高文本分类准确度.

Research and Design of Text Classification Algorithm Based on BP Neural Network

WANG Xue-li,SONG Qi-xiang
(Suzhou University,Suzhou,Anhui 234000,China)

With the rapid development and popularization of cloud computing,big data,Internet and multimedia technology has achieved remarkable results in many application fields and accumulated the massive text data.So text classification has become the key technology of Baidu,Tmall,Jingdong and other major search engines and accurate operation.This paper describes the BP neural network algorithm and its application status.At the same time,according to the BP neural network algorithm using adaptive resonance theory,BP neural network algorithm were used to construct an adaptive,compared with the BP neural network K algorithm,K-means algorithm.The experimental results show that this algorithm can improve the accuracy of text classification.

TP301.6

A

1008-7974(2018)01-0070-04

10.13877/j.cnki.cn22-1284.2018.02.018

2017-03-22

王雪丽,女,安徽宿州人,宿州学院教师(安徽 宿州

[1]黄磊,杜昌顺.基于递归神经网络的文本分类研究[J].北京化工大学学报(自然科学版),2017(1):98-104.

[2]邹晴,钮焱,李军.基于模糊积分的多分类器融合文本分类研究[J].湖北工业大学学报,2015,30(2):95-98.

[3]李滨旭,姚姜虹.基于改进QPSO和RBF神经网络的文本分类方法[J].计算机系统应用,2016,25(7):264-267.

[4]段建,翟慧敏.深度卷积神经网络在Caltech-101图像分类中的相关研究[J].计算机应用与软件,2016,33(12):165-168.

[5]曾勇,舒欢,胡江平,等.基于BP神经网络的自适应伪最近邻分类[J].电子与信息学报,2016,38(11):2774-2779.

[6]邓青,马晔风,刘艺,等.基于BP神经网络的微博转发量的预测[J].清华大学学报自然科学版,2015,14(12):1342-1347.

[7]贾熹滨,李宁,靳亚.用于文本情感极性分析的动态卷积神经网络超限学习算法[J].北京工业大学学报,2017,43(1):28-35.

[8]王全鑫,李可,王浚,等.基于改进神经网络的航天器电信号分类方法[J].北京航空航天大学学报,2015,22(12):1774-1779.

王前)

猜你喜欢

精确度共振文档
浅谈Matlab与Word文档的应用接口
有人一声不吭向你扔了个文档
ZJP56型组合绳锯组锯机超谐共振分析
“硬核”定位系统入驻兖矿集团,精确度以厘米计算
选硬人打硬仗——紫阳县党建与脱贫同频共振
凝心聚力 互促共进 实现机关党建与文明单位创建合拍共振
放缩法在递推数列中的再探究
Word文档 高效分合有高招
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
改革是决心和动力的共振