基于机器学习的文本分类技术研究进展
2016-03-27孙逸菲
孙逸菲
基于机器学习的文本分类技术研究进展
孙逸菲
沈阳化工大学信息工程学院,辽宁 沈阳 110142
信息化时代信息容量出现爆发性增长的趋势,信息量的增加在丰富人们生活的同时也会造成一定麻烦,为了实现科学高效工作就需要对海量信息进行有效管理。文本分类就是这样一种技术,这种技术能够帮助人们迅速获取准确信息。同传统的文本分类技术相比,基于机器学习的文本分类方式应用更为广泛,效果也更为明显。这项技术所发挥的作用也越来越重要,正因为如此就需要对基于机器学习的文本分类技术进行深入分析。从文本分类概念入手重点分析了当前的研究进展。
文本分类;机器学习;计算机
在经济社会快速发展的背景下,网络信息急剧增长,文本形式的信息更是呈现出了爆炸性增长趋势。在这样的背景下为了有效提升信息管理效率就要利用更为高效地文本分类技术。基于机器学习的文本分类技术已经成为近些年来人们普遍采用的一种方式,这样一种方式的应用能够起到非常重要的现实意义。
1 文本分类概念
文本是当前语言应用的主要形态,所谓文本分类实际上就是要在既定分类体系下来根据文本内容或者是属性把文本划分为一个或者多个预先定义的类别当中。如果从数学角度来看文本分类实际上就是一个映射过程,这个映射过程既可以是一一映射,又可以是一对多映射。[1]
文本分类是一项非常专业地工作,这项工作的进行是包含多个环节的,文本预处理、文本表示、特征提取、分类器选择训练、分类结果评价及反馈就是其中主要环节。文本预处理就是要把原始语了格式化成规范格式,文本模型实际上就是要把文本分解成基本处理单元;特征处理就是要总结出特征,然后进行科学分类,最后就是要对分类效果进行科学评价。
2 机器学习思想
当前对于机器学习还没有统一定义,对于这一概念也很难作出一个公正的定义。从当前实际研究情况来看人们通常把利用计算机来模拟人类学习活动看作是机器学习,通过机器学习最终目的是为了能够获得新技能和新知识。多数情况下所谓机器学习主要指的是计算机学习。这一概念诞生以来人们就开始探索如何利用机器学习能够更紧密地贴近人类学习,能够让计算机掌握人类智能。在这方面人们对此是取得了不小成果的。[2]
自20世纪50年代以来,人们对此研究正式开始。无知学习是50年代到60年代机器学习研究的阶段,在这一阶段的主要目标就是为了能够研究出各类自组织系统及自适应系统。在实际研究过程中为了提升系统执行力,人们也对系统控制参数进行不断改进。尽管如此机器学习还是难以满足人们需求。
第二阶段是从60年代中叶到70年代中叶。研究目标是模拟人类的概念学习过程,并采用逻辑结构或图结构作为机器内部描述。机器能够采用符号来描述概念(符号概念获取),并提出关于学习概念的各种假设。这种学习系统取得了较大的成功,但只能学习单一概念。
第三阶段是从70年代中叶到80年代中叶。在这个时期,人们从学习单个概念扩展到学习多个概念,搜索不同的学习策略和各种学习方法。机器的学习过程一般都建立在大规模的知识库上,实现知识强化学习。尤其令人鼓舞的是,该阶段已开始把学习系统与各种应用结合起来,并取得了很大的成功,促进了机器学习的发展。1980年,在美国CMU大学召开的第一届机器学习国际研讨会,标志着机器学习研究已经在全世界兴起。[3]
到了80年代中叶,人们对机器学习的研究开始越来越深入,诊断分类专家系统、声图文识别系统、工程控制等技术也得到了广泛应用。这些技术的应用使得机器学习所发挥的影响越来越大。
3 研究进展和现状
在了解基本概念之后本文将重点探讨基于机器学习的文本分类方法的研究进展,通过对研究进展的梳理能够使人们对此能够有更加深刻地认识。
(1)研究进展。20世纪50年代末人们开始对自动分类进行研究,美国IBM公司在这一领域更是起到了先驱作用,词频统计思想的提出和应用就是IBM的重大贡献。1964年Maron则是提出了关于自动分类的论文。进入60年代文本分类从原来的基于知识途径正式发展到了基于机器学习的阶段。在实际发展过程中基于机器学习的文本分类方法取得了丰硕成果,到了90年代正式取代了知识工程方法。从理论研究到正式应用,基于机器学习的文本分类法经过了多年发展,直到1975年以后这种方法才得以正式应用,其作用也才得以充分发挥。[4]
从国内研究情况来看,国内对于基于机器学习的文本分类方法的研究最早开始于20世纪80年代,候汉清教授是国内第一位对自动分类进行研究的学者,在实际研究过程中对国外计算机管理分类表等方面的内容进行了详细介绍。当时国内文本分类研究的方法也是非常单一的,在分类过程中主要是在英文文本分类基础上来结合中文文本自身特点从而来采取相应措施。在经过多年发展滞后,当前我国已经出现了一批自动分类系统,目前国内的自动分类系统主要是分为基于词典法的自动分类系统和基于专家系统的自动分类系统。总的来看当前我国基于机器学习的文本分类方法同外国相比还是有明显差距的,要想实现更为科学广泛地应用,今后工作中还需要不断加强研究。这样才能够满足需要。
(2)研究现状。当前针对基于机器学习的文本分类方法的研究是取得了不少进展的,同时也应该看到,在实际研究过程中也还存在着不少问题,具体而言存在以下问题:
缺少统一的中文语料库。至今尚无标准的用于文本分类的中文语料库,各个研究者分头收集自己的训练文本集,并在此基础上开展研究。因此语料库基本上都是针对自己的系统而规划的,不具有普遍性。
特征向量形成方法有待改进。特征向量的形成包括特征提取和权重确定两个方面,是文本分类中十分重要的一个环节,对文本分类正确率有着决定性的影响。在目前适用的方法中,普遍采取与词频和倒文档频率相关函数确定权重的方法,文本中很多其他的信息没有用上,造成了特征词权重的片面性。
分类方法的准确度。目前文本分类方法主要以机器学习方法为主,取得了较好的效果。但单一的分类方法往往在保证分类准确度和高效率之间难以取得平衡,实际需要建立一个即能保证分类准确度又能取得高效率的文本分类系统。
基于机器学习的文本分类方法是一种非常典型地方法,这种方法在实际工作中的应用对于提升信息管理效率具有非常重要的意义。为了能够满足实际需要,今后对于这种方法就必须要加强研究才能够满足实际需要。本文结合文本分析和机器学习的概念对基于机器学习的文本分类的研究进展进行了重点分析,通过详细分析可以发现当前的研究虽然取得了一定成果,但同时也应该看到也还存在着不少问题。对于这些问题今后应该展开深入研究,探讨针对性对策。
[1]李道国,苗夺谦,俞冰.决策树剪枝算法的研究与改进[J].计算机工程,2005,31(8):19-21.
[2]张云涛,龚玲.数据挖掘原理与技术[M].北京:电子工业出版社,2003.
[3]杨善林,倪志伟.机器学习与智能决策支持系统[M].北京:科学出版社,2004.
[4]杨学兵,张俊.决策树算法及其核心技术[J].计算机技术与发展,2007,17(1):43-45.
Research progress of text categorization technology based on machine learning
Sun Yifei
School of Information Engineering,Shenyang University of Chemical Engineering,Liaoning Shenyang 110142
The information age information capacity of explosive growth trend,the increase in the amount of information in the rich people's life but also caused some trouble,in order to realize the scientific and efficient work required to effectively manage the mass information. Text classification is such a technique that can help people quickly get accurate information. Compared with the traditional text classification,text classification based on machine learning is more widely used,and the effect is more obvious. This technology is playing a more and more important role,and it is necessary to conduct in-depth analysis of the text classification technology based on machine learning. This article will start with the concept of text categorization to analyze the current research progress.
text classification;machine learning;computer
TP181
A
1009-6434(2016)11-0144-02