基于自编码神经网络的文本表示应用研究
2016-11-10俸世洲
俸世洲
(重庆师范大学涉外商贸学院,401520)
基于自编码神经网络的文本表示应用研究
俸世洲
(重庆师范大学涉外商贸学院,401520)
本文主要研究高校招生领域Web短文本的表示方法及处理步骤。基于自编码神经网络对输入数据的要求,研究文本预处理的主要技术:中文分词、停用词处理、降维处理,文本向量化表示等技术,并分析了文本表示的处理流程。
高校招生自编码;中文分词;文本表示
0 引言
随着互联网的发展,留言板、QQ、微信等媒体在招生工作中的应用越来越频繁,积累了越来越多的电子文本数据,如何有效地利用这些大数据资源已经成为招生领域急需解决的问题。为从这些数据资源中挖掘有利于改进招生工作的信息,尝试利用当下最热门的深度学习算法来挖掘文本数据,基于此算法必须找出一个适应其输入的文本表示方法,本文分别从中文分词、停用词处理、降维处理、文本向量化表示等技术入手,分析文本表示的处理流程。
1 分词处理
分词处理具体包括了若干步骤,如图1所示:
图1 中文分词处理流程
(1)从留言板后台获取数据库,数据库为MDB格式,只保留留言主题、留言问题及问题回复三个字段,把其余字段去除,这三个字段包含的信息量最大,其中包含了考生咨询的主题、具体细节以及回复人员的解答。通过数据库工具把这三个字段导出到文本编辑工具当中。
(2)利用文本编辑工具如记事本、word或excel,去除HTML代码及多余的符号。由后台数据库导出的数据当中存在很多HTML代码,如:<font color="#cc0000">回复内容</font>,需要手动去除掉,保留纯文本的部份。
(3)目前应用比较广泛的中文分词工具有NLPIR/ICTCLAS分词系统和教育部语言文字应用研究所的分词和词性标注程序。本文选用后者用于试验,此系统可以对文件进行批量处理,并同时标注词性,利于下一步去除停用词等工作。如图2所示:
(4)分词和词性标注完成后,得到分词及标注后的文本文件,从中可区分出名词、动词、停用词、叹词等词性。去除停用词等不需要的词,这也是对文本进行降维的方式。
通过以上几步的处理,输出纯文本文件,准备下一步的文本向量化表示。
图2 分词和词性标注程序
2 文本向量化表示
文本文档是字符的集合,是非结构化信息,神经网络不能识别,必须将其转换成统一的结构化形式,才能够进行进一步的分析和处理。1975年,Salton提出的向量空间模型(Vector Space Model)是文本分类中应用最广泛的一种文本表示模型。在该模型中,所有出现在文本中的特征项被作为向量空间中的一维,n个特征项就构成一个n维的特征向量空间。每一篇文档都表示成一组特征词组成的特征向量,其中表示特征词k在特征向量中的权重。权值的取值范围为[0,1]。
向量空间中,主要有以下几种权重计算方式:布尔加权法,词频加权法,加权法。假设为特征项在文档,出现的频率,n为文档集中文档总数,为在文档集中出现文档特征项的文档数量。
(1)布尔加权法
布尔权重也叫二值权重或二元权重,是最简单的权重计算方法。如公式1所示,当特征项出现在文档中时,权重为1,否则为0。
即,公式1
(2)词频加权法
用特征频度作为权重。即。
(3)加权法
加权法是使用比较广泛的权重计算方法。特征在文本中出现次数越多,越重要;特征在越多的文本中出现,越不重要。即,。
基于自编码神经网络对输入数据的要求,并且留言板文本属于Web短文本,用布尔加权法来表示更加适用。本文选择布尔加权法表示文本向量。词频统计工具我们采用教育部语言文字应用研究所的字词频率统计工具,如图3所示:
统计过后,去除出现频率过高或过低的词,并构建特征词表。最后通过程序构造出布尔编码向量,形成自编码神经网络的输入数据。
图3 字词频率统计工具
4 结语
本文通过一个文本预处理实例分析了中文分词、停用词处理、降维处理、文本向量化表示等技术的实施步骤,并为后期的文本分类等工作做好数据准备。
[1] SONGF,LIUS,YANGJ.Acomparative study on text representations chemes intext categorization[J].Pattern Analysis & Applications, 2005, 8(1): 199-209.
[2] 杨杰明. 文本分类中文本表示模型和特征选择算法研究[D].长春:吉林大学,2013
1981年9月出生;工作单位:重庆师范大学涉外商贸学院;重庆大学计算机系统结构专业硕士,助理研究员职称,研究方向:数据挖掘,人工智能,人工神经网络
Research indicates neural network based on self-encoding text
Feng Shizhou
(Chongqing Normal University Foreign Trade And Business College,401520)
This paper studies the field of representation College Enrollment Web and short text processing steps.Based on self-encoding neural network input data requirements,the main technical pretreatment study text:Chinese word,stop word processing,reduce the dimension text representation techniques to quantify and analyze the process flow text representation.
College Admissions self-encoding;Chinese word;text representation
项目支持:重庆市教委科学技术研究项目KJ1501703重庆师范大学涉外商贸学院科研项目KY2015004