一种深度学习的文本特征提取方法研究

2021-01-28王新艳

微型电脑应用 2021年1期

王新艳

(江苏联合职业技术学院徐州医药分院基础教学部, 江苏徐州 221116)

0 引言

随着网络大数据时代的到来，促使网络用户数量不断增多，包括短信息、新闻等在内的文本数据信息数量也随之迅速增加,如何快速高效获取所需信息成为研究热点，同时对如何实现及时有效的处理用户产生的文本信息提出了更高的要求。目前高效的文本挖掘技术已成为解决上述问题的重要手段,作为文本挖掘技术的研究基础，提取文章与主题的关键短语技术对文本挖掘的应用质量产生直接影响。

1 现状分析

近年来在对文本特征进行提取时，使用深度学习技术成为越来越多的研究者的研究重点，例如对高光谱图像的特征，通过使用多个卷积网络(包含卷积层与池化层)完成提取过程，再将其应用到图像分类及目标检测中，取得了良好应用的效果(Chen 等)[1]。关于文本特征提取，Liang等在相关文献已详细介绍了常用的文本特征提取方法(包括自编码神经网络、受限波兹曼机、循环神经网络等特征提取方法)[2]。针对文本分类特征，包括向量空间模型、卷积神经网络、模糊神经网络、深度信念网络在内的提取方法应用方面的讨论(从词袋模型方法到神经网络方法)[3]。目前在文本特征提取的研究领域，基于深度学习技术的提取方法称为研究重点，该类特征提取方法在图像领域应用较为广泛，但关于文本特征提取尤其是对中文文本的特征提取方面的研究成果较少，传统的手工提取方法得到的特征维度一般较大，降低模型训练效率的同时增加了资源消耗量。而对于中文长文本数据集，通过运用深度学习方法进行特征提取可有效简化文本特征提取过程，并使文本语义信息得到准确地表示，使模型训练效率得到进一步提高。

2 特征提取方法的原理及应用

数据量快速增加的文本信息增加了获取有价值信息的难度,对文本信息进行高效的分类是提升获取信息质量和效率的重要手段。特征提取在处理机器学习任务、数据挖掘、信息检索等中均发挥着重要作用。特征提取对机器学习任务结果的好坏产生直接影响，常用的分类任务所提取特征的质量决定着分类结果的质量。传统以人工提取为主的特征提取方法的特征提取结果中普遍存在冗余和同分类任务不相干的问题，同时较大特征的维度导致模型训练过程的资源消耗量较大，存在模型过拟合问题，在降低训练效率的同时会降低分类的准确率，为了解决这些问题通常需降维处理传统方法提取的特征，并从中挑选出部分最优的特征子集(可有效表示文本信息)，进而提高分类效果，但此种方法极大的增加了分类任务的工作量。为此本文在现有提取文本特征研究成果的基础上设计了一种卷积循环神经网络结构，并在此基础上结合运用卷积神经网络结构(用于句子分类)构建了一种特征提取方法，将知网中文学术论文数据集中的文本特征采用传统的特征提取方法(TF-IDF和Word2vec)进行表示，再经分类处理，实现了对原生的神经网络的分类效果的进一步优化，使用本文深度学习神经网络结构对高层文本特征进行提取时，能够有效提升文本信息表示的准确率及特征提取质量[4]。

2.1 卷积神经网络

对于文本分类通过使用卷积神经网络(CNN)已实现较好的分类效果的获取。本文以中文学术论文数据集作为处理对象，运用在分类中应用较为成熟的卷积神经网络建立特征提取模型，据此完成文本分类和文本语义信息的表示(即提取网络中的高层特征)，提取文本特征时使用到的卷积神经网络结构，如表1所示。

本文基于该网络结构中第8层的输出完成特征提取模型的建立，文本的特征向量则使用该网络中最高层的特征，通过使用128维的向量表示各样本可使特征的维度得到显著降低，进而使分类器的训练速度以及分类的准确率得到有效提升[5]。

2.2 TF-IDF

基于统计学的TF-IDF方法(即词频-逆文档频率，)可用于完成对词权重的计算，常用于特征向量化处理中，在对语料库中的某一文档同其他文档进行区分时，可先通过该方法评估一个词的重要程度，判断某个单词区分本文档和其他文档的能力强弱的依据为：该词在本文档中某个单词频繁出现，在其他文档中出现的较少，此时该词对应的权重值越大，即某篇文档的某个词频繁出现在其他文档中时，其区分能力较弱。为获取具体词汇描述文档内容的能力的计算结果，假设，某一词汇在文档中和第j篇文档中出现的频率和次数分别由TF和ni，j表示，对第j篇出现的次数求和由∑knk，j表示[6]。具体计算,如式(1)。

(1)

采用IDF度量某一词语的普遍重要性，计算某一词语的IDF由Ii表示时，假设，D表示语料库中的文档总数，jt1表示语料库中包含词语ti的文档数，则Ii的计算表达式，如式(2)。

(2)

式中，为保证不存在该词语时分母不为0，通常使用jt1+1作为分母。

高频率词语对应的TF-IDF权重值较高，假设，所计算文本的TF-IDF权重由Wi，j表示。具体计算表达式,如式(3)。

Wi,j=Ti,j×Ii

(3)

2.3 Word2vec

在自然语言处理领域，作为一种词嵌入工具的Word2vec(由谷歌开源出)应用较为广泛，为有效简化特征间的关系及相似性的计算过程，Word2vec词嵌入方式在向量空间中映射各特征词后通过一个向量进行表示，使文本的语义信息得到一定程度的刻画和表达，主要包括跳字模型(以中心词为依据对其上下文的背景词进行预测并调整中心词的词向量)和连续词袋模型(根据上下文背景词预测中心词，在此基础上对上下文背景词的词向量进行)两种。实际训练模型时，可通过负采样或分层 softmax两种训练方式的使用实现计算复杂程度的显著降低[7]。

2.4 循环卷积神经网络

本文结合运用卷积神经网络和长短期记忆网络(LSTM)在提取局部特征和高质量捕获上下文信息的优势，提出了一种新的特征提取模型及文本分类方法，该模型基于卷积循环神经网络(CRNN)，能够提取出高层特征。该网络模型结构,如表2所示。

表2 卷积循环神经网络结构

本文的特征提取模型的输出采用其中的第10层的输出，可用高层特征向量(60维)表示各样本，该模型主要由输入层、词嵌入层、卷积层、池化层、LSTM网络层和全连接层构成，输入文本信息后先通过卷积网络的使用完成多组特征的提取以及相应的池化操作，在此基础上完成文本中重要特征的提取与融合向LSTM神经网络传送，最终的分类结果由全连接层输出，能准确地表示文本的语义信息，通过使用该特征提取模型可使分类效率及质量得到有效提升[8]。

3 实验测试及结果分析

(1) 文本分类实验

本文选用知网上的包含10个文献类别的学术论文数据集作为实验数据集(包括化学、轻工业手工业、农业经济、铁路运输、体育、药学、新闻与传媒等，数据集为非公开数据集)，各类别均包含40 000条实验数据(每条数据均包含类别、标题、摘要、关键词4列)，数据集的80% 为训练数据，剩余作为测试数据，合并类别以外的其他三列得到一条长文本，采用该长文本信息进行实验。具体实验参数设置,如表3所示。

表3 CNN与CRNN文本分类实验配置

设计实验对使用CNN和本文CRNN的直接分类结果进行对比，最终结果取平均值。并使用本文的特征提取模型完成高层的文本特征的提取，接下来在SVM(采用高斯核函数作为核函数)和随机森林分类器(estimator参数设为 100)中分类所提取的特征，据此对比得到的分类结果[9]。

基于TF-IDF特征提取方法的文本分类实验，最大特征个数和最小文档频率分别设置为30 000和2，使用该方法提取出数据集的特征后，通过SVM和随机森林分类器完成分类操作。基于已预先训练好的词向量模型Word2vec的文本分类实验，将中文数据集中的各特征通过Word2vec进行表示后，将整个文本的特征向量使用各样本中的特征词向量连乘来计算，假设，对于i个文本，其特征向量由ti表示，其第n个特征的词向量由xin表示，如式(4)[10]。

实验过程中，对各个特征词无需通过迭代方式转换词向量，一次性完成文本数据集中的全部文本特征(通过神经网络中的词嵌入层完成)到Word2vec词向量(预训练好)的转化，再将通过对其生成的文本特征向量进行分类，显著提高实验的效率。

(2) 结果分析

具体的分类结果,如表4所示。

表4 学术论文数据分类结果

相比于TF-IDF和Word2vec方法，在分类器中通过本文方法提取的文本特征所获得的分类结果的质量更佳，说明文本的语义信息通过该方法提取的文本特征向量可准确高效地表示出来，因为使用TF-IDF(打乱了词的顺序)和Word2vec方法表示文本时分别存在忽略了词的上下文关系及易丢失词的语义信息(尤其是在文本相对较长时)的问题和不足。通过实验采用论文数据集文本验证本文提取方法，相比于CNN ，得到了更好的特征提取分类效果，提取质量及效率得到有效提升，证明了该特征提取方法以及提取算法的有效性。

4 总结

本文针对自然语言处理过程，在分析了文本分类及特征提取方面的研究现状的基础上，基于深度学习设计了一种文本特征提取方法，该方法基于卷积循环神经网络(CRNN，继承了卷积神经网络的优势)，提升了局部特征提取能力，具有循环神经网络LSTM的记忆能力，在此基础上通过前后关联提取的特征实现对文本含义更高质量地表达。接下来将以中文的文本语义理解作为研究重点，探索如何实现大规模长文本的分类应用。