基于CNN深度学习的自媒体文本分类方法的研究

2021-09-23祝亮

电脑知识与技术 2021年21期

祝亮

摘要：随着内容人工智能分发系统的不断成熟，各社交新媒体平台采用千人千面的分发机制，满足了广大用户的线下兴趣阅读需求，让不同年龄和阶层的人群都成为自媒体文章的消费者。在经济效益的驱动下，越来越多的团队和个人在内容创作上的持续增加投入，产生了巨量的自媒体文章。对自媒体文章的文本分类研究，在舆情监控、广告投放、情感分析和商业推荐上都有很重要的意义。用经典的文本分类方案来做自媒体文章分类，存在很多挑战。因此有必要对自媒体文章分类进行针对性的探究，为自媒体文章提供更好的文本分类器以满足进一步的应用。该文比较了经典的贝叶斯算法和基于深度学习的CNN算法在自媒体文章分类上的性能差异，并引入了word2vec /FastText/Glove等词向量工具来优化CNN算法，通过实验验证了这种优化带来的效果优势。

关键词：文本分类;CNN;深度学习;word2vec;FastText;GloVe;贝叶斯

中图分类号：TP391 文献标识码：A

文章编号：1009-3044（2021）21-0097-04

开放科学（资源服务）标识码（OSID）：

1 背景介绍

近年来，移动设备、大数据和人工智能不断向消费市场发展。大量的不同年龄不同阶层的用户，习惯于通过Web、H5、轻应用（包括小程序/快应用等）和App来获取信息，甚至进行重度学习。为了提高平台用户的黏性，各产品都采用了千人千面的智能推荐算法，主动给用户推送符合其兴趣口味的内容。这种智能内容推送机制，进一步解决了小众领域创作者的内容分发问题，刺激了作者的创作热情。这种分发机制激励了各垂直领域的创作者持续进场，持续产生了海量的自媒体文章。为了对这些海量的自媒体文章进行定量研究，需要对这些自媒体文章进行NLP处理，例如常见的主题模型分析、无监督的聚类和有监督的文本分类技术处理。

在这里我们主要研究自媒体文章的文本分类问题。自媒体文章的写作和内容与传统出版类媒体存在不小的差异。对于传统媒体来说，自媒体的内容有以下特点：1）语言平民化，多用描述性的语言来表示概念;2）时效性强，所有的受众都可以是内容的创作者，内容中也可能存在较多未曾收录的新词和所谓的“网络热词”和“梗”;3）内容中纯文本的成分可能很小，创作者用较多的表情、漫画图片等形式来表达情绪和观点，造成文字信息含量比较低;4）用语不够规范，可信性可能比较低，文章质量良莠不齐。

2 遇到的挑战

由于这些业余的创作者并不全都经过新闻和写作训练，也没有专业的审稿把关内容，所以这些创作内容和传统新闻媒体文章的调性有很大差異。在传统的新闻文本中，使用经典的贝叶斯模型，加上一些语料选择和技术性的改进，已经可以训练出令人满意的分类器[1]。但在自媒体环境下，文本分类算法面对很多新的情况：水平参差不齐的创作者不断涌入导致文章质量良莠不齐;偏向使用更多尚未稳定收录的新词汇造成缺词问题;短文本的比例过大等。导致文本分类的分类算法和评估算法都要面临新的挑战。贝叶斯分类器抽取的分类特征一般是文本中的出现词汇，并认为一段文本的不同词汇的出现概率是满足条件独立性的假设的：词汇A出现的概率和词汇B出现的概率是相互独立的。这个独立性假设在自媒体文本中就存在比较严重的挑战。尽管有一些通过原词汇重新构建特征的方法来改善这个问题[2]，但这样做会导致分类器的时间复杂度产生较大增幅。

另外，对于短文本的分类已经有了一些可行的解决方案。张志飞等人使用LDA模型来分类微博短文本[3]，取得了比传统的VSM模型和基于主题相似度的模型更好的性能和效果。但其使用6步的方法去计算文本的相似度，在海量文章数据下会有一定程度的性能问题，对于口语化和不规范用语，也难以归一化处理。 LDA的主要优点是可以处理语义相对明确的短文本，也可以处理文本篇幅较长的问题，而且是无监督的算法，可以处理大规模的文档集合和语料库[4]。但其问题是LDA方法采用了BoW词袋模型，没有考虑词和词之间的顺序关系。这种简化再加上无监督算法带来的不确定性，在实际的使用中也较难取得令人满意的结果。

从上面的分析中不难看出，对于灵活多变的自媒体内容，浅层学习建立的分类模型基础上的分类器，在自媒体文章场景下的运行性能虽然不错，但实际效果是非常局限的。在新闻文本内容分类任务上有极好表现的贝叶斯、SVM等浅层学习模型，在自媒体内容上的分类效果往往难以达到实用水平。本文研究基于深度学习的模型来解决自媒体文本分类中的若干挑战。

3 深度学习和文本分类相关技术问题

3.1 深度学习的优势

上文中我们提到，浅层学习建立的分类器在自媒体文本分类上的表现不够稳定。而深度学习方法可以在文本分类算法上提供一个全新的解决思路。

深度学习脱胎于机器学习的一个分支：人工神经网络（ANN）。人工神经网络最初是从生物神经系统的研究中得到灵感的。在人工神经网络中，神经元和神经元之间连起了一个与生物神经系统类似的多层的网络结构。人工神经网络的判定过程，是将一个输入经过各层神经元的运算处理，最后得出一个输出结果。人工神经网络的训练过程，是将训练的样本输入预设的神经网络架构，不断对神经元之间的链接的权值进行修正的一个迭代的过程。

早期的人工神经网络系统，由于训练的时间复杂度要求远远高于计算机算力，所以几乎没有应用价值。直到反向传播算法（Backpropagation）[5]的发明，可以使用梯度下降法来训练人工神经网络，让训练过程可以在合理的时间内完成收敛。人工神经网络才能较大规模地应用于实际生产。在实际应用中，浅层的人工神经网络，通常表现为效果中规中矩，但模型的可解析性比较差。依然是很难于大规模应用。