基于NLP技术的“标题党”识别方法研究

2020-05-18杨小峰

现代信息科技 2020年20期

摘要：移动互联时代资讯泛滥，导致违规采编发布互联网新闻信息、散播虚假信息等“标题党”网络传播乱象，识别“标题党”已成为当前互联网整治的重要任务。文章分析了当前互联网“标题党”的核心特征。对其中5类“标题党”进行详细分析。对比了当前流行的多种识别算法的表现，给出了对应的查全率和查准率。提出一种基于规则匹配的“标题党”识别算法，在综合类型“标题党”语料集中表现较好，弥补当前“标题党”识别算法的局限性。

关键词：规则匹配;自动化;“标题党”识别;自然语言处理

中图分类号：TP391.1 文献标识码：A 文章编号：2096-4706（2020）20-0124-04

Research on the Recognition Method of“sensational headline writer”

Based on NLP Technology

YANG Xiaofeng

（Zhongyuan Converging Media Technology Research Center，Zhengzhou 450007，China）

Abstract：In the era of mobile internet，information is overload，leading to illegal editing and publishing of internet news information，dissemination of false information and other “sensational headline writer” network dissemination chaos，identification of “sensational headline writer” has become an important task of the current internet rectification. This paper analyzes the core characteristics of the current internet “sensational headline writer”. Five categories of “sensational headline writer” are analyzed in detail. Compared with the performance of many popular recognition algorithms，the corresponding recall rate and precision rate are given. This paper proposes a “sensational headline writer” recognition algorithm based on rule matching，which performs well in the comprehensive type of “sensational headline writer” corpus，and makes up for the limitations of the current “sensational headline writer” recognition algorithm.

Keywords：rule matching;automation;“sensational headline writer” recognition;natural language processing

0 引言

隨着互联网的发展，终端设备资源的不断完善，人们对新闻的关注度、和需求也不断地提高，而网络新闻则成为现阶段互联网应用的新宠。在互联网据CNNIC中国互联网络信息中心发布的第44次《中国互联网络发展状况统计报告》显示，截至2019年6月，我国网络新闻用户规模达6.86亿，较2018年底增长1 114万，占网民整体的80.3%，手机网络新闻用户规模达6.60亿，较2018年底增长734万，占手机网民78.0%。2019年上半年，手机网民各类APP应用使用时长占比调查结果中，网络新闻的使用时长占比4.1%。

在我国网络媒体快速发展的时代背景下，网络媒体已迎来平台、技术、内容、资本和人才竞相迸发的新高峰，但依然面临着内容真实性不足、可信度与严肃性缺失等新的矛盾。2020年国家网信办召开专项部署会议，决定自7月24日起，针对社会反映强烈的商业网站平台和“自媒体”扰乱网络传播秩序突出问题，在全国范围内开展集中整治。

2018年中原工学院中原融媒体技术研究中心与河南广播电视台进行科研合作，主要针对新闻内容质量与新闻传播路径进行跟踪分析，本课题为该研究方向的子课题。本课题目标为解决“自媒体”片面追逐商业利益，为吸引“眼球”炒作热点话题、违规采编发布互联网新闻信息、散播虚假信息、搞“标题党”等网络传播乱象，提高广播电视台自媒体频道新闻质量。

1 “标题党”特征分析

互联网内容传播不单纯以“新闻”平台为媒介，还包括各类博客、公众号等平台发布的“技术类”文章、“科普类”文章、“教育类”文章等，本文“标题党”研究对象包括“新闻”在内的所有“超媒体”。将通过发布不实标题，吸引网友点击查看的行为的“超媒体”统称为“标题党”。在当前互联网中“标题党”文章以不同的文案形态，不同的目标而存在，例如，吸引点击量，软文广告等。本文对当下互联网文章进行归纳整理，将文章根据不同的展现形态分为以下类别：

（1）图片类文章：文章内容由新闻标题、图片构成。

（2）视频类文章：文章内容由新闻标题、正文文本、视频资源、音频资源构成。

（3）文字类文章：文章内容由新闻标题、正文文本构成。

（4）图文类文章：文章内容由新闻标题、正文文本、图片构成。

不同的用户在对文章表现出关注的第一印象都是来自文章标题，本文通过对文章内容是否符合用户期待为分析目标，确认文章是否属于“标题党”内容。因此本文将“标题党”文章归纳为以下类别：

（1）营销类“标题党”：该类文章的特点是标题内容丰富吸引人，并且与文章内容符合度较高。但文章最后以广告、营销为目标，降低内容的可信度，降低用户期待。该类“标题党”文章主要集中于技术类文章中，以图片类、图文类文章为主要表现形态。

（2）热点新闻“标题党”：该类文章的特点是将文章标题设定为当下最火最热的标题内容，或作为热点标题后续，吸引用户。而文章内容多以已发布内容掐头去尾的形式展现，用户期待落差较大。该类“标题党”可能出现上述4种表现形态。

（3）诱导类描述“标题党”：该类文章的特点是多以情欲类、违背价值观类、极致类内容作为标题，文章内容为广告、小说，该类“标题党”以图片类、图文类文章为主要表现形态。例如，在某些娱乐类消息中，对明星进行赞美类的文字，却多数以负面消息标题展示进行吸睛，一些小说文字，会被冠以夸张修饰的辞藻，如标题为“聪慧儿童严守家门，凶残犯人伪装其母声欲进屋惨被识破”的文章，实际是经典童话故事《小红帽》。

（4）多媒体歧义“标题党”：该类文章的特点是文章内容以纯图片或视频为主，几乎不含有任何相关文字介绍，被标以歧义标题吸睛，给用户带来误导。

（5）时间、地点误导式“标题党”：该类文章的特点是介绍的新闻、事件，对于时间、地点故意不进行说明，将其他国家发生的事件，或者发生在很早之前的事情换一中描述标题，误导用户是最近在国内发生的事件。该类“标题党”多表现为纯多媒体形态，如图1所示，媒资为“视频”，被冠以“女子确诊感染新冠，被丈夫狠心推下五楼！”的标题吸睛，不表明消息来源地，从而误导用户。

在移动互联时代资讯泛滥的背景下，无论是自媒体，还是专业媒体人都会广泛使用“标题党”方法吸引眼球，从而增加流量与点击量。然而，媒体制作的标题只要不违反法律与职业道德，当然可以依靠提升标题的“吸引力”的方式来吸引广大读者，这无可厚非。但是，违背公序良俗，或者文题不符、刻意“哗众取宠”似的“标题党”行为是不可取的。

2 “标题党”识别算法

2.1 相关识别算法分析

近年来在“标题党”新闻识别相关研究中，以罗佳[1]的《基于潜在语义分析的标题党新闻识别技术研究》，梅钟宵[2]的《基于文本挖掘的新闻标题与内容契合度评价研究》为代表的一类识别算法，是以研究文章标题与文章内容的契合度为切入点，通过提取文章的主题词为核心，进行“标题党”文章的评判。以王志超等[3]的《基于主题句相似度的标题党新闻鉴别技术研究》，赵帅[4]的《基于改进型VSM-HowNet融合相似度算法在“标题党”新闻识别中的研究》为代表的另一类识别算法，以研究文本语义相似度为切入点，通过主题句提取算法，对标题和主题句的相似度进行分析，从而来判别“标题党”文章。

无论是基于主题词分布的“标题党”判别方法，还是基于主题句相似度的“标题党”识别方法，两者都仅仅在“纯文本”类型的“标题党”文章识别中具有一定的表现效果。但是，对于以图片、视频为主的“标题党”识别表现较差。

2.2 基于规则匹配的“标题党”识别算法

“标题党”识别算法的核心，是分析标题与文章内容之间的匹配程度。通过第1节的分析可知，文章内容的表现形态有多种，本文通过研究目前已发表的多种“标题党”识别算法的表现发现，不同的算法，在不同类型的“标题党”类型文章中的表现不同。因此，对“标题党”的识别，首先需要采集全面的“标题党”类型，在识别过程中，应根据“标题党”类别匹配不同的识别算法。

本文提出一种基于规则匹配的“标题党”识别算法，通过提取“标题党”新闻的语法结构特征，构建“标题党”新闻结构模板规则库，结合主题词分布和主题句相似度计算方法，提高“标题党”识别准确率。

如图2所示，首先对训练语料库中的新闻数据进行基本特征提取，完成以新闻稿件为单位的文档分词、词性标注以及句法分析。然后抽取文档对应的主题句，在基于主题词分布和主题句相似度匹配之前，先通过规则库进行“标题党”过滤识别，将具有明显“标题党”特征的文章直接筛选出来。最后，通过主题词相似度计算模型进行标题党识别评分，通过评分结果识别规则库外的“标题党”新闻。

其中，根据“标题党”常见标题结构，本文构建规则库内容为：

（1）标题长度限制，标题内含有字符长度短，标题没有具体含义，无法让用户辨识出新闻内容的概要，此类新闻具有明显的“标题党”嫌疑，在新闻中应处于较为劣质的文章。

（2）标题中使用“极致”修辞手法的，例如：类似于“史上最……”“最强……”“超越想象的……”的虚假宣传类的劣质文章。

（3）标题中含有诱导类信息，例如：“某贫困女博士面试名企，竟被要求量三圍”“某外国美女不要求中国男方有房有车，但竟然提出这个要求”“美少妇买彩票中头彩，竟是因为”等。

（4）内容为“众所周知”的“标题党”，例如《小红帽》等经典故事作为文章内容，标题与原著不匹配的劣质文章。

（5）标题中含有违背价值体系的标题，这类“标题党”容易煽动人内心的负面情绪，比如：“某名牌大学生勤工俭学，却检查得了某癌症，人生最后时刻说出一句话震惊世人”。

（6）标题中内含有敏感词类的标题，例如含有色情类敏感词。

（7）标题属于专业类领域，例如物理、数学、天文等学科，内容包含已知知识内容，例如“你知道宇宙有多大吗”“宇宙的边缘竟然在这里”“最接近神的科学家”“人类竟然起源于这里”等，实际内容为随意拼接的劣质文章。

3 “标题党”识别算法对比实验

3.1 语料集构建

本文构建“标题党”语料库共包含1 156篇文章，其中被标注为“标题党”的文章共371篇。“非标题党”文章来自河南广播电视台2019年1月至2020年6月发布至其内容管理平台下的通过审核的文章，“标题党”文章来自网络资源及自创。具体数据分布如表1所示。

3.2 实验结果

本文将被正确识别为“标题党”的数量记录为“TP”，被正确识别为“非标题党”的数量记录为“TN”，被错误识别为“标题党”的数量记录为“FP”，被错误识别为“非标题党”的记录为“FN”。并通过查全率和查准率两个度量值来比较三种“标题党”识别算法的优劣。

其中，查全率（Recall）是指从数据库内检出的相关信息量与总量的比率。查准率（Precision）是检出的相关文章与检出的全部文章的比率。查全率与查准率计算公式如下。

Recall=TP/（TP+FN）

Precision=TP/（TP+FP）

在3.1节描述的语料库下，基于主题词分布的“标题党”识别算法、基于主题句相似度的“标题党”识别算法以及基于规则匹配的“标题党”识别算法在不同类别语料集中具体表现如表2、表3、表4所示。

通过对3.2小节的算法的实验结果可以看出，基于规则匹配的“标题党”识别算法在整体语料库上表现较好，因热点新闻“标题党”主要以历史新闻“掐头去尾”展现，无法建立规则库，算法表现较差。而基于主题词分布和基于主题句相似度的“标题党”识别算法在图片、视频类文章上表现最差，无法识别，因为此类文章不含有任何文字类描述，对于主题内容抽取带来了较大的影响。

4 结论

“标题党”识别过程中，应根据“标题党”类别匹配不同的识别算法进行识别，才能让算法更准确，建立完善的“标题党”类别库和“标题党”规则库将有效提高“标题党”识别准确率。

虽然本文论述的基于规则匹配的“标题党”识别算法在实验语料中表现良好，但是因为规则库有限，依然存在一定的识别局限性，需要构建灵活、动态、完善的规则库，才能让算法在实际应用中具有更好的表现。

参考文献：

[1] 罗佳.基于潜在语义分析的标题党新闻识别技术研究 [D].湖北：湖北工业大学，2015.

[2] 梅钟霄.基于文本挖掘的新闻标题与内容契合度评价研究 [D].北京：首都经济贸易大学，2018.

[3] 王志超，翁楠，王宇.基于主題句相似度的标题党新闻鉴别技术研究 [J].现代图书情报技术，2011（11）：48-53.

[4] 赵帅.基于改进型VSM-HowNet融合相似度算法在“标题党”新闻识别中的研究 [D].吉林：吉林大学，2018.

作者简介：杨小峰（1987—），男，汉族，江西吉安人，助教，硕士，研究方向：软件工程。