浅谈智能审核的技术与实践
2023-04-24鞠传森张守先李满江
鞠传森 张守先 李满江
[1.大众报业集团(大众日报社),山东 济南 250014; 2.半岛都市报社,山东 青岛 266071;3.潍坊北大青鸟华光照排有限公司,山东 潍坊 261061]
导语
新闻报道作为及时和准确地传播信息的重要方式,对公众有很大影响力,以前的人工新闻审核方法效率不高,难以满足大量新闻稿高效准确审核的需要。人工审核也很难消除审核人员的主观倾向,使新闻报道保持高度的客观性和准确性。
随着人工智能和深度学习技术的发展,基于机器学习和自然语言处理的新闻审核方法蓬勃发展。目前已经有了一些把人工智能应用于实际生产的场景,腾讯广泛应用自然语言处理技术,实现棋牌游戏新闻自动审核,过滤不良信息,利用AI 技术辅助微信公众号内容审核;字节跳动针对短视频、直播内容的AI 审核系统;中国移动研发新闻自动审核系统,判断新闻是否违规,辅助人工审核,这些产品将自然语言处理、深度学习等应用于新闻审核,实现了审核效率的大幅提升。
与规则和统计方法相比,基于深度学习的模型在文本表示和语义理解方面有显著优势,可以更好地判断新闻稿的属性。特别是BERT、GPT-2 和ERNIE 等预训练语言模型,在长文本生成和分类等任务上达到了接近人工的效果。这为基于深度学习的新闻审核方法提供了重要的借鉴和支持。
为实现新闻审核的高效化、准确化和客观化,这个项目提出一种基于ERNIE 等预训练语言模型的智能新闻审核方案。通过大量高质量新闻数据集进行训练,构建具有比较强判断能力的审核模型。这个模型可以准确判断新闻稿的主观性、真实性和准确性等属性,实现新闻审核过程的自动化。这个方案有较高的审核质量和效率,适合应用于真实场景。
这个项目提出使用AI 技术实现智能新闻审核,通过训练获得判断新闻属性的能力。相比人工审核,这个方法可以更高效和准确地判断新闻稿,实现新闻审核的自动化,更符合实际应用的需要。这有助于提高新闻报道的客观性和准确性。
1.相关工作
新闻审核旨在判断新闻稿是否符合发布标准,其研究历史悠久,早期工作主要基于规则和统计机器学习方法。如关键词匹配和主题分类相结合的规则方法等。这些方法依赖规则和特征方程,效果较差。
随着深度学习和神经网络的发展,基于深度学习的新闻审核方法快速兴起。采用CNN 判断新闻主观性,能够达到83%的准确率。应用LSTM 判断新闻属性,取得较佳效果。这些方法证明,深度学习模型可以有效刻画新闻文本的语义特征,判断其属性。
近年来,BERT、GPT-2 和ERNIE 等预训练语言模型的提出,使模型具备较强的语义表示能力和生成能力。BERT 可用于文本分类和语言判断,GPT-2 可生成连贯自然的长文本。随着预训练语言模型的发展,百度提出了面向中文理解的ERNIE(Enhanced Representation through Knowledge Integration)。ERNIE有较强的多样性与更长的生成长度,这有利于新闻审核。基于ERNIE 的文本分类技术也已广泛应用于新闻审核任务,表现优异。利用ERNIE Fine-tune 对新闻标题进行情感判断,实现正负面分类,辅助新闻价值方向的审核。结果显示,ERNIE 在该任务上的准确率达92%,优于BERT,另外,使用ERNIE 构建假新闻检测模型ERNIE-DS,实现自动新闻真实性检测,在多个数据集上的测试结果表明,ERNIE-DS 的ROC 曲线优于基于LSTM 和BERT 的模型,更适合假新闻的识别。ERNIE 通过整合词汇语义和实体关系知识,文本表示能力更强。在新闻分类、事实检测等文本分析任务上,ERNIE 精调后效果显著,为构建自动智能新闻审核系统奠定了基础。本项目在相关工作的基础上,提出一种基于ERNIE 的新闻智能审核方案,通过新闻数据集的训练实现新闻审核的自动化。
2.方案
本项目提出一种基于ERNIE 等预训练语言模型的新闻智能审核方案。该方案主要由数据预处理、模型训练和新闻审核三部分组成。
数据预处理是模型训练的基础。需要构建高质量、标准化的数据集供模型学习,涉及数据采集、清洗、标注等步骤。数据预处理阶段,我们使用包含近3 年几万条新闻的大规模数据集。删除了空文档,过滤了近似重复的文章,去除了文档中的非文本元素,如代码、图片等,用校对软件纠正一定文字错误,按照标注规范,手工标注了新闻文章的属性,如类别、情感倾向、真实性等,或先用程序自动标注,再人工检查修正。检查不同分类、情感属性的样本,确保数据集覆盖广泛,避免样本分布偏差。对可能涉及隐私的文本内容做脱敏处理。选择了其中上万篇高质量新闻,并人工标注了其主观性、真实性、准确性等属性。其中部分作为训练集,部分作为验证集,部分作为测试集。
模型训练是核心环节。针对特定业务,需要进行模型选择、优化、调试等,最终得到满足业务要求的审核模型。在模型训练阶段,我们采用ERNIE-TINY模型,其参数量较小但生成能力较强。模型输入为新闻标题和内容,输出为新闻属性判断,采用二分类交叉熵损失进行训练。
新闻审核是产品交付的环节。将训练好的模型集成到新闻编务流程,进行实时预测和结果输出。在新闻审核阶段,我们输入待审核新闻稿的标题和内容,ERNIE 审核模型自动判断其主观性、真实性和准确性属性。判断结果为“通过”或“不通过”,从而实现新闻审核的自动化。整个审核过程无需人工干预,大幅提高审核效率。
本方案具有以下三点优势:
(1)利用高质量新闻数据训练,审核判断准确性较高;
(2)基于强大的ERNIE 模型,审核效率显著提高,实现自动化审核;
(3)支持判断多种新闻属性,更全面地实现新闻审核。
3.试验
为验证新闻智能审核方案的效果,我们进行了一些实验。具体实验如下:
数据集:使用的数万篇高质量新闻数据集,其中部分作为训练集,部分作为验证集,部分作为测试集。训练集用于模型的参数训练,占数据集的最大比例(70%左右),通过训练使模型适应任务,验证集用于调优超参数,占数据集的较小比例(15%左右),训练时不使用验证集,但会定期在验证集上评估模型,指导超参数选择,测试集用于最终测试模型性能,占数据集更小比例(例如15%)。只在训练结束后使用一次,给出模型在真实数据上的指标。要确保三者样本同分布、相互独立,以免过拟合。随机采样划分同时考虑不同类别样本的平衡。
评价指标:采用准确率(Accuracy)、精确率(Precision)、召回率(Recall)和F1 分值评价模型的审核效果。准确率(Accuracy)预测正确的样本数占全部预测样本数的比例。反映模型判断正确的概率,精确率(Precision)预测正确的正类样本数占全部预测为正类的样本数的比例,反映正类预测的可信度,召回率(Recall)预测正确的正类样本数占全部正类样本数的比例。反映模型找出正类样本的能力。F1 分值综合考虑精确率和召回率,计算公式为 F1 = 2PR/(P+R)。P 代表精确率,R 代表召回率。准确率直观地反映整体判断的正确率,召回率反映对正例的识别能力,F1 分值兼顾两者,是对预测性能更全面的评估,例如当准确率很高时,可能预测为负的样本过多,则召回率较低。综合使用准确率、召回率和F1 评价,可以比较全面地评估模型在新闻审核任务上的表现。
实验目的:验证模型实现新闻审核自动化的有效性;判断模型的审核效果是否达到较高水平。
实验结果显示,本方案的审核效果明显优于规则匹配和统计机器学习模型,这证明ERNIE 模型在新闻属性判断方面具有显著优势。
综上,实验结果验证了新闻智能审核方案可实现新闻审核的高效准确,达到较高水平。但个别属性判断仍需提高,需要更大规模的数据和模型优化来改进。这为模型进一步改进指明了方向。
4.讨论
实验结果表明,本项目提出的基于ERNIE 的新闻智能审核方案可有效实现新闻审核的自动化,审核效果达到较高水平,较好地弥补了人工审核的不足。该方案具有以下优势:
(1)利用大规模高质量新闻数据训练,审核判断的准确性较高;
(2)基于ERNIE 等强大语言模型,审核效率显著提高,实现自动化;
(3)支持判断多种新闻属性,更全面地实现新闻审核;
(4)相比LSTM 等模型,审核效果提高较大,更适合实际应用。
该方案不足之处在于:
(1)某些新闻属性的判断精度仍较人工审核差,特别是对新闻内容的理解;
(2)仍需人工干预新闻审核的结果,难以完全取代人工审核;
(3)需要更大规模的数据集和计算资源来进一步提高审核质量。
预训练阶段需要大规模集群进行模型参数预训练,此时GPU 数量直接影响训练速度。理想情况下需要数百甚至数千个高端GPU 进行并行化训练,才能在合理时间内完成。微调阶段同样需要相当规模的GPU 集群,才能在大数据集上快速迭代优化模型。此时GPU 的并行计算能力也至关重要。存储上需要高速存储系统来存放大规模预训练模型和新闻数据集,尤其是I/O 性能直接决定数据载入速度。模型服务阶段也需要高性能服务器进行实时推理,确保服务响应速度。要实现新闻审核的产业化落地,建立具备千万级样本处理能力和高并发服务能力的AI 计算平台是必要的,可以大幅提升模型效果和质量。此方面投入也是实现真正自动化审核的重要基础。
综上,本项目为新闻审核自动化和智能化作出积极探索,旨在减轻人工记者的工作压力,提高新闻生产效率。但人工审核仍是实现高质量新闻审核不可或缺的一环,未来研究的重点将是:
(1)采集和标注更大规模高质量的新闻数据。构建高质量的大规模新闻数据集,是推动新闻智能审核技术进步的基础。可以与新闻媒体合作,直接获取第一手新闻稿件作为数据集来源,确保质量,严格质量审查,过滤低质量样本,控制数据集质量,聘请专业编辑进行人工标注,标注新闻主题分类、真实性、情感倾向等多维属性,对不同类型新闻的标注,如体育、娱乐、金融等垂直领域,确保标注覆盖广泛,先通过预训练语言模型进行初步自动标注,再由人工进行检查修正,提高效率。数据集要具有一定规模,理想目标是达到百万级甚至千万级样本量,并会持续扩充。构建这样海量、多域、丰富标注的新闻数据集,将大幅提升新闻审核模型的训练效果,是智能新闻审核的基石。
(2)增强模型理解新闻语义和判断属性的能力。当前在新闻自动审核方面,自然语言处理模型对文本语义理解和属性判断的能力仍然有限,这束缚了审核效果。因此,进一步增强模型对复杂语义的理解能力,是推进新闻智能审核的关键所在。因此要构建含丰富语义标注的大规模新闻语料库,提供高质量训练数据,组合不同预训练语言模型的优势,提升语义表示的稳定性,引入外部知识图谱,补充实体关系知识,增强对语境的理解,开发能捕捉文档级语义关系的阅读理解模型,而不仅是文本分类,加入注释机制,支持模型对自身判断提出解释,便于错误分析与提高,通过这些方式的深入研究,建立对新闻语义和属性更加稳健判断的智能审核模型,将是推动新闻审核自动化的重要一环。
(3)人工审核与机器审核的有机结合,实现智能化与自动化相结合的高效新闻审核机制。实现真正高效且准确的新闻审核,还需人工智能与人类智慧的协同共治。将人工审核与机器审核优势互补,形成有机配合机制,是实现智能化与自动化并重的重要途径。具体来说,可以构建一套人机协同的新闻审核系统。首先,利用自然语言处理技术自动过滤掉一部分明显不合规范的新闻内容;其次,人工编辑重点审查机器筛选出的可疑样本,检查误判情况,同时标注样本供机器学习;最后,利用编辑反馈不断优化机器审核模型,逐步减少误判。在该系统中,人工审核发挥经验判断与语义理解的优势,机器审核发挥高效筛选与自动学习的优势。两者相互制约、相互促进、共同演化,最终构建一个高质量的新闻审核机制。未来,随着机器审核能力的不断增强,人工审核可以逐步减少投入,转为监督模型训练和决策核查,人机协作模式将不断优化。实现人机互补的智能审核系统,仍是新闻审核进一步智能化和自动化的重要路径。
结语
本项目提出一种基于ERNIE 的新闻智能审核方案。通过大规模高质量新闻数据集的训练,构建了一种能够自动判断新闻属性的审核模型。实验结果表明,该方案实现了新闻审核的自动化与高效准确,达到较高的审核质量,较好地弥补了人工审核的不足。
该方案仍需进一步提高模型对新闻语义理解和属性判断的能力,需要更大规模的数据与计算资源来优化模型,提高泛化性。人工审核也是实现高质量新闻审核不可或缺的一环,人工参与技术支持的结合是未来新闻审核发展的重要方向。由于当前AI 模型对新闻语义理解还存在局限,可能会出现一定的误判情况,导致纯机器审核的准确率难以达到人工编辑的水平。因此靠全自动模式完成审核仍有困难,并且不同新闻单位的审核规则和偏好存在差异,如果直接应用统一的AI 模型,则不太能适应这些差异化需求,需要人工制定不同的审核方案, 即使训练非常优秀的审核模型,实际应用中仍需人工检查模型的判断并核实误报情况,要不断完善模型,人在其中起监督作用。重大公共事件发生时,新闻报道具有很强的时效性和社会影响力,这时可能需要更多人工谨慎判断以确保审核结果的准确性。从业务角度而言,纯机器审核在公众接受度上可能还有疑虑,设置一定人工干预可以增加结果公信力。
尽管智能审核技术取得了长足进展,但要实现新闻自动审核的广泛应用,还面临一定挑战。首先是数据集规模不足的问题。高质量的标注新闻数据极为宝贵,目前公开的数据集规模有限,大约在十万级,这会制约深度学习模型的效果。扩充质量可控的数据是关键所在。其次是对新闻语义理解的能力不足。新闻涉及的主题广泛,语言表达复杂多样。当前AI 模型对语义的表示与推理还达不到人类的水平。最后,不同客户的审核需求各异,如何快速定制模型以适应不同场景也是一个难点。这需要在泛化能力与特定领域适配之间求取平衡。数据短板与对复杂语义的理解是阻碍新闻智能审核广泛应用的两大挑战。业界仍需持续努力,才能实现真正意义上的自动化新闻审核。
本项目为新闻审核自动化与智能化的研究与应用作出有益探索。基于优化的数据与模型,新闻智能审核技术将达到更高水平,进一步改革传统新闻审核模式,实现新闻生产的高效化与准确化。这将为构建信息时代的高质量新闻报道机制提供重要支撑。