基于多功能融合的人工智能评论审核系统研究

2022-01-26王振雪程刚曹许洋贾宇恒刘春波

现代计算机 2021年34期

关键词：智能化词汇模块

王振雪，程刚，2，曹许洋，贾宇恒，刘春波

（1.华北科技学院（中国煤矿安全技术培训中心）计算机学院，北京 101601；2.南京大学地球科学与工程学院，南京 210023）

0 引言

随着互联网技术的迅猛发展，海量网络资源触手可及，新闻舆情传播迅速，网上论坛在线评论自由开放度高，呈现出全民参与新时代网络媒体互动交流的发展现状。图1为近5年我国网民规模及互联网普及率。

图1 2015—2020年我国网民规模及互联网普及率

网络跟帖评论已经成为网民互动交流、表达意见及舆论监督的重要方式，然而伴随着追求“过度自由”的个性化时代特征，加之监督及审核制度的缺失，导致网民在行使话语权时经常出现失态现象，使网络空间成为传播网络谣言、散布污言秽语、发布违法违规信息的平台［1］。早期用户发表评论需要人工审核通过后才能发布公开，人工方法不仅耗时耗力，且效率低下，无法满足当前网络刷新的时效性，更达不到用户即时评论与在线讨论的需求。基于当今互联网传播便捷迅速，且言论呈现复杂多样性特征，利用多功能融合技术研究一种智能化拦截恶意的不正当评论方法，为广大网民营造一个和谐纯净的评论与交流空间，已成为互联网自由规范化发展的必由之路。因此，开发一种基于多功能融合的人工智能评论审核系统对在线留言与评论进行智能化检测与处理操作是新时代互联网发展的迫切需求。目前，基于智能化的评论审核功能已被逐渐应用于互联网各大主流网站，诸如用户评论情感分析、评论特征提取、主题挖掘文本分析等方法研发的安全检测系统也被应用于互联网各类评论审核系统［2-4］。2019年，李贝贝开展了关于《纽约时报》从传统的人工审核评论到通过自动化技术进行筛选排序研究，结合人工进行评论管理的模式创新［5］，证明该创新模式不仅大大减轻了人工审核的工作量，提升用户评论审核的通过率，而且实现了内容盈利的模式创新。2021年，涂正维等基于机器学习对影视剧评论进行情感倾向性分析［6］，受限于评论数据类型和分类器性能特点不同，所得出的分类结果准确度存在一定的差异性。因此，该方法对小规模数据会产生较好的分类效果。纵观互联网评论审核系统的研究现状，均未直接将用户心理健康识别作为一个功能模块融入至互联网评论的智能化审核中。因此，本文通过研发一种基于多功能融合的人工智能评论审核系统，实现准确的智能化评论审核机制，为过滤互联网虚假异常信息和畅通评论交流提供技术支撑。表1为人工智能评论审核系统的各项核心目标。

表1 人工智能评论审核系统目标

1 系统设计

人工智能评论审核系统（artificial intelligence comment detection system，AICDS）可用于微博、微信朋友圈、QQ空间、哔哩哔哩、知乎评论区内容的审核与处理。为了使得AICDS对评论语句的识别判断精准度能够不断满足互联网词库迭代发展的要求，因此需通过预先爬取互联网中各大主流网站的核心评论与留言数据，并对其进行自学习数据训练，同时对评论审核系统算法进行优化。通过一定的功能优化与自学习后，亦可用于微信公众号内容审核、微信转发内容审核，以及为政府门户网站互动内容及官微发布内容审核提供技术支持。该系统的主要工作流程为：首先通过微信提供的端口获得需要审核的文字数据，其次进入循环中进行识别运算处理，并予以等级评定，最后通过等级划分标准进行权限分配，授权能否发送或评论可见级别。本系统共分为四个核心功能处理模块，图2为该系统功能框架。

图2 AICDS功能框架

（1）数据处理模块。系统接收到用户提交的数据后首先对其进行预处理操作，在该模块中数据主动进行寻找反馈拦截，之后该模块将对数据反馈进行分类打包，返回识别结果。

（2）心理健康识别模块。该模块记忆库采用标记模式。对被识别的问题开展评论，直接进行标记。审核时，对已经存在相关标记下的发言，予以特殊处理，提高评论审核标准。

（3）人工智能与数据记忆模块。该模块主要实现评论的实时监控、训练学习和预测数据库关键词语发展趋势等功能，从而防止评论者刻意规避系统检查。该模块的自行紧急处理包括两种方式：先斩后奏型（即先屏蔽再上报）、先奏后斩行（即先上报再屏蔽）。

（4）检测及对比筛选模块。该模块主要用于对文字内容进行关键词提取，对比筛选已有的不可发布词库或者不适合发布的关键词库，并进行言论评价和评级。

2 系统分析与优化

AICDS系统主要使用Python语言，利用jieba库进行分词，将文本分析成词语列表，然后对该列表中每个词汇的出现频率进行统计并确定主要的关键词，清洗多频的正常词语，随后将剩余词汇与系统词库中的“违规词汇库”数据进行对比，符合相似条件则拦截该词汇的发布行为，并给出拦截原因解释信息提示；反之则认为通过系统审核，给予放行。

鉴于中华汉字博大精深，伴随着应用场景的不同，部分词汇往往具有截然不同的含义。此种情况下，如何识别表达场景，智能化而非程序化的机械判断成为该系统研发亟需突破的关键问题之一。AICDS系统通过人工智能推断、数据记忆、特殊词库定义、特征语法习惯检测等多功能融合方法，利用前置关联词汇将词汇表达所属场景纳入数据处理分析中，实现更为精准的智能化审核授权机制。图3展示了该系统优化前后针对应用场景做出的智能判断识别处理结果。对于“干得漂亮”一词，本身有夸赞之意，但若将该词运用于负面场景或人物之中便会产生有损社会风气的行为结果，十分不利于社会文明的发展。通过AICDS系统的智能化检测实现了潜规词语的自过滤，为营造风清气正的互联网环境提供了技术保障。

图3 AICDS优化前后场景识别对比

3 结语

本文介绍了一个基于Python语言结合机器学习算法的人工智能评论审核系统，旨在对网络中污言秽语的精准识别并进行审核拦截反馈，为营造良好的网络评论交流环境做出技术保障。通过建立数据处理模块、心理健康识别模块、人工智能与数据记忆模块以及检测及对比筛选模块多功能融合的人工智能评论审核系统，实现了多重审查和智能审核的交叉互补，提高了审核结果的精准性。该系统能够较好的实现对恶意评论、不当言论的审查过滤功能，且对于谐音词、藏头诗等不明显词汇以及词语不同使用场景的不同含义均可做出判断识别，为新时代互联网评论与留言互动的审核提供了一种创新方法。

然而，随着大数据和人工智能的不断深入融合，未来基于大数据的评论即时性自检测技术将引领互联网评论审核系统进入一个全新的时代，下一步将在本文研究的基础上，结合大数据、关联规则、模糊算法与语义分析技术开展跨领域、网红词和多语义的联合分析，融合权重分配方法进行深度优化分析研究评论审核的即时精准自检测技术。