APP下载

基于非结构数据搜索处理的网络舆情调控研究

2022-04-29耿藤森郭鑫涛陶瑞雪张传营张书曼李俐莹

中阿科技论坛(中英文) 2022年4期
关键词:子系统舆情用户

许 鹏 耿藤森 郭鑫涛 陶瑞雪 张传营 张书曼 李俐莹

(河北科技大学,河北 石家庄 050018)

随着网络技术的不断发展,网民数量的增多,网络逐渐成为社会公众关注新闻的第一渠道。个人和各种社会群体由于自身的基本诉求未得到满足,在网络上自由抒发自己的观点,其通过网络数据的高速传播,部分内容伴随时间的发酵,公众关注力逐渐上升,会形成针对某一官方机构或公共事务责任方的网络舆论。这样的舆论传播存在很明显的情感导向,很大层面上无法及时解决真正的社会问题,反而会给相关机构和人员带来很大的舆论冲击,造成其声誉和社会地位上难以挽回的损失。因此,本研究基于分布式数据处理,搭建网络舆情调控系统,其能对网络中的大量数据进行实时的监测和筛选,及时发现有关社会舆情的信息,及时和相关人员取得联系,避免事态进一步发酵形成舆论,达到网络舆情调控的目的。

1 网络信息传播现状和加强舆论反应的必要性

1.1 网络环境

根据第49次《中国互联网络发展状况统计报告》,截至2021年12月,我国的网民规模达到了10.32亿,和上一年同期比较,增长了4 296万人;移动互联网接入流量为2 216亿GB,相较上一年增长了33.9%;市场上监测到的APP数量达到了252万款;移动电话用户规模也在持续上涨,5G移动电话用户达到了3.55亿户[1]。这些数据表明,网络和现实生活已经紧密相连。人们在享受着网络技术所提供的便利的同时,其日常生活也已经被信息流所“裹挟”。

网络中的活跃用户,往往渴望被认同,对较为新鲜的事件会更加积极地响应和反馈。网络具有隐蔽性,前台用户的信息依然具有匿名性,言论发布者的心理压力相对较小,相比现实生活,有些人更愿意在网络中跟随情绪发表自己的意见。网络具有开放性和强交互性,因此个人能通过言论的传播谋取更大程度的社会认同。一方面,网络的监管力度远不如现实,在此过程中,部分人把互联网当情绪的宣泄口,其中部分群体很容易被虚假信息甚至极端的言论所影响,产生激进、感性和情绪化的言论叙述,这些情绪化言论在众人的响应下,存在逐渐发展成有害舆论的可能性。另一方面,广大网民情感、态度、意见和观点的表达和传播过程中,实时审核机制存在漏洞,缺乏对其后续影响力的预判,这是现阶段技术的局限性造成的。因此,在信息的快速传播过程中,缺少传统媒体中的“把关人”,信息被不停产生的新信息所埋没,部分内容随机伴随网络上庞杂的信息流进行传播、扩散,最终,在传播过程中进行发酵,成为网络热点,产生社会舆情,造成一定的社会影响。

1.2 信息传播分析

从Web2.0时代开始,网络信息传播不再仅按照传统形式发布内容供用户浏览,更多的是集各种媒介方式于一体进行信息传播,并能针对用户喜好、兴趣、关注对象、地区信息和个人信息等相关数据进行分析与追踪,形成“用户画像”,精确推送符合用户偏好的内容[2],大众所熟知的先进的主流传播平台如微博、知乎以及抖音,均以这种形式进行信息传播。

通过智能算法,用户可以对自己感兴趣的相关事件产生更强的参与感,因此新媒体时代,用户不再单单处于传统媒体的“议程设置”下,而是通过表达自己对于某一事件的体会和感受,完成了自身的议程设置工作,将相关事件融合个人想法进行“信息包装”,借用网络进行传播。

1.3 网络舆论的形成及影响

广义的舆情是个人和各种社会群体构成的公众,发布与自身利益相关的公共事务引起的个人情绪所造成的社会性讨论的总和。而网络舆情是社会舆情在互联网空间的映射,是对社会舆情的直接反映[3]。随着信息社会的快速发展和互联网的普及,各阶层与网络的接触更加紧密,信息具有传播渠道多、传播速度快、传播范围广的特点。在这种情况下,易形成网络舆情。网络舆情具有突发性、交互性、自由性、多元性与偏差性等特点。从积极方面看,社会舆情在某些方面可以形成正确的舆论导向,可以净化社会环境与人的心灵,陶冶人的情操,有助于良好社会风气的形成,在弘扬中华民族文化和社会主义道德上起到巨大的推动作用,但同时,网民看问题存在主观性,无法清楚地了解事件的来龙去脉,容易给当事人造成很大的伤害。

网络舆论的发酵过程中,参与讨论的个人大多不具有很高的社会地位或权力,却可以通过互联网表达自身诉求,通过和网友进行讨论,抒发自身不满,在此过程中满足自身期望与自我肯定。但是,在网络中,个人的议程设置往往具有很强的偏向性和主观性,网络舆论中的相关官方机构和公共事务的责任方往往会受到众多网友的声讨。

发起者利用网络舆论是以阐述个人诉求,得到社会肯定为目的,但是,通过网络舆论的传播,无论最终的结果如何,都会给相关单位或组织造成一定程度的声誉损害。相关人员在前期和发起者积极进行沟通,并且迅速做出反馈,对事情进行全面调查与分析,就可以降低对自身声誉的损害。如果是由于发起者自身的相关问题,通过沟通,可以引导其完善个人资料,满足个人或群体诉求;如果是因为组织内部存在制度缺陷,则积极回应,完善内部机制,与发起者进行沟通,使双方的社会利益均得到保障。

1.4 加强舆论反应的必要性

民众是舆情的核心所在,是整个网络链中核心的部分,是受舆情结果牵制的最终受益者或受害者。这要求网络监测能更切合实际地反映民情,更有效地展示社会中的实际问题,维护民众的利益。因此,网络舆情监测发展的方向必然是更专业化和更服务化。设立相关预警机制,实时监测、准确地分析数据,并在此基础上提出行之有效的解决方案等,将是舆情监测这个新兴行业需要坚持不懈地努力的方向。

本研究针对以上社会诉求,进行系统功能开发和平台搭建,该系统可以通过网络对特定学校、企业和政府部门相关信息的实时筛查,及时发现并收集来自组织或个人的可能酝酿成热点新闻的话题言论,进行风险评估,并形成相关预防预警机制,从而减缓社会事态的发酵,减小学校、企业和政府相关部门等的舆论压力,营造和谐的社会风气,以更好地维护社会秩序。

2 关于舆情分析中网络数据爬取的合法性论述

舆情监控对于维护国家和社会的稳定具有重要意义,而“网络爬虫工具”为其提供了有力的技术支持。近年来随着信息技术的不断发展,数据爬取行为的合法性受到质疑,在舆情监测系统的创建与发展中,数据爬取行为是否合法,应从三个方面看待[4]。

2.1 技术中立原则的适用

运用数据爬取技术应秉持中立原则,但技术中立原则不是免责条款,其使用方式和目标追求以及社会影响都是判断其是否合法的依据。舆情监测系统使用的数据爬取技术如非出于恶意,具有非实质性侵权性质,则不影响被爬取数据拥有者的合法权益,那么这种爬取行为就是合法的。

2.2 数据竞争关系的认定

不正当竞争行为的成立要求当事人之间具有实质性的竞争关系,舆情监测系统应用数据爬取技术之时,如没有与被爬取数据拥有者之间产生实质性的竞争关系,就不存在不正当竞争行为,数据爬取行为应为合法,同时还应当综合考虑竞争主体、行为不正当性等多方面因素。

2.3 行业惯例的法律效力

关于数据爬取行为是否合法并没有明确的法律规定,但是基于民法的自愿诚信原则,遵循Robots协议[5],对数据进行合法的抓取利用,未出现违背法律的现象。合理运用数据爬取手段进行舆论检测符合行业规范,是合法行为。

通过对网络数据抓取的合法性的调查和研究,最终得出结果,数据爬取技术在舆论检测系统中的应用是具有合法性的,只要合理合规地运用,可以通过此类技术实现信息的二次价值,并且并不会触及法律的边界。

3 系统总体设计

本系统从两个部分进行开发,分别是数据采集和系统部署。数据采集部分采用Elasticsearch搜索引擎进行搜索,在短时间内完成目标内容定位,获取相关数据。获取的数据经由三个数据处理系统进行数据过滤,这三个系统分别是数据在线处理子系统、数据应用分析子系统和数据资源管理子系统。通过三个系统的相互配合,对原数据进行清洗净化来获取特征词,以自然语言分析自动形成文摘。

3.1 数据搜索——Elasticsearch搜索引擎

系统以Elasticsearch+Hive+HBase组合作为数据层的解决方案。其中,Elasticsearch是基于Lucene开发的搜索和数据分析引擎,具备强大的数据索引、快速搜索和海量存储功能,适用于包括文本、数字、地理空间、结构化和非结构化数据等在内的所有类型的数据。本系统主要使用Elasticsearch完成关键数据的索引和搜索工作,舆情数据通过使用Elasticsearch从多个来源(包括日志、系统指标和网络应用程序)实现汇集。这些数据在Elasticsearch中索引完成之后,用户便可针对他们的数据运行复杂的查询,并使用聚合来检索自身数据。同时,将网络爬虫技术和Elasticsearch搜索引擎结合,通过网络爬虫技术对网络上的各个客户端的网站进行访问,在遵循互联网的Robots协议的基础上,对各个网站的网络数据进行获取。

3.2 数据获取——数据在线处理子系统

数据在线处理子系统是自主研发的通用采集器,采用主从分离的分布式架构,根据需要通过分布式扩展部署,在实现高效率数据采集的同时,也具备高可用性、高扩展性、快速定制采集规则等能力,从而保证数据在线处理子系统拥有增量式采集、按主题分类采集、可定制化采集的强大功能。

它由数据采集、数据预处理、在线翻译、相似度计算、云端数据管理、系统管理组成。在互联网如微博、知乎、贴吧等各大网络平台上进行热点信息采集后交由云端处理器管理,对舆情数据进行预处理、翻译和计算后,价值度更高的监测信息被送入海量数据存储集群。针对需要登录的网站定制化的采集需求,可通过采集器的定制服务完成。

3.3 数据存储——数据资源管理子系统

数据资源存储管理子系统可通过开源的分布式数据存储组件构成,如Minio、HBase、Hive等。其中,HBase是一个开源的、分布式的、版本化的NoSQL数据库(非关系型数据库),它利用Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)提供分布式数据存储。HBase将所收集的目标信息以表的形式组织数据,表由行和列组成,它将一列或者多列组织在一起,每一个列都必须属于某个列族。

利用这些工具可以对所采集的舆情数据如文本文件、网页文件、PDF文档、Office文档等常见的数据类型进行统一的数据管理,方便人工进行热点数据标注,开展数据文本分析,对舆情信息由面到点地一一摘取进行处理,如提取关键信息、实体识别、实体属性等,构建领域知识图谱。一系列操作完毕后,数据交由海量数据存储集进行更深的加工处理。

3.4 数据分析——数据分析应用子系统

数据分析应用子系统在使用开源的基础算法组件之上,根据需求,定制算法,对全网进行监测,如对热门论坛、贴吧、微博等各大网媒门户网站实时监控,收集重大高校相关政策信息、本校热门事件,若发现负面舆情,第一时间进行处理。利用自然语言分析,在重要数据分析模块进行全方位、多角度的关联分析与扩展,为系统用户提供具有实际价值和前瞻性的综合分析内容。

针对数据资源管理子系统处理后的数据,进一步挖掘可用信息,进行可视化的关联展示,使用户可以直观地看到所需信息。用户能够通过主题设置,实现信息分类展示,便于对其感兴趣的内容进行浏览阅读。相关信息从数据库中调取,通过图表、文字等形式进行用户展现。

4 系统部署

系统采用以Java语言为主、以开源软件为基础的定制化系统架构,共分四个层次。其中资源平台层和基础平台层属于数据在线处理子系统,其采用分布式的C/S架构,实现多线程并发信息采集与数据清洗;业务层和功能平台层属于数据分析管理子系统,采用B/S架构实现,使用浏览器来进行配置和浏览。

网络部分,系统采用“外网+内部局域网”方式进行部署。外网部署数据在线处理子系统基于Java开发的C/S架构设计,通过多节点、多进程、多线程并发的方式进行信息采集。由于系统整体采用的是松耦合设计,通过松耦合,与Java的多接口设计相结合,使该系统可以很好地部署在多种类型的服务器上,可以合理运行于Linux、Windows等服务器平台上。局域网部署数据分析管理子系统基于Java开发的B/S架构设计,前端使用主流的Vue框架以及阿里开源的ant-design组件,可达到完美兼容IE11、Chrome和Firefox三款最主流的浏览器的目标,并实现数据的集中可视化展示。

4.1 平台部署优势

系统能够给用户提供可视化的分析结果,采集浏览到的信息和各类统计图表。基础业务数据能够与国产达梦数据库实现兼容移植,同时系统能够运行在国产化的操作系统上。该系统现拥有完善的功能体系,平台操作界面简单,可以为用户提供信息监测、热点分析、事件分析、舆情简报及舆情大屏显示功能,模块可灵活部署于不同系统和应用之上,功能模块间的通信通过消息中间件来完成。

整个系统主要由内网和外网两大模块构成。外网进行数据的云端获取,内网用于数据的实时处理和结果输出,两者之间通过光盘摆渡进行数据的传输,进而进行数据的进一步加工工作,通过此种方式,可以实现系统的高效运行。

4.2 平台物理结构实现

数据分析子系统和数据资源管理子系统在内网进行部署,数据在线处理子系统在外网进行部署。基于B/S架构的系统可以使得数据更加容易获取,利用C/S架构进行外网部署,有利于数据的处理和直接呈现。三个部分通过光盘摆渡的方式实现数据交换,系统部署部分如图1所示。

图1 系统部署框架图

5 调控方式

系统通过对网络信息的收集和处理,得以在较短时间内明确舆情相关的事件性质,便于确定与相关单位或社会群体有关的危险等级,展开事件的风险评估。并通过及时联系相关责任机关或责任人,使其明确事态发展进程,及时把控事件的严重程度,降低社会舆论发生的可能性,减小相关舆论议题的社会影响,将舆情影响降低到最小,起到网络舆情调控的目的。

6 结语

网络舆情调控系统能利用网络爬虫,在遵守互联网关于数据抓取的Robots协议的基础上,对各大门户网站的公开舆情信息进行搜索并抓取;通过对元数据的清洗和去重获取特征词汇,结合自然语言处理和HBase数据库完成数据的存储和归类;再使用自然语言分析技术将数据进行归总展示。通过本系统进行网络舆情数据调控可以更加及时高效地解决公众提出的社会问题,同时也能降低由于公众的盲目发泄对官方机构和社会公共组织造成的潜在伤害。进行舆情防控,在很大程度上可以提高社会的安定程度和人民的生活幸福感。

猜你喜欢

子系统舆情用户
不对中转子系统耦合动力学特性研究
GSM-R基站子系统同步方案研究
关键信号设备检修自动盯控子系统研究
数字舆情
数字舆情
消费舆情
关注用户
关注用户
关注用户
如何获取一亿海外用户