APP下载

舆情研判的大数据赋能:风险与对策

2023-04-24岳梦怡陈超逸

中国传媒科技 2023年11期
关键词:研判舆情分析

岳梦怡 陈超逸

(中国传媒大学媒体融合与传播国家重点实验室,北京 100024)

舆情是指在一定的社会空间内,围绕中介性社会事项的发生、发展和变化,作为舆情主体的民众对国家管理者产生和持有的社会政治态度。[1]由定义可以看出,舆情是一定时期内社会心态和社会现状的反映,具有自发性、情感性、动态性、开放性等特征。伴随着融媒体时代的到来,舆情生态格局发生了变革:公众拥有了更多的话语表达权和互动参与权,社交媒体和短视频媒体平台成为信息传播和舆情表达的重要时空场所,情感化表达与圈群式传播成为舆情扩散的关键因素。实时、全面地研判舆情信息有助于把握舆情发展态势,为科学化舆情决策提供依据。

1.舆情研究方法的历史演变

传统上,舆情分析机构往往通过发放问卷调查、电话访谈等方式来了解公众对某一事件的看法。这种调查方式是一种介入式的信息获取,公众可能会出于对调查者的不信任而隐瞒其真实想法或意图,影响调查结果的可信度。从获取的数据类型来看,这种方式获取到的是小样本数据,人力、物力成本较高,且存在一定的时间滞后性。此外,这种调查方式获取的是个体的静态结构属性数据,难以把握个体在舆情传播过程中的关系节点与位置信息。

伴随着互联网的发展,手机、电脑成为公众阅读新闻、发表意见的重要渠道,意见观念的表达开始出现数字化特征,舆情文本能够被在线检索、存储与记忆。舆情分析工作者也逐渐重视网络民意的收集,主要方法包括网络问卷调查法、人工监测法、网络内容分析法等。网络问卷调查方法是指通过网页问卷链接、电子邮件问卷等信息手段获取公众的意见。与传统调查方式相比,网络问卷调查法增加了信息获取的时间性和灵活性。另外,由于网络空间信息流动性较强,大部分网络问卷调查法采用的是非概率抽样,得到的样本也更加随机。人工监测法是舆情工作者通过定期浏览相关网站和有影响力的大V 或专家学者等的观点、搜索相应关键词,整合分析热点事件的意见分布,并形成相应的舆情报告。网络内容分析法是舆情工作者通过抽取样本、定义分析单元、建立分析类目、量化与统计、分析汇总[2]等环节判断网络中舆情传播现状、反映的社会问题、公众的情绪和观念、舆情信息的地区分布等内容。

5G、物联网、人工智能技术的发展,变革了社会连接方式和信息传播方式。在万物皆媒,万物互联的媒介生态中,个体的话语权力被激活,微粒化传播、情感的液态流动、圈群式扩散建构出新的媒介景观。网络舆情也呈现出隐蔽性、涌现性、非线性扩散等新的特征。传统的舆情调查方式在应对海量化的舆情数据规模、多样化的数据结构、动态变化的数据关系中存在局限。

伴随着数据挖掘与算法模型的发展,以文本挖掘、情感分析、社会网络分析为代表的舆情分析技术成为观察舆情传播过程的“显微镜”,舆情文本成为一种重要的舆情数据资源和生产要素,通过大数据获取舆情数据成为一种新的趋势。大规模数据集、可计算、可建模是计算传播学的显著特征,[3]通过对网络文本、音视频、表情符号等数据的挖掘与分析,借助统计方法、机器学习算法或时间序列模型(如ARIMA、LSTM 等)对舆情话题进行时间序列分析,能够获取“内容+关系+情感”等多种维度舆情信息,实时跟进舆情发展的各个阶段。这种舆情监测与分析是一种实时性与动态性的信息获取,有助于及时获取公众的意见和舆情信息传播过程。

这种信息获取方式也是一种非介入式的,这种自动化式更容易打捞公众的真实想法,在观念收集的真实性、客观性上有优势。从舆情信息获取的时间阶段来看,区别于传统舆情在舆情爆发后的被动式信息捕捉,大数据舆情分析是一种主动性的信息获取,通过舆情的关键特征提取,能够预测舆情发展态势,提高舆情应对效果。

此外,在信息监测与挖掘过程中,通过将浏览数、阅读数、转发、点赞等指标对网络舆情话题热度、演变规律、扩散程度等情况进行加工和分析推理,减少人为评估舆情现状的主观程度,为科学化决策提供依据。

2.数据化赋能:大数据技术应用于舆情研判的实践进路

2.1 舆情研究的数据化:舆情信息识别与规律发现

维克托·迈尔-舍恩伯格在其经典著作《大数据时代》一书中提到,“有了大数据的帮助, 我们不会再将世界看作是一连串我们认为或是自然或是社会现象的事件, 我们会意识到本质上世界是由信息构成的。”[4]人工智能技术为我们研究舆情提供了一个新的视域,作为一个社会现象的舆情热点事件也能够被量化。值得注意的是,这种量化不是一种简单的数字化,而是数据化过程,即通过大数据算法的运算能够整合舆情数据、发现舆情规律,得出相应的结论。舍恩伯格称之为是把现象转变为可制表分析的量化形式的过程。[5]

与过去相比,这种舆情规律发现方式和价值探索是以海量的、形式多元的数据为本体。大数据分析技术应用于舆情研究就是通过算法技术对互联网中公众的思想、观念进行数据化、量化分析的过程。在数据挖掘、机器学习和智能算法的驱动下,网站、社交媒体中的观念表达等文本内容被标准化计算和量化统计,舆情主题分布、传播规律得以自动涌现。“在真实世界很难发现的用户群组或者稀疏、分散的行为现象能在大数据集中被过滤出来 。[6]在结合舆情文本数据化的结果之上,舆情工作者对舆情热点进行科学研判,把握公众对舆情热点事件的整体态势。舆情治理实现了从小数据到大数据,从横截面数据到过程性舆情数据的转型。

2.2 大数据网络舆情研判的主要步骤与方法

大数据技术下的舆情研判主要包括信息采集、网络舆情热点发现、热点评估和跟踪、分析处理等过程。[7]

2.2.1 信息采集

信息采集主要包括对舆情信息的爬取、存储以及清洗等,用到的技术有网络爬虫工具、数据库存储技术等。网络爬虫包括通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫等类型。[8]网络舆情数据的爬取一般采取的是聚焦网络爬虫,主要是基于舆情主题的信息抓取。在网络爬虫之前一般需要预先设置采集条件,例如关键词和目标网站等。爬取的数据源包括社交媒体数据、新闻报道、论坛讨论、博客文章等。爬取的数据维度包括网页的内容数据、结构数据、页面访问者的使用行为数据。在设置好相应参数后,舆情软件对网络信息采取7×24 小时实时监测。

由于网络爬虫获取的数据中不仅有高价值密度信息,还有大量的噪声和冗余数据,因此需要对采集的数据进行清洗整理,对不相关、重复、不规范以及垃圾信息进行标准化处理。通过对数据的预处理,与舆情事件相关的内容数据形成了初步的数据集。这一环节有助于明晰舆情地图边界,避免信息过载对舆情分析的干扰,提高数据分析价值。

2.2.2 网络舆情热点发现

网络舆情热点发现是基于一定的算法判定热点舆情话题的重要程度,对舆情热点话题进行识别和持续跟踪,提供热点话题在网络空间的传播发展路径等。舆情热点的发现过程是一个主题聚类的过程,这种算法技术的开发与应用能够应对传统舆情研究方法中舆情监测的实时与全面监控难题。[9]目前较为有名的舆情热点发现研究是美国的TDT(Topic Detection and Tracking)研究项目。[10]该项目起初是为解决“接触获得的信息越多,真正能有效利用的知识反而越少”的悖论问题,希望通过开发算法技术实现在海量数据中的话题内容自动识别与跟踪。主要技术包括Single-Pass 聚类算法、K-means 算法等。目前我国部分舆情监测系统能够实现对网络舆情热点的自动发现,例如方正智思舆情预警辅助决策支持系统能够基于舆情主题、属地舆情及已配置的关键词等内容自动从海量数据中识别、匹配与事件相关的互联网信息。[11]

2.2.3 热点评估和跟踪

热点评估和跟踪是“意见挖掘”过程,即根据舆情算法指标评估热点事件中的议题属性、情感倾向、舆情传播扩散等内容。大数据分析技术通过对网页正文、微博评论等文本信息进行分词、特征词提取、主题发现和分类,帮助舆情工作者把握热点事件中公众关注的主题分布、议题属性等关键信息。

在公共舆情空间中,个体的话语表述呈现出情感化特征,情感动员在舆情扩散演变中发挥重要作用。在舆论的研究里, 情感已经成为一个重要的分析角度。[12]情感分析技术是对各种新闻资源、社会化媒体评论和用户生成的内容进行情感极性和情感强度计算,判断网民对热点事件的情感倾向。目前情感分析技术不仅能识别文本信息,还能够对视觉数据进行分析判断。关于情感分析方法主要有基于情感词典与规则、基于传统机器学习和基于深度学习三种文本情感分析方法。[13]

意见领袖是舆情信息的加工者与扩散者,能够影响公众对舆情话题的认知与态度,在舆情传播过程中发挥着重要作用。在社交媒体赋权的时代下,需要从多元化的公众群体构成中找出意见领袖。目前,大数据分析技术通过对网民自身影响力与活跃度、网民社会网络关系、发帖内容、网民交互行为(回帖、转发、点赞次数)等指标的综合研判和集成分析判定舆情传播过程中的关键节点。

2.2.4 分析处理

分析处理环节是舆情分析的重要环节,也是定量研判与定性研判,动态性研判与深度性研判相结合的过程。在这一步骤中,大数据分析技术对获取的元数据指标数据、关系数据、公众关注度数据、情感指数数据等内容分析判断后,用图表等可视化形式呈现,并通过交叉分析将舆情主体的性别、地域、职业等指标与舆情观念态度关联起来,挖掘出隐藏的舆情认知规律。

另一方面,舆情工作者要在把握舆情传播规律的基础上,结合数据分析结果和当下的时代背景、社会心理、利益诉求等内容,分析舆情背后的动力机制,对舆情走势作出可能性判断,为下一步的舆情引导与科学决策提供建议。

3.大数据舆情分析技术应用于舆情研判的局限

大数据技术赋能舆情研究加速了基于海量数据资源的舆情实践。在实践应用过程中,舆情工作者一方面需要了解大数据舆情分析的优势,同时,也应了解其局限,警惕其存在的风险问题。

3.1 技术工具层面的舆情测量偏差

即使大数据实现了舆情信息数据的实时、自动抓取过程,但在抓取全样本数据、结论的信度效度验证方面仍然存在局限。

从信息抓取环节来看,监测数据源的准入性问题会带来结果偏差。舆情数据类型包括总体数据、局部数据、样本数据等。总体数据是全部的数据集,局部数据是总体数据中的部分数据,样本数据是指通过调查问卷方式,经过严谨科学的抽样获得的数据类型。祝建华教授认为,如果只考虑质量, 不计成本、效率等其他因素, 总体数据最靠谱, 其次是样本数据,最不靠谱的是局部数据。从理论上讲,大数据指的是总体数据,但实际上能够获取的大数据指的是局部数据。[14]目前,部分平台未开放API 接口,舆情监测平台往往把部分关键的舆情发酵平台作为搜索源[15],这是一种局部的数据源监测,存在数据监测遗漏风险,结论的信度与效度也有待进一步验证。

从数据识别来看,大数据分析技术的智能化程度有待提升。在舆情空间中充斥着大量的文本、图片、HTML、音频/视频等半结构化数据与非结构化数据。这类数据往往规模比较大,数据的价值就隐藏在这些形式中。但目前大数据技术在多层次、多维度地识别这些非结构化数据中存在一定的局限。

从数据分析结果的有效性来看,大数据舆情分析结果可能会与真实民意存在偏差。近年来,互联网在我国得到了普及,截至2022 年12 月,我国网民规模达10.67 亿,较2021 年12 月增长3549 万,互联网普及率达75.6%。[16]但即使在社交媒体嵌入日常生活的全媒体时代,公众声音也交织在线上与线下双重场域之中。因此,不使用互联网和未在互联网中发表意见的少数群体的舆情数据难以获取,分析的结论能在多大程度上代表民意也有待进一步验证,用户、参与度及活跃度三者之间的关系仍需要仔细研究。[17]另一方面,目前我国有各种类型的网络舆情监测机构,但各自有不同的算法模型指标与比重,不同算法可能在处理同一舆情热点话题时会得到不同的结论[18],哪个结论更有现实说服力也难以验证。

3.2 舆情生态系统的混沌性

舆情生态有一定的混沌性。混沌性是指在一个容易变动的系统中,人们难以认识和把握其形态与性质。[19]随着社交媒体与互联网平台媒体的兴起,舆论场域中多元话语不断交织与博弈,舆情在传播扩散中的阈值与重要关键点难以预测和把握。

从舆情主体来看,舆情主体呈现出多元化的特点。除了有广大草根群体参与公共领域话题讨论,媒介组织、专业组织、网络水军、自动写作机器人等主体都加入到多元话语的建构与生产中。意见的增多并不能等同于舆论繁荣,需要仔细从“海量意见”的形成与表达中甄选“舆论”的成分。[20]多元化的主体在网络空间中生产各类信息,大量后真相信息和冗余信息充斥其中。要想有效研判,首先需要对这些噪声数据进行识别和清洗。目前机器人水军不仅在内容上与真人差距越来越小,在社交行为方面会模拟受众点赞、关注、转发、评论等常规社交行为[21],这种类人化表现加大了大数据技术识别的难度。

从舆情本体来看,公众通过短文本、感叹词、标点符号、表情包等叙事话语表达意见,并通过多重解码、二度创作的方式使舆情多次扩散,热点事件传播力和社会影响力可能会在这个过程中被进一步放大。这类话语叙述是舆情扩散的重要推动力,需在舆情分析研判时引起重视。大数据分析技术即使在一定程度上解放了人力,但其分析的机械化、简单化也难以应对多元化、复杂的文本内容。

3.3 舆情研判过程中的局限

舆情是一种意义的表达,是具体社会时代情境下建构的产物。对于舆情的分析与理解需要考虑社会情境因素,将社会问题、时代背景、具体舆情时空场域等内容结合起来研判。例如,2023 年3 月5 日“一本院校招聘会现多家酒店招洗碗工”事件引发公众广泛关注。在该舆情热点事件中,公众围绕学历贬值,招聘企业是否给予求职者重视,就业焦虑,人才的浪费,职业鄙视链,市场供需失衡等话题展开讨论。[22]由此来看,舆情热点不仅是对社会问题的反映,还映射了当下的社会心态和利益诉求。大数据技术在将内容观点量化的同时,难以解释该话题成为舆情热点的原因。这就需要舆情分析师结合定量的分析数据和舆情处理经验对舆情进行深度研判和前瞻性判断,确定舆情事件的类别,分析网民心态,结合过去案例经验对舆情的下一步可能性走势进行预警判断,给出较为科学的决策建议。

在目前的舆情研判实践中,一方面,大部分舆情数据库的建立并不完善,过去舆情应对中丰富的经验成果难以应用到对当下的舆情研判与决策中。此外,舆情分析处理环节是定量研究和定性研判相结合的过程,研判和分析结果会受到舆情分析师的主观经验影响。这一过程对研判人员的新闻敏感性、社会心态洞察力、社会现实的把控能力等有较高的要求。但目前舆情研判人员的层次良莠不齐,影响舆情研判决策效果。

4.结论与建议

4.1 数据管理:细粒化舆情数据库建设

从舆情的发展规律来看,很多舆情都是以话题的形式呈现,且存在一定的时空发展规律。例如,李彪在对近十年来网络舆论议题的演变进行历时性考察后发现,公权力、民生话题、社会分配不合理以及涉及国家利益、民族自豪感等议题容易成为公众关注的热点。从时空分布来看,舆论议题全年分布集中在春夏之交与年尾两个重要节点。[23]这说明,对过去的舆情案例进行梳理总结能够对舆情治理实践提供思路。因此,要想更好地发挥大数据舆情数据的价值,需加强舆情案例库建设,发挥舆情案例库的知识智库功能。

从案例库的建设来看,舆情案例库应包括舆情传播溯源数据、舆情时空数据、话题属性数据、话题热度、传播扩散数据、舆情应对数据等维度。通过对这些数据的深度提取,挖掘出传统数据方法中难以捕捉或测量到的关键宏观变量,在此基础上通过时间序列模型、仿真建模等方法对舆情发展规律进行可视化的呈现,促进舆情治理的科学化。此外,通过相关领域专家对舆情传播过程的舆情兴奋点、舆情拐点等内容进行深度把控和归纳总结,分析舆情在不同发展阶段的规律特征,把握各类事件的联系,发现舆情话题潜在的舆论风险与价值诉求。

大数据舆情规律的呈现是基于海量的数据。只有多方位掌握社交媒体中的舆情行为数据,才能更客观、准确地呈现舆情态势。目前数据资源主要掌握在政府和企业手里,舆情监测机构由于技术壁垒和资源局限,存在“巧妇难为无米之炊”的数据资源匮乏困境,难以掌握全面的舆情信息。要想打破这种困局,首先各部门需要树立大数据意识, 充分意识到舆情数据的资源价值和丰富内涵。其次,打通数据库的断层,健全并完善大数据在舆情治理中的协同性。具体路径包括:建立一个“物理分散,资源共享”的舆情数据整合与管理平台,广泛汇集元数据信息,将政府数据、企业数据、研究机构数据进行深度整合和互通共享,更好地发挥舆情研究的“数据化”优势,提升舆情研判的效果。

4.2 方法并用:多种研究方法的融合

大数据分析技术为舆情治理研究提供了新的思路、方法,使我们对舆情规律有了更加科学的理解。但舆情治理是一个融合多学科的领域,在实践应用中需融入政治学、新闻传播学、公共管理学、情报学等多学科的研究视角,建构一个以舆情数据为基础,融合社会场景的舆情解释框架。

对大数据舆情分析的应用也摒弃“大数据技术万能论”的观念,将多种研究视角与研究方法融合并用,增加舆情数据的解释力。正如拉泽尔等人指出,相比关注大数据,我们更应该关注全数据革命(All Data Revolution),即综合利用各种数据来获得对世界更加深刻、清晰的认识。[24]目前大数据舆情分析技术在获取全量的舆情数据,打捞真实的民意等方面存在局限。而传统的问卷调查往往经过严谨科学的样本抽样和信效度检验,在数据代表性上有一定的优势,能够对大数据舆情分析结论进行补充验证。此外,在问卷调查中还能获取相对完整的个体属性数据,通过相关分析、多元回归分析等数据分析方法,能够判定不同的社会结构群体对某一舆情热点的态度观点。

另一方面,舆情本身是意见的集合,是一种社会文化现象,背后反映的是社会心态和社会思潮,有阶段性和情感多样性的特征。舆情治理也是社会心态调适的过程,需要把握、回应公众的利益诉求。舆情研究者使用大数据分析方法时,不仅需要对外显的舆情数据文本进行讨论分析,也需更深层次地挖掘舆情热点背后公众的认知框架及其影响因素。在今后的工作实践中,舆情工作者一方面需要借助机器学习挖掘海量舆情文本数据中的语言学特征分类,另一方面需要通过网络民族志、话语分析、修辞分析等研究方法把握舆情数据背后的社会意义,理解舆情议题在不同群体中的认知框架和社会逻辑,更好地分析舆情主体心态与诉求。

4.3 人才建设:加强对舆情工作者的培训

网络舆情源头、潜在风险识别、网络社会生态和制度环境分析、多种可能趋势预测等都需要借助人脑才能完美解决。[25]要想科学有效地研判,需形成系统化思维,将舆情理论、数据资源和研判经验三者结合起来。舆情分析师在舆情研判中发挥重要作用。2013年9 月,人社部将舆情分析师纳入国家职业培训序列,参加相关培训并考试合格者可以获得人社部颁发的人社部CETTIC 证书——《网络舆情分析师职业培训合格证》。[26]但这并非是一种强制要求。目前舆情分析师在能力、素养等方面依然存在参差不齐的状况。有学者指出,在舆情研判人才梯队的搭建上,既鼓励博学多能,又坚持术业有专攻。[27]这意味着,舆情研判人员既要有对数据的分析、把握能力,也要掌握舆论传播规律。在今后,应通过多种途径提升舆情分析者的胜任力:一是高度政治敏感和自觉,在复杂的网络舆论空间中保持清醒,增强舆论引导的敏锐力和判断力,把握正确的舆论导向,防范化解网络舆情风险;二是具有对舆情分析工作的浓厚兴趣和高度责任心的职业态度;三是精湛的专业水准和理论水平,掌握网络舆情理论,熟悉网络传播规律,具备网络舆情数据分析的基本能力;四是掌握社会转型期的“痛点”,对社会心理、网络文化有一定的理解与把握。此外,还应掌握互联网法规、网络安全知识。总之,在丰富的业界实践经验和敏锐的舆情判断力下,舆情工作者才能做出科学有效的判断。

大数据技术在舆情领域的实践应用必然会经历一个从初步尝试到成熟完善的发展过程。从目前大数据技术赋能舆情研判实践来看,其在捕捉全量的舆情信息、预测舆情发展态势,提高舆情应对效果等方面具备优势。但也存在技术工具层面的舆情测量偏差,舆情生态系统的混沌性,舆情研判过程中的局限等风险。在未来,我们一方面应秉持积极开放的态度拥抱大数据分析技术。另一方面,也要对其技术局限进行深入探索,提升舆情治理决策效果。

猜你喜欢

研判舆情分析
徐州市超前研判 做好春节安全防范
隐蔽失效适航要求符合性验证分析
研判当前货币政策走势的“量”与“价”
研判当前货币政策的“变”与“不变”
电力系统不平衡分析
基于CRF文本挖掘的事故研判分析
电力系统及其自动化发展趋势分析
舆情
舆情
舆情