大数据在舆情监测中的应用:价值、局限性及其超越
2018-01-27刁生富冯桂锋
□ 刁生富 冯桂锋
近年来,大数据不断渗透到社会生活的方方面面,不仅给生产力带来极大的解放,而且也逐渐成为创新发展的新动力和新引擎。大数据隐含着巨大的社会、经济、科研价值,已引起了各行各业的高度重视。[1](P647-657)在舆情治理方面,大数据能够将网上的信息进行“横向到边、纵向到底”的监测,能够“窥探”进入网络的“蛛丝马迹”,因而具有重要的实用价值。同时,也应该看到,目前大数据在舆情监测方面的应用还存在一定的局限性,需要寻找解决对策,以进一步发挥其积极作用。
一、大数据舆情监测的应用价值
“魔镜魔镜,告诉我,谁是世界上最美的人?”著名童话《白雪公主》是这样搜集获得“舆情”的。时至今日,舆情信息更加重要,谁能第一时间获得完整的、有效的舆情信息,谁就能获得主动权,做到快速反应,迅速处置。如今,大数据在舆情监测、研判、预警、应急处置和引导等方面越来越体现出“魔镜”的价值效应,成为洞察社会、分析舆情的“显微镜”“放大镜”。
(一)大数据舆情监测的预测性
大数据监测的核心价值在于预测。“虽然万物皆显出自发偶然之态,但实际上远比想象中容易预测。”[2](P2)传统的网络舆情事件是在舆情产生之后进行舆论引导,舆情的提前监测几乎处于空白,传统网络舆情治理局限性突出表现在这种滞后性上。但是,大数据可以主动抓取、分析、重新整合搜集而来的数据,克服其滞后性,让舆情具有可预测性。一是能够全面收集数据。人们或喜欢在网页论坛上“吐槽”、“差评”,或喜欢在微博、微信中发表自己的心灵感悟,或喜欢在APP跟帖支持或反对某种观点。这些数据,还有大量的网友态度、发表时间、活动地点、生物钟等信息,通过文字语言处理、数据综合分析等技术,我们能够从无尽的大数据世界中挖掘事件萌芽信号、归纳舆论观点倾向、掌握公众态度情绪、并结合历史相似或类似事件进行趋势预测。二是能够重点监测。利用大数据,我们能够将重点监测目标的时间节点前移,根据工作中的经验、已建立的网络舆情演变模型,预测舆情的发生率。这种预测性,能够更加准确地把握意见生态环境,研判舆情发展趋势,更加有效地提高舆情管理水平。
(二)大数据舆情监测的全面性
大数据监测价值的前提是数据的全面性。大数据“海纳百川”,能够勾勒全景式的舆情生态。传统的舆情监测,较为零散,主观性较大。虽然有些部门单位将重要的、零星的舆情事件进行整理分析,但监测搜集手段较为简单,素材较少,数据不够全面,导致分析的结果不能全面反映所需舆情内容。大数据舆情监测手段在很多方面突破了传统监测的技术“瓶颈”,丰富了舆情的来源触角、内容类型,建立起全景式的监测模式。这种全景式的监测模式主要表现在:一是监测渠道的全面性。数据常常自动生成于微博、微信、QQ等日常社交网络行为中,被监测特定群体的习惯、喜好、行为以及潜在心理的数据,经过聚合分析,能够描绘整个舆情群体或地域、时段的特征。二是监测范围的全面性。大数据技术促进舆情监测的日常化,能够在“触角内”,突破传统监测的人工“软肋”,“持续性”“高集中力”“多维式”监控舆情,“理性化”“多视角”“综合性”展现话语圈层、地点定位、时间节点等信息,实现动态、全程、多角度的跟踪,并可以根据“主体需求”,细化、筛选、整理相关数据,有针对性提出舆情治理对策,既保证监测数据的全面性,又保证舆情化解的针对性。
(三)大数据舆情监测的关联性
大数据舆情监测的“特色”是数据的关联性。大数据“关联性”形成的认知模式,能够动态、全面、“辩证”地“认知”舆情。“大数据时代,突破了传统数据时代片面化、单一化、静态化的思维,开始立体化、全局化、动态化研究网络舆情数据,将看似无关紧要的舆情数据纳入分析计算的范围。”[3]传统的监测手段,采用“手工式”“誊写式”记录观测到的内容,虽然有一定的类型分类、趋势预测,但仅仅关注静态的观点陈述,缺乏动态跟踪的有效手段。传统的监测手段停留在“文如其人”阶段,片面理解网友“吐槽”“拍砖”“点赞”“顶”,缺乏网友心理分析、精神解剖,缺乏字面意义与深层含义的关联。同时,也缺乏线上舆情与线下事件的关联,缺乏“我”与“自我”、“我”与“他人”、“此时”与“彼时”、“此地”与“彼出”的关联。舆情的监测不仅需要由因到果的推理关系,也需要多次关联“如影随形”的相关关系。大数据把关注的焦点指向数据间的相关关系,关注数据网络裂变式关联关系蕴含的无尽可能性。一是关联“显性因素”与“潜在因素”。“将大数据作为一种认知工具,则是要提高对于舆情数据之间关联度的梳理,在实现数据关系可视化的基础上,进而评估关系的生成、扩散与变化。”[4](P5-9)大数据可以通过对突发事件的舆情信息,分析网络话语关联的观点、意义,剥离出具有重要话语权的人群、区域、传播及控制模式等,从而锁定重点监测的人群、地点、事件特征,提高了大数据舆情监测的抓取率和精确性。二是关联线上空间与线下世界。“人们关于海量数据收集、整理工作能力的提升,带来了一种从市场、政治选举、社会治安到国家安全监测工作的全面融合”[5](P55-69)。在大数据和互联网时代,网络已逐渐成为现实世界的“镜像”,是人们生活世界的空间展示;大数据抓取网络的数据,数据则来源于手机或PC端等屏幕后的人的手指滑动或敲击,它是人们生活世界的精神表现形式。舆情监测数据展现社会万千现象,蕴意网友喜怒哀愁及其信息播散行为;大数据关联线上线下,特别是舆情数据与生活世界。
(四)大数据舆情监测的可量化
大数据舆情监测能够实现数据的可量化。大数据的预测性、全面性、关联性等所具有的价值特征,必须建立在“能够落实”的能力。大数据在监测方面的一个重要能力是能够量化一切舆情信息,落实到对每一个监测数据的量化。传统舆情监测,数据往往来源于报纸、电台等渠道,文字、声音难以转化成数据,从而难以进行分类统计、分析,难以实现舆情经验的总结。在大数据时代,大数据量化一切,大数据既可以“量化”常规性质的文字,也可以量化非常规性质的图片、视频、表情包等;大数据既可以量化直接统计而来的资料,亦可以量化资料背后的情感;大数据既可以量化所需的舆情信息,亦可量化、摒弃无价值的垃圾数据。可以说,在大数据面前,所有监测的舆情,均可通过数据模型进行计算,分析舆情的态势和走向。同样,网络社会与现实社会同样可以量化。网言网语引导、线下快速处置、网上网下联动、协调共治等均可通过一定数据模型,逐渐推测出它应该量化的结果。
二、大数据舆情监测的局限性
同任何技术一样,大数据舆情监测的应用也存在着一定的局限性。充分认识其局限性,做到“扬长避短”,才能更好地实现大数据在舆情监测中的价值。
(一)大数据监测的盲区
第一,海量数据的挑战。目前大数据舆情监测的全面性是相对意义上的,实际上大数据技术还达不到真正“全面监测”的程度。浩瀚的网络信息,加之大量的相关性、偶发性因素,传统的舆情监测研判方式方法及手段的效用越来越微弱,而最新的技术目前还做不到全网搜索,造成大数据的全面性仅仅是在监控范围内的“全面性”,监控范围之外则是“盲区”。
第二,技术不完善造成的监测盲区。目前市场上舆情监测公司的技术与时代要求、客户需求还存在很大差距。这种技术与要求之间的“落差”造成监测舆情的数据抓取率低、精准率低,数据不全面。网页(论坛)评论区的信息抓取、微信公众号监测等都存在较大盲区,空格、拼音、图片、表情包等内容信息也难以监测。
第三,平台权限产生的监控盲区。一些平台如微信、QQ等用户软件为了保护用户隐私设置了权限,造成朋友圈、微信群、QQ群等成为监测盲区。这些盲区中含有大量丰富的舆情信息。在“人人都是麦克风”的时代,很多交通、环保、维稳、扫黄打非等重要信息都是第一时间被公众展现在这些平台。这些数据对党政机关是相当重要的,但目前国内大部分党政机关还没有打通与这些平台数据的共享,从而难以监测到这些数据。
第四,技术本身的人学情感盲区。大数据归根到底还是属于技术,人的情感因素无法被数据真正探测。情感因素是网络舆情发生、发展的催化剂,煽动性、行动性的言论暗示等“情感”指标是大数据的“阿喀琉斯之踵”,大数据无法解读这些暗语所显示的人的情感。目前,舆情监测数据能够在一定程度上解读公共网络表达的温度,但始终是“自在之物”,无法取代人类真正的情感。
(二)网上舆情的价值偏见
第一,“网民”与“人民”。截至2017年12月,中国网友规模达到7.72亿,互联网普及率为55.8%。[6]网友规模数字很大,但互联网普及率刚刚超过一半。这表明,中国接近一半的人还未接触互联网,他们还未融入互联网时代。这意味着大数据监测的视野范围内,没有他们的声音。另外,即使是55.8%的普及率,数字中到底有多少人参与网上的舆情设置或意见表达,或许也要打上深深的问号。“一个国家最不活跃的人群,为占大多数的中间层次。他们是在城市工作和在乡间务农的正派老百姓,然而,他们的命运却受分据社会光谱两头的少数人——最优秀的人和最低劣的人所左右”[7](P42)。显然,大数据舆情监测无法真正获取“全部数据”。大数据之“大”,数据也只能限制在可监测的范围;它的预测性、全面性、关联性以及可量化性,是建立在互联网“普及率”和网民“参与率”的前提之上的。根据大数据在互联网抓取的数据判断舆论的真正价值,容易忽视大数据视野之外真实的、具体价值的舆情信息。
第二,“唯数据”与“真舆论”。充分利用大数据在一定程度上容易形成“唯数据”、“数据崇拜”等观念,造成“让数据说话”、“以数据论英雄”的歪用,数据与现实的“两张皮”。以监测数据标准分析舆情事件,往往强调网上的声音,忽视线下真实的呼声。因而,网上数据的繁荣或话语的轻松并不能等同于线下事件本身的热度或处置的难度。除此之外,监测出的信息往往带有网友的非理性、情绪化的表达,从“海量意见”表达中甄选出需要的“舆论”养分还需要人工的参与。
第三,草野性与公权力。如今互联网“百家齐鸣”、“百花齐放”,自媒体平台发展蔚然成风,促进了信息开放,互动性,或多或少地影响舆情事件的冷却与升温。一方面,草野性导致片面性。网络数据的无限性与网友观点的非理性化、主观性存在一定的矛盾;大数据监测在抓取各种数据过程中,如不对自媒体等平台数据进行筛选,容易导致“坐井观天”结果。另一方面,草野性挑战公权力。社会自媒体网民的草根性、随意性,一旦“集体无意识”,失去平衡就会形成对公权力的挑战,造成党和政府网络舆论话语权的稀释、弱化,不利于社会的舆论治理和社会稳定。
(三)大数据监测存在人工“错位”
第一,舆情监测企业方面。目前,大数据舆情服务企业主要服务在舆情监测领域,对于数据的处理能力整体上偏弱。大数据舆情监测企业多为个体企业,整合性不强,人员队伍年轻且流动性大。这在一定程度上造成舆情监测服务公司监测能力整体提升较慢,人才也不能长久沉淀。
第二,舆情需求主体方面。舆情监测需求主体的监控人员和分析人员大多数从新闻宣传专业转型而来,计算机、情报学、统计学等专业技术人员较少。舆情监测人员的知识水平、关键词设置、分析解读能力与目前要求有一定的差距。舆情工作人员的能力水平、经验经历和价值判断直接关系到舆情监测工作的效率和质量,加之舆情工作人员发现舆情数据价值的偶然性、投机性,这些都仅仅与舆情监测研判的数量质量密切相关。
第三,舆情数据的信息茧房效应。大数据带来了人类历史上技术、传播、网络革命,各个平台表现出的互动、个性、多元、宅、狂欢、解构等特征越来越明显。在网络空间中,没有了等级森严秩序,世俗化了我们严肃的生活,告别了刻板,自由地表达,而自由本身,却正在成为我们的另一道枷锁,成为产生舆情的隐患。我们成为产生数据有史以来的最多者,但我们同时也是了解数据信息的最贫困者,我们只关注自己感兴趣的话题,进而我们置身于信息茧房之中。
(四)大数据监测的决策失误
大数据监测导致的决策失误主要来源于舆情数据的非理性和信息孤岛。在舆情数据的非理性方面,数据非理性是网友观点的非理性,也是舆情充满变数,随时逆转的重要原因。另外,大数据监测的操控者难以摆脱人的主观性影响,通过由“人”来设置的关键词进行搜集数据,监测结果难免出现差别,甚至出现“差之毫厘谬以千里”的结论。因此,大数据的决策理论如果建立在数据统计、分析之上,不经过综合辩证分析,那么就容易陷入“数据崇拜”的泥沼,大数据监测决策的科学性也会受到一定的质疑。在舆情数据的信息孤岛方面,绝大多数部门、企业目前已经认识到舆情数据的重要性,舆情数据与自身利益有很大关系。于是,许多党政机关、重要企业纷纷上马网络舆情的监测系统,充分利用大数据的“透视镜”“望远镜”作用,察觉关于自身的重要、微小、关键的数据,希望通过数据分析拷问数据背后的本质信息,为科学决策提供参考信息。但是,彼此不共通的系统,造成了数据孤岛,造成数据决策很可能是“只见树木不见森林”的结论。
三、大数据舆情监测局限性的超越
著名奥地利数据科学家维克托·迈尔·舍恩伯格认为:“大数据将开启一次重大的时代转型”[8](P9)。大数据具有重要的时代价值,我们要顺应时代潮流,克服大数据舆情监测的局限性,促进大数据舆情监测的进一步应用。
(一)促进大数据技术与人文的有机结合
第一,提高技术能力。大数据舆情面临的技术问题,最终还是需要发展大数据技术来解决。一是提高技术能力。在Frame、JavaScript、Ajax等爬虫技术的基础上,鼓励企业、科研院所继续研发更先进的舆情数据采集技术,不但可以监测各种正文信息,还可以采集获取某些特定的信息,比如,主题最新回复内容、阅读量、跟帖量、跟帖账号、跟帖时间地点、音视频等信息。二是推动舆情监测科学化。加强统筹,建立通过与新媒体、相关舆情监测企业对接,构建大数据舆情监测预警平台,推动舆情监测的科学化、高效化和协同发展。三是提高情感数据量化能力。大数据虽然不能彻底“通达”人性,但终究可以向人工智能发展,实现情感数据的量化。四是丰富完善数据池。优化完善关键词数据库,提高舆情抓取率。在现有关键词数量的基础上,优化关键词的组合和运行规则、优化设置关键词组合技巧。同时,舆情监测主体要不断提供新的关键词,完善数据词库,同时调整、清理无效的关键词。
第二,增加人文研判。对舆情趋势的研判是大数据时代舆情监测的目标。如今,人们能够从浩瀚的舆情数据中挖掘数据、判断趋势。但这远远不够,我们还需不断增强关联舆情信息的分析和预测能力,不仅仅是数据与数据之间的关联,还有数据与人的关联;还需对系统自动识别分类后的信息,根据经验、网友意会表达、特殊情景等进行再次挑选和分类,增加舆情数据的“情感温度”,破解文字、图片之外的“弦外之音”。
第三,“技术+人工”方式。舆情监测数据的量化取向并不能掩盖舆情监测人员自身的主观性,也不能全面还原舆情事件的情景因素。在此意义上说,大数据仅仅是舆情监测、治理的一种路径。我们需要在大数据监测的基础上,采用人工监测方式进行补充,采用“技术+人工”方式,弥合数据世界与生活世界之间的落差,使得监测数据更准确地反映公众心理,更真实地描绘社会意见生态。
(二)加强大数据舆情监测管理
第一,网络舆情治理和社会治理相结合。舆情数据从本质上来讲,是人们在现实呼声的表现。网络舆情的治理本质是社会问题的治理。因此,我们不仅要利用大数据监测、搜集网上的群众意见,而且也要利用大数据整合线下的社情民义。在此基础上,发挥大数据“关联性”优势,把线上线下意见统一整合考虑,构建舆情治理的大数据库,实现线上舆情处置和现实问题相互策应、同步推进。
第二,草根性与权威性相结合。政府公信力往往与政务公开相联系,政务信息不公开、不透明往往是网络舆情发生的导火索。因此,我们要把大数据与政务信息公开紧密结合起来。政务信息应在官方权威的平台上发布,同时发挥社会自媒体的草根性作用,鼓励社会自媒体弘扬社会正能量,在国家政策范围内传播政务公开信息,提升政务公信力。同时,政务公开要在保障数据安全的前提条件下,破解舆情数据“信息孤岛”,引导社会公众积极参与对公共数据的理性生产和正确使用,增加“草野”与“公权力”的互动性,发挥大数据的最大价值。
第三,日常舆情监测与大数据相结合。“千里之提,溃于蚁穴”,重大舆情的发生往往与细小、琐碎的舆情“量变引起质变”有关。因此,我们要运用大数据突破传统舆情监测的旧式思维,充分利用大数据收集日常舆情数据。建立网络舆情大数据的监测台账,动态纳入“两微一端一网”等各个平台数据,并全面分析舆情数据,分析其产生、传播及影响动态,从变化莫测的舆情数据库中“定位”出“关键”,从而精准施策,提高舆情治理能力。
第四,突发事件与大数据相结合。大数据时代,突发应急事件与互联网密切相连、如影随形。网络既是突发事件的“催化剂”,又是网络舆情治理的“灭火剂”。因此,突发舆情的治理与网络治理密切相关,与大数据治理密切相关。同时,应该看到,提高突发舆情事件的能力“功底”在于平时的日常舆情监测,在于日常的关键词的补充完善、数据的筛选、经验性的调试、细小琐碎式的舆情演练。在日常监测的基础上,通过对舆情性质分类、网友意见倾向、传播平台、扩散速度等方面的大数据分析,建立起突发舆情的应对体制、机制及制度,科学研判、稳妥快速处置,提高突发舆情的治理能力。
第五,舆情引导和大数据相结合起来。“解铃还须系铃人”,网络借助大数据加速或延缓了舆情事件的发生、传播,大数据在网络引导中的重要性日益凸显。我们应运用大数据的关联性,分析网友意见倾向、平台权威性、扩散面等因素,勾勒出网络舆情事件的全景,设置不同网络引导类型,巩固正面声音,消解非理性声音,引导网络舆情向客观、理性方向发展。
(三)推进大数据舆情管理体系建设
第一,健全大数据舆情管理体制。目前,我国在大数据舆情监测方面还存在一些问题,比如舆情数据集中度、使用率、安全性等较低问题,我们需要加大人力、财力、技术等因素投入。发挥网信部门统筹协调作用,建立大数据舆情监测、研判、预警、处置、引导等管理体制,统筹社会各个方面舆情数据的搜集、汇总、挖掘和利用,推动我国舆情大数据的发展。同时,建立线上线下舆情生态联通机制。建立网信、公安、信访、维稳、扫黄打非、民宗等多部门信息沟通机制,建立新的评估机制,建立网上舆情监测处置与线下矛盾引导化解的相互作用机制,打通线下线上舆情沟通渠道。
第二,多元化大数据监测渠道。一是建立重点舆情源报送制度,弥补大数据监测盲区。通常情况下,对于区域性舆情,网友在发布诉求到网上的同时,也会通过电话、内部系统等方式向新闻媒体单位、信访、12345热线等进行同步爆料。舆情监测需求主体尤其是党政部门需加强与这些单位的对接,剥离出自身单位所需舆情信息,不断延伸监测的触角,扩大监测范围。二是加强舆情监测核心部门与舆情信息源平台的合作,扩大舆情的监测权限。在遵守法律法规前提下,党政核心部门应加强与重要舆情平台的合作,在已有能力监测范围(比如新浪微博、网页论坛)基础上,在保证网友隐私、言论自由的前提下,适度扩大核心部门(特别是党政部门)舆情监测权限(比如网信、公安、维稳等部门可以查看朋友圈、微信群等),拓展发现舆情的渠道和触角。
第三,增强大数据舆情监测人才队伍。一是重点引进统计学、计算机、情报学、新媒体、传播学等专业技术人才,优化大数据舆情人才队伍。二是购买服务,租赁第三方高精尖大数据监测技术人才,提高大数据舆情监测专业化水平。三是招录或加强培训,加强属地重点人物、重点地点、重点事件的地域舆情监测,加强关键词设置及分析能力培训等,提升自身监测人员的舆情素养。
[1] 李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J].中国科学院院刊,2012,(6).
[2] 艾伯特-拉斯洛·巴拉巴西,爆发:大数据时代预见未来的新思维,马慧译[M].北京:中国人民大学出版社,2012.
[3] 徐广军.思维变革:重构大数据视角下的网络舆论引导工作[EB/OL].http://yuqing.people.com.cn/n/2014/-0827/c210118-25549618.html
[4] 邵培仁,王昀.触碰隐匿之声:舆情认知、大数据治理及经验反思[J].编辑之友,2016,(12).
[5] ANDREJEVIC M.Surveillance in the big data era.In K.D.Pimple(ed.).Emerging Pervasive Information and Communication Technologies[M].New York:Springer,2013.
[6] 中国互联网络信息中心.第41次中国互联网络发展状况统计报告[EB/OL].http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201803/P020180305409870339136.pdf
[7] 埃里克·霍弗.狂热分子——码头工人哲学家的沉思录,梁永安译[M].桂林:广西师范大学出版社,2008.
[8] 维克托·迈尔-舍恩伯格,肯尼思·库克耶.大数据时代:生活工作与思维的大变革,盛杨燕,周涛译[M].杭州:浙江人民出版社,2013.