大数据视域下社会舆情研究的新境界
2013-04-29李彪
李彪
摘要:
本文结合大数据对社会舆情研究的影响,从研究视角、研究方法、数据库支持、研究主体、研究重点等方面讨论了大数据背景下社会舆情研究的转向,在此基础上分析了大数据时代社会舆情研究在数据收集、数据存储、数据处理和数据呈现等几个方面的做点。
关键词:
大数据 社会舆情 舆情预警 数据挖掘 可视化
一、大数据为舆情研究创造了新机遇
在当下网络舆情研究的进程中,大数据的价值表现极为突出。面对数亿网民和浩如烟海的网络言论,网络舆情的监测和分析越来越依赖舆情大数据分析技术与平台。
1. 大数据成为 “人类的仪表盘”,更有利于舆情研究。大数据可完整记录社会舆情和民意。网民在网上产生的海量数据,记录着他们的思想、行为乃至情感,这是信息时代现实社会与网络空间深度融合的产物,蕴涵着丰富的内涵和很多规律性信息。通过分析相关数据,可了解大众需求、诉求和意见。一定程度上,大数据成了人类生存痕迹和心理变化的记录仪,成为不折不扣的“人类仪表盘”。通过这一指示器,可清楚地记录当下社会民众的所思所想。
2. 大数据成为社会舆情研究的“利器”。美国麻省理工学院斯隆管理学院的经济学家埃里克·布吕诺尔夫松(Erik Brynjolfsson)说,要想领会大数据的潜在影响,你得看看显微镜。发明于4个世纪之前的显微镜,使得人们以前所未有的细胞级水平观看和测量事物。这是测量的一次革命。布吕诺尔夫松教授解释说,数据的测量正是显微镜的现代等价物。[1]大数据可使对社会舆情的监测和测量达到个体级水平,而不再是传统web1.0时代舆情监测的整体性描述,大数据使得细节化、即时化地测量个体的行为和情绪变成了可能,并通过一定的隐私保护,通过其“电子痕迹”对个体进行社会行为刻画,在此基础上展现出个体的社会心理变化。
3. 大数据是社会关系的“沉淀池”,改变传统舆情只见“内容”不见“关系”的境况。目前,从整体发展来看,社会科学的研究已发生转向,由原来对“个体属性”的关注转向为对“社会关系”的关注,相应的研究方法也由传统的抽样研究到现在的社会网络分析,正如人们常常指出的那样,调查是一种社会学的绞肉机,它把个体从其所在的社会情境中抽离出来,并确保研究对象之间不存在联系。[2]传统的抽样研究很容易只见树木不见森林。正如传统的社会舆情监测只注重网民“说什么”,不重视网民之间的“关系”,这种舆情监测很可能只抓住比较浅层次的社会语义表达,不能把握网民“为什么这样说”背后的社会心理和其所处的社会关系网。大数据不仅仅记录网民的话语和内容,还记录网民之间的社会互动和社会交往方式,乃至网络族群之间的界限和相互勾连。通过一定的数据分析手段,不仅可描绘出网民的“社会话语表达”,且能够清晰地描绘出网民的“社会关系网络”和“心理文化地图”,从而改变web1.0时代单向度的舆情监测。
4. 大数据的预测性可以解决目前舆情研究的尴尬。目前的网络舆情监测和研究,是对已有事件的影响力和扩散范围进行量化描述,没有能够做社会舆情预警的,即使有个别机构宣称自己的舆情系统能够进行舆情监测,要么是噱头,要么预测的准确率很低,基本上不可以用于实践。全球大数据研究权威巴拉巴西认为:“93%的人类行为是可以预测的,当我们将生活数字化、公式化以及模型化的时候,我们会发现其实大家都非常相似。生活如此抵触随机运动,渴望朝更安全、更规则的方向发展,人类行为看上去很随意、很偶然,却极其容易被预测。”[3]如美国麻省理工学院副教授 Devavrat Shah 和学生 Stanislav Nikolov 发明的新算法在预测 Twitter 热门话题时准确率在 95% 以上,且平均比 Twitter 官方热门话题出来的时间早 90 分钟,甚至有些热门话题能够提前 5 小时预测出来,没有时间的限制,可以分析任何时间出现的任何话题,就像不停变化的股票市场、电影票价或每个人的乘车时间一样,Twitter 上任何随机发生的话题,都可以拿来分析。分析的结果,不仅能预测热门话题的趋势,还可帮助品牌推广或营销人员确定人们的关注点,甚至可用来监控舆论;另外脸书(Facebook)在首次公开募股上市(IPO)的当天,一个社交平台机构监测了Twitter上的情感倾向与脸书(Facebook)股价波动的关联。在开盘前推特上的情感逐渐转向负面,25分钟之后,脸书的股价便开始下跌;而当推特上的情感转向正面时,其股价在8分钟之后也开始了回弹;当股市接近收盘时,推特上的情感转向负面,10分钟后股价又开始下跌。当然,大数据被用于网络舆情研究也存在一定的负面性,这种精准化的社会存储、社会测量方式被大规模运用时,一方面容易引起个体隐私的泄露,通过大数据研究就像透过透明的玻璃鱼缸观察鱼群游动的行为乃至其中每一条鱼的表情活动;另一方面容易使一些别有用心的人或组织,轻易地操纵和控制舆论,但这些弊端都可通过一定的规则设定来进行有效规避。
二、大数据视域下舆情研究的转向
大数据对传统舆情研究产生了深刻的影响,在这种大背景下,社会舆情研究需进行相关转向,实现学科的调试和适应,具体主要包括以下几点。
1. 研究视角的转向:从单向度的内容研究转向“内容+关系”的多维度研究。随着大数据时代的到来,传统舆情研究只重视网民話语表达的单向度研究的视角必将改变,话语作为一种外在的社会表达,属于浅表层面,不能够有效窥探出网民群体的社会行为、社会心理和社会诉求。借助大数据,舆情研究的视角将更加多元化,未来舆情研究的视角将转向对社会话语表达、社会关系呈现、社会心理描绘、社会诉求预测等多方面、多向度的研究,通过这样的研究转型,社会舆情研究将真正成为一门与多学科交叉的社会显学,成为一门学科。改变目前舆情研究“策为上、术为主、学匮乏”的尴尬学术现实。
2. 研究方法的转向:由舆情信息采集转向数据加工、可视化等。由于舆情监测的前端界面呈现的方式上同质化程度较高,目前的舆情监测和舆情研究主要集中在舆情信息的采集及信息源的扩展方面。无论是北大方正舆情产品还是拓尔思(TRS),在对新闻网站、微博账号进行监测时,须将网站地址和微博账号的微号设定好,甚至新闻网站的网站设计样板也要进行设定,被监测的网站一旦改版,后台监测也必须调整相应的网页样板。各种舆情软件间的竞争,主要集中在信息采集源覆盖的范围以及数据分析后台的算法上,但呈现出来的前端页面则是“千网一面”。大数据将目前舆情信息采集的环节拉回到一个竞争层面上来,未来舆情监测和研究的数据源可能来自于同一个大数据库支撑,舆情研究主体竞争的是各类算法的精细化、准确化,并在呈现给用户的前端界面上进行优化,增强前端界面的友好程度,整个竞争的链条就会不断下移,更加适合用户的需求。
3. 数据库支持的转向:由简单的、有限的数据库转向非结构化的大数据库。目前的舆情监测和研究所依据的数据库相对来说比较简单,结构单一、数据量有限,还停留在TB级别,主要因为这些数据库的数据源要么是基于抽样进行数据抓取的,要么仅抓取重点网络站点,数据量有限,数据库标准相对较低,能针对小规模、有结构或类结构的数据进行分析,谈不上深层次的数据挖掘,现有的数据挖掘算法在不同行业中难以通用。大数据的数据体量巨大,从TB级别,跃升到PB乃至ZB级别,因此大数据所涉及的资料量规模巨大到无法透过目前主流软件工具进行处理和识别,需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力,这需要巨大的数据库作为支撑。另外,大数据的数据资源相对驳杂,是一种非结构化的数据呈现,因此需要相应的非结构化的数据库与之相对接。
4. 舆情研究主体的转向:由小作坊式的单打独斗、面面俱到的舆情监控转向分工明确、高度聚合集约的舆情分析。目前实践中的舆情监测和研究主体比较多,仅用于商业运营的软件监测主体就有几百家之多,这些舆情监测主体多半是软件服务商,通过网络爬虫技术、分词技术和议题聚合等技术,开发出相关软件,为企业、政府部门和科研院所安装和维护,进行简单的数据采集和分析,类似于小作坊式的舆情监测方法,这种运作方式急功近利,为了眼前的商业利益,不重视产品研发和数据源的扩充,通过吃回扣等商业贿赂方式尽量多卖几套“软件”。各舆情主体之间的竞争呈低层次化和粗放型。未来大数据使得舆情研究主体在同一个层面上,即数据处理和呈现的能力上竞争,在大家可以获得同一数据源的前提下,双方的竞争必将在数据处理、算法精进、界面友好、可视化等层面展开,分工会进一步明晰,行业内部会进一步聚合集约,行业洗牌加速,行业有机化程度增强。
5. 舆情研究重点的转向:由舆情监测转向舆情预警乃至预测,从单向度的危机应对、品牌营销转向各领域的综合信息服务。目前的网络舆情研究主要集中在监测,主要是对一些显著性事件的舆情动态,包括传播范围、影响力等进行监测和研判,类似于相面术的“麻衣相”,只知道事件发展的过去,不知道事件发展的未来。大数据的核心是预测,可通过分析处理整群数据,而不再大量依赖随机采样,通过自然语言处理、模式识别及机器学习等人工智能技术,结合人工经验,研判未来舆情发展的态势和影响,并在此基础上实现超出人类经验范畴之外的精准化预测。如国外研究人员已发现,Google搜索请求中诸如“流感症状”和“流感治疗”之类的关键词出现的高峰要比一个地区医院急诊室流感患者增加出现的时间早两三个星期(而急诊室的报告往往要比浏览慢两个星期左右);而在经济预测方面,Google上房产相关搜索量的增减趋势相对于地产经济学家的预测而言是一个更加准确的预言者。另一方面,目前由于数据量和技术等限制,舆情研究还主要集中在危机应对和品牌营销等,这种应用主要是基于舆情监测和研判这一功能进行的,未来随着大数据在舆情研究中的使用,舆情研究的功能指向必将更加多元化,为政府部门、企业和个人提供更加综合化的信息挖掘服务。
三、大数据视域下舆情研究的若干做点
不容置疑的是目前大数据的研究还处于起步阶段,所有关注大数据的机构和个人都知道大数据是未来很有价值的信息资产,至于如何开发和应用还是未知数,很多研究者的心态是先把数据下载存下来。
目前来看,大数据的分析和对比框架还比较缺乏,缺乏各行业通用的数据分析模型和精确化的数据算法,对社会舆情研究来说,未来大数据的可能出路和做点有以下几方面。
1. 大数据收集:尽量多地扩大信息源。目前的社会舆情信息源主要基于网络站点,对社会化媒体舆情关注的信息相对较少,未来的舆情信息收集要多元化,不仅仅收集社会化媒体中的舆情信息,还要加大对物联网中的信息的采集,要给这些来自物联网和各类机构信息系统的数据附上时空标志,去伪存真,尽可能收集异源甚至是异构的数据,必要时还可与历史数据对照,多角度验证数据的全面性和可信性。
2. 大数据存储:注意集约化。要达到低成本、低能耗、高可靠性目标,通常要用到冗余配置、分布化和云计算技术,在存储时要按照一定规则对数据进行分类,进行多元、立体化的标签标注系统,通过信息噪音过滤和去重,减少存储量,同时加入便于日后检索的标签。
3. 大数据处理:注意提纯和结构化。有些行业的数据涉及上百个参数,其复杂性不仅体现在数据样本本身,更体现在多源异构、多实体和多(下转第19页)(上接第15页)空间之间的交互动态性,难以用传统的方法描述与度量,处理的复杂度很大,需要将高维图像等多媒体数据降维后度量与处理,利用上下文关联进行语义分析,从大量动态而且可能是模棱两可的数据中综合信息,导出可理解的内容。综合来看,未来的大数据处理要注意以下几方面:一是小型基础数据库的支撑和建设,大数据库作为信息母体,需要若干小型数据库作为检索源,因此必须加大基础小型数据库的支撑,比如如果想了解大数据库中民众社会幸福感的高低,必须有能够衡量和指示社会主观幸福感的相关小型数据库作为支撑,以小型数据库的数据作为搜索元单位进行检索,去伪存真,经过这一步才能实现信息的基本提纯。二是将大数据结构化的算法。大数据作为一种非结构化的数据,需要进行一些结构化的解读和梳理,这就需要相关的数据结构化的算法,这种算法可称之为数据模型,通过构建一定的指标体系或结构算法,来有效地对大数据进行结构化,如同样对大数据库的社会幸福感的测量,在进行相应的社会语义提纯后须进行结构化计算,研究衡量社会幸福感的各类指标之间的相关关系,在此基础上进行赋值计算,从而形成适合衡量社会幸福感的大数據结构化算法。三是大数据处理千万不能剥离大数据产生的时空特征。数据自身是不懂社会背景的,现实生活中人类的决策不是离散的事件,而是镶嵌在时间序列和背景之中的,正像Big Data-Context = Bad一样,大数据被抽离了社会语境后就是坏数据。
4. 大数据结果呈现:低门槛和可视化。大数据作为一种社会应用工具,其真正的价值不在于成为一些IT从业者孤芳自赏的专利,而在于其能够服务于社会,被社会大众所容易理解和使用,因此大数据的呈现必须要界面友好,使用和识别门槛不高,结果直观便于洞察。新媒体尤其是社会化媒体的发展促进了UGC(用户生产内容)的繁盛,UGC必然产生大数据,因此大数据是新媒体发展的题中之义,大数据一方面描绘社会现阶段信息流动和传播的特征,另一方面给人们的生活、工作和思维也带来了变革。作为具有“社会的皮肤”之称的社会舆情研究必须更有效地组织和使用大数据,促进社会舆情研究的研究转型,只有这样才能实现学科自身的救赎和涅槃。
参考文献:
[1] 郭晓科.大数据[M].北京:清华大学出版社,2013:3.
[2] 刘军.整体网分析讲义:UCINET软件实用指南[M].上海:格致出版社,2009:34.
[3] [美]艾伯特-拉斯洛·巴拉巴西.爆发:大数据时代预见未来的新思维[M].马慧,译.北京:中国人民大学出版社,2012:2.
(作者单位:中国人民大学)