“数据治国”的三个关键理念
2015-09-10杜小勇
杜小勇
【摘要】大数据因其规模巨大、类型复杂、产生速度快、价值密度低等特点,对现有信息技术构成巨大挑战。运用新理念、新技术、新方法对大数据进行全生命周期的创新管理和应用,是推动国民经济转型和社会管理创新的重要契机,也是提升国家综合竞争力的重要趋势。支撑这场大数据革命的底层力量,不仅仅是技术革命,更是涉及领导意识、组织文化和行为方式的思维革命。在国家治理层面,尤其需要形成“数据治国”的治理理念,掌握用数据思考和解决社会问题的新方法,最重要的是树立数据思维、互联网思维和计算思维这三种思维方式。
【关键词】治理现代化 数据治国 计算思维 技术革命
【中图分类号】D035 【文献标识码】A
大数据是因信息技术特别是数据获取技术的革命性进步而形成的信息爆炸现象,因其规模巨大、类型复杂、产生速度快、价值密度低等特点,对现有信息技术构成巨大挑战。运用新理念、新技术、新方法对大数据进行全生命周期的创新管理和应用,是推动国民经济转型和社会管理创新的重要契机,也是提升国家综合竞争力的重要趋势。支撑这场大数据革命的底层力量,不仅是技术革命,更是涉及领导意识、组织文化和行为方式的思维革命。在国家治理层面,尤其需要形成“数据治国”的理念,掌握用数据思考和解决社会问题的新方法,最重要的是树立三种思维方式。
数据思维
数据在经济社会运行中的地位从未像今天这样重要。之所以要重视大数据,是因为它是一种更好的工具,是信息时代堪比人、财、物要素的资源,是对未来具有战略意义的资产。但实际上,大数据的价值并不止于此,它正在“成为这个世界上最重要的土壤和基础”(涂子沛语)①,成为一切管理和决策的依据。与之相应的,大数据治理首先要树立的是数据思维。
量化思维:先有数,再做事。“一切皆可量化。”这是斯蒂芬·贝克(Stephen Beck)在《当我们变成一堆数字》一书中提出的观点。②在这本汇聚数字报告和分析的力作里,斯蒂芬·贝克展示了我们正在进入一个鲜活的量化世界:每一天,我们的身后都拖着一条由个人信息组成的长长的“尾巴”,我们点击网页、切换电视频道、驾车穿过自动收费站、用信用卡购物、使用手机等行为——这些过去完全被忽略的信息——都通过各种方式被数据化地记录下来。
放眼宏观,我们看到物联网传感器数据、互联网用户生成(UGC)数据、业务系统运行数据、信息系统日志数据、科学仪器产生的数据……这些数据源源不断地产生,把物理世界的万事万物一一映射成一个数据世界,从而形成大数据时代的全貌。
数据的延伸,就是管理的延伸。“不会量化就无法管理”③的思想已成为管理学界的共识。借助“一切皆可量化”的技术背景与思维方式,政府可以获得更多基于管理和服务对象的信息,做到更加精准的洞察和预测,从而大大丰富治理的手段和方式。
美国政府已经在着手进行追踪恐怖分子的大数据挖掘计划。他们认为,如果恐怖分子要计划一次袭击活动,必定会在各种角落留下某种痕迹,通过对这些“数据足迹”进行挖掘,就能发现和追踪恐怖分子。这些做法,对于我国边疆地区维稳和预防暴力事件都是一种有益的启示。
纽约市为了恢复哈德森河的生态,在河的沿岸都安装了传感器,传感器把河水的盐度、浊度、叶绿素、颗粒物粒径以及河面风向等数据收集起来,实时地传递到后台。在计算中心,各种数据汇成了一条虚拟的哈德森河,流水何时被污染,化学、物理、生物成分发生了什么变化,一看便知。④接下来,数据科学家便可以利用这些信息建立一个哈德森河的环境模型,评估不同的治理方案和人类干预对哈德森环境的多种影响,以保证在实际治理时的效率和效果。
很多国家和地区,包括中国的一些地区,正在给数以千万计的家庭安装智能电表。这些电表每隔几秒钟或几分钟就读取一次用电数据,电力公司据此每个月向每户家庭提供一份个性化报告,以鼓励节约用电。在美国,智能电表工程预计每年能为全国消费用电节省5亿美元。大数据成为政府节能减排的千里眼、万只手,并且做到了深入每一户家庭、量身定制解决方案,这在入户抄电表的传统工作方式下根本是无法想象的事情!
量化只是第一步。量化的目的是建设数据平台,涉及数据捕获、数据传输、数据存储、数据处理、数据分析、数据消亡等动态过程。要在国家和社会治理层面建立这样一个完整的数据生命周期,需要做大量的基础性工作,更要在政府部门普遍形成“先有数,再做事”的组织文化和行为风尚。
决策思维:让数据说话。随着信息技术的进步,硬件的重要性正在急速下降,数据的重要性正在不断提升。以前都是先有应用后有数据,现在是先有数据再说应用。数据具有独立存在的价值,软件是为数据服务的。在大数据时代,我们需要树立以数据为中心的新思维。具体到政府层面,应当尽快将已有的管理决策模式变为“数据驱动”新模式,在领导意识、组织文化和工作流程上经历一次从内而外的蜕变。
一般来说,决策可以由三种方式分别或混合地驱动:直觉、经验和逻辑。虽然有时直觉和经验在决策过程中是无可替代的,例如乔布斯对苹果产品需求的直觉把握,但经验和直觉往往容易产生偏差。比如,决策的出发点或许并不差,但由于缺乏民主基础和科学依据,其结果往往不能令民众满意;决策过程可能很粗放,完全是“一言堂”,根本不听取社会上方方面面的意见,结果在实施过程中,漏洞百出。
中国领导者的决策往往更倾向于依赖经验和直觉,有时候甚至仅迫于眼前的境遇与状况,缺乏依靠数字管理的习惯。在政府的会议室里,一件似乎经过了理智讨论的事情,可能是在没有什么实际标准的情况下做出的决定。这种现象并不少见。个别领导干部把决断误认为武断和盲断,由于决策失误给国家和人民造成损失,被群众戏称为“三拍”干部,即“事前拍脑袋决策、事中拍胸脯保证、出事后拍屁股走人”。
在过去,受数据获取以及分析的限制,依靠决策人的经验“拍脑袋”决策是不得已而为之。在大数据时代,各行各业都在学习如何利用数据进行预测、作出决策,政府领导者们如果不能与时俱进,做到凡事“心中有数”,很难想象如何做一个称职的“当家人”。此外,随着公共管理事务的日益复杂,仅凭个人感知,已经很难全面地了解所有正在发生的事情,并给出正确的判断。这就要求政府部门提高改革决策的科学性,把大数据技术与思维运用到管理与决策中,掌握决策依据、优化决策过程、跟踪决策实施;要求管理者改变“差不多先生”(胡适语)的作风⑤,养成“用数据来说话、用数据来管理、用数据来决策、用数据来创新”的思维习惯。
有志于引领组织实现大数据转型的管理者们,可以从两个最简单的技巧开始。首先,要养成问“数据怎么说”的习惯。大数据驱动下的管理,重要的不是“我们怎么想”,而应该是“我们知道什么”。遇到重大决策的时候,还要紧跟着这个问题进一步问:“这些数据从哪儿来的?”“这些数据能得出什么结论?”“我们对结果有多大信心?”决策者对于数据与客观证据的尊重是大数据发挥价值的重要保证。当管理层的思维发生了这样的变化,员工就能从中迅速接收到信息,得到重视数据的激励。其次,要允许数据做主。数据得出的结论,有的能够支持既有的经验,有些则可能与之相悖。当结论与经验不符时,数据说了算还是经验说了算?这将对数据在组织中的地位形成考验。如果决策者不愿意根据数据调整自己的经验,甚至有选择地“看到”那些和自己经验相一致的数据,那么无论搜集了多么海量的数据,无论引入了何种高深的算法,这些数据与算法都只是为了支持与粉饰决策者既有的决定,不能带来新的知识与价值。相反,如果员工用来自一线的大数据分析结果,让经验丰富的领导推翻了自己原先的直觉判断,放手让“大数据说话”,这将是改变组织决策文化的最大力量!
整合思维:打破信息孤岛。政府掌握着社会方方面面的大数据,人口、交通、卫生、社保、税收、城市规划……虽然大多数政府部门都建成了比较完备的信息化平台,但是各个部门间的数据没有进行高效的整合,大量部门的数据如一个个信息孤岛,给政府调度和公众办事带来了不便,也制约了数据活力的激发。
例如,购买一套住房,需要填报十几张表格,每张表格可能1/3以上的内容是重复的,这些都是政府拥有的基础数据,完全可以根据身份证号码自动生成。北漂小伙为了办一张护照,返乡6次,补5张证明,多跑3000公里。而只要实现了综合数据联网,这5张证明的相关信息(无犯罪证明、公司在职证明、公司营业执照、公司外派人员资格证明、本地身份证),完全可以由政府部门内部调取,而不必让老百姓为此急断肠、跑断腿。⑥
信息孤岛是行业信息化的阶段性产物,而要打破条块分割,实现不同政府部门、不同层级之间数据的集中共享也非一日之功。一方面,需进行纵向信息系统整合,在相同的上下级政府部门之间,利用多级网络和中心数据库,构建统一的信息平台。例如,流动人口在我国是一个较大的问题。谁在流动?能不能从传统的户籍系统里找出一些规律以利于更好地管理?比如,能不能把劳动力输出省安徽的户籍数据与输入省广东的户籍数据整合起来?这既需要自上而下的部署,也需要自下而上的实验。另一方面,还需进行水平的电子政务信息系统整合,实现跨部门的政府信息资源共享和政务协同。例如,在社保(市民)卡办理的时候,以共享信息的方式使用二代身份证照片,可减少市民照相和出行成本;企业报备办理港澳商务通行证,通过共享国税地税相关信息,可以免去到市国地税局开设纳税额度证明步骤;税务质检登记复用工商信息,可以减少办事人员等待时间等。
数据之网纵横交错,才能激发活力。我国财政部门以互联网门户网站建设和财政专网系统建设为抓手,全面打造财政政务公开的“阳光平台”,形成纵向联通国家、省、市、县财政部门、横向连接同级人民银行国库、代理银行、国地税部门以及所有预算单位的横纵结合的网络系统。这些举措不断塑造着“财—金—企—社”信息资源网络化的雏形。
要彻底打破信息孤岛,还需要从内部管理观念和行政体制上着手。虽然说“信息孤岛”形成的表面原因是信息存储格式不一致的问题,但目前更深层次的原因其实是管理上的孤岛现象。观念和态度不变,即使手握利器,行政效率和服务质量也难提高。谁都知道“九龙治水”弊端多,即使现在大数据有办法让“九龙”成天“坐在一起”,但如果互相谁也不理谁,水还是治不好。
互联网思维
凯文·凯利指出,云计算时代的最大文化动向就是永远在线。⑦人与人、人与设备、设备与设备时时刻刻的连接,将以7×24小时的方式源源不断地产生数据。特别是web2.0之后的用户生成内容(UGC),包括社交网络(SN),是大数据形成的重要原因之一。因此,要做好大数据治理,还必须深入理解互联网思维。
关联思维:万物皆相关。在气象经济学界流行这样一条“德尔菲气象定律”,即气象投入与产出比为1:98,也就是说,在气象信息方面每投入1元,就可以得到98元的经济回报。一个典型的例子是,气温每降低1℃,北京市燃气供暖系统日消耗天然气将增加约200万立方米。如果提高气象预报的精度,实时对供暖系统进行合理调度,无疑将有效降低能源消耗,节省很大一笔经费开支。
这就是大数据的价值所在。通过挖掘海量数据,呈现一个充满关联的世界。诚如舍恩伯格所预言的那样:“将世界看作信息,看作可以理解的数据的海洋,为我们提供了一个从未有过的审视现实的视角。它是一种可以渗透到所有生活领域的世界观。”⑧
在商业案例中,你可能听说过啤酒与尿布、搜索词与流感趋势、女儿怀孕与广告传单的故事;在国家与社会治理中,也有很多运用数据相关性的成功案例。例如,纽约市警方开发了一款电子数据地图——CompStat,通过分析案件发生历史与发薪日、体育赛事、天气变化、假日等变量的相关性,预测最可能发生罪案的“热点”地区,并预先在这些地区部署警力。应用这套系统后的次年,该市犯罪率就出现了明显的下降,凶杀案发生数量创下了50年来最低。⑨
中国海关的“电子口岸”整合了工商、税务、海关、外贸、外汇、银行、公安、交通、铁路、民航、国检等十几家部门的数据。数据之间实时的联网分析,使“电子口岸”在加快报关速度、高效打击不法分子的同时,更成为中国经济的“气象预报台”,能够为国家宏观经济调控提供非常精细、全面的决策支持。
大数据之所以能发掘规律、作出预测,靠的是对相关关系的把握。我们常说“清明时节雨纷纷”,这个结论并不是逻辑推导出来的,而是人们通过多年观察,发现以往每年这几天总是下雨比较多,于是总结出了这样一个朴素的规律。同样的道理,计算机可以在海量的数据上运用数据挖掘等办法,自动地发现一些相关性,然后通过相关关系来预测事情发生的可能性。例如,从公交车辆运行的点数据推断一个路段发生拥堵的可能性,从纳税人的异常数据特征发现偷税漏税的可能性,从人们上网检索的关键词推断流感爆发的可能性,等等。
尽管因果关系是最深刻的一类联系,但是我们很多时候并不能获得。这种情况下,我们是无所作为呢,还是也可以有所作为?答案是明显的,只要我们知道一些相关关系,我们也可以进行预测。相关关系也许不能准确地告知我们某件事情为何会发生,但是它会提醒我们这件事情正在发生。在许多情况下,这种提醒的帮助已经足够大了。如果电子医疗记录显示橙汁和阿司匹林的特定组合可以治疗癌症,那么找出具体的致病原因就没有这种治疗方法本身来得重要。同样,只要我们知道什么时候是买机票的最佳时机,就算不知道机票价格疯狂变动的原因也无所谓了。因此,我们常常说在大数据时代,“是什么”比“为什么”更重要,相关关系比因果关系更重要。
去中心思维:走向网状社会。互联网时代最鲜明的特征是去中心化、平等化。因为互联网在本质上是反垄断的:开源软件社区的发展打破了少数大企业对技术的垄断,信息公开和开放数据打破了信息垄断,云计算等租赁业务的普及打破了资源垄断。
尤其在传播领域,我们可以非常清楚地看到这样一个去中心化的趋势。在报刊、广播、电视流行的传统媒体时期,人们只能听到中心的一个声音。后来,博客的诞生使得每个人都可以发表自己的想法。较之于传统媒体,这是个巨大的飞跃。但是个人的想法能让多少人听到,却依然取决于门户网站的编辑(即自己发表的博客是否被精选)。随着微博的兴起,所有人可以在一个统一的公共讨论空间讨论,更重要的是这个讨论空间,不再依靠一个中心,而是靠着兴趣、关系的链条自动生成、壮大,编辑的力量被前所未有地削弱了。
数据的生产和流动也遵循这样一个去中心化的趋势。涂子沛在《大数据》一书中指出⑩,在大数据时代,基于层级的社会控制手段将不再适用,基于流程的管理方法也有很大局限性。这是因为,在大数据时代,信息和数据是最重要的资源,一旦信息自由、数据开放,就意味着信息和每一个公民之间都是等距的,而且中间没有层级的过滤。数据的开放和流动,就代表着知识的开放和流动、代表着权力的开放和流动,这种开放和流动是多中心的、水平的。在这个时代,社会的主体结构将从分层转向“结网”,在网状传播力量的不断冲击下,个人的主体价值将得到前所未有地张扬,集中在政府的权力将开始分散,权力的最终流向是社会、是大众、是一个个独立的公民个体。大数据时代正在呼唤下一波社会化的浪潮:一个更开放的社会,一个权力更分散的社会,一个网状的大社会。
这会形成一种什么样的国家和社会治理图景?一个可以预见的前景是,政府的组织形态必将越来越开放,从条块分割、封闭的架构向开放、协同、合作的方向迈进。传统的决策过程是线性的、自上而下的,而伴随互联网和大数据浪潮而来的,将是一个非线性的、去中心化的、自下而上的、发现群体智慧的决策模式。
美国一位程序员发明了一款应用软件——SeeClickFix,居民可以通过手机拍照,向该软件举报乱涂乱画、交通灯损坏或者排水管堵塞事件,这些投诉被自动记录在案,并被发送到公共事业部门的卡车仪表盘上,相关问题也得到了很快的解决。⑪SeeClickFix自2008年3月研发以来,目前已在美国上千个城市和社区中使用,其中既有旧金山、华盛顿、达拉斯等大城市,也包括麻州西部和康州的许多小镇。
SeeClickFix是政府2.0理念的典型代表。在我国“社区网格化”管理系统实践中,类似系统也得到了普遍应用。“政府2.0”的实质,就是平台的政府、服务导向的政府、开放的政府,从以政府为主体的管治转向以协同共治、公共服务为导向的公共价值塑造。通过这种开放的平台,公众能够参与政府提供公共服务产品的全过程,包括公共服务产品的设计、生产、供给等各个环节;而政府也能打开更为深入和广泛了解民情民意的“政策窗口”,疏通促进社会和谐的民意渠道,找到不断优化公共决策的新机遇。
人本思维:政务人性化。互联网思维的核心在于以用户需求为主导,将用户思考和用户体验做到极致是关键所在。政府的核心职能就是为人民服务,以人为本是贯彻落实科学发展观的核心要求。在这个层面上,我们的执政理念与互联网精神是非常契合的。
以人为本的前提是全面了解与服务对象有关的情况与需求,只有建立在这种数据基础上的判断,才能保证政府落地的政策能实实在在地使每一个公民受益。如果搞“长官意志”,不能很好地把握民情民意,这种服务就会陷入想当然的境地。
在大数据的辅助下,政府一方面能够实时、全面感知和预测公众所需的各类服务和信息,及时发现需求热点,为用户提供更加智能化的办事、便民服务;另一方面,对公民需求的多维度多层次细分,把从面上的需求判断变为对需求细节的感知,使政府服务提供更精准、更个性化。人本思维的树立,有助于使政府改变传统的“指令导向”的公共管理模式和“供给导向”的公共服务模式,开启“需求导向”的公共管理与服务新模式。⑫
北京市公交部门于2013年9月推出“定制公交”平台。市民可在该平台上提出自己的出行需求。公交集团则根据乘客提出的出行需求和客流情况,设计商务班车线路,然后在定制公交平台上招募乘客、预订座位、在线支付。根据约定的时间、地点、方向开行商务班车,保证一人一座,每日出行费用也将远远低于自驾车和乘坐出租车。
大数据的创新运用和实时分析,还被认为能够推动失业、饥饿、疾病爆发等社会问题的解决,对于发展中国家的发展而言尤其具有特殊意义。近些年全球粮食、能源和金融危机的经验告诉人们,尽管当今世界信息技术非常发达,但决策者得到有用信息并及时采取行动以保护弱势人群的速度,却总是滞后于危机的出现。为了改变这种状况,2009年,联合国启动“全球脉动”(Global Pulse)计划⑬,旨在为各国提供实时数据分析,以便更准确地了解人类福祉状况,降低全球性危机对人类生活的影响。与传统的统计仅能有效跟踪中长期发展趋势相比,“全球脉动”旨在发现新的数字化指标,实时了解情况,并及时为决策者提供反馈。
联合国秘书长潘基文说:“我们事实上是在一个实时信息的海洋中游泳,手机和数据服务的爆炸式增长意味着世界各地的人们在为全球知识库作出海量的信息贡献。他们还通过交流、购买、出售和其他日常生活活动以免费的方式提供着信息。私营部门正在研究这些新数据以便实时了解顾客。联合国也必须为自己的服务对象——全世界那些失去工作、生病、难以养活自己和家人的人们做同样的事情。”⑭
在2014年“两会”上,“大数据”一词首次被写入《政府工作报告》。不少代表委员举起“数据治国”的大旗:小米总裁雷军呼吁将大数据上升为国家战略,百度总裁李彦宏提议用大数据解决教育资源不平等问题,还有多位代表委员提出成立国家大数据战略委员会,用大数据破解“十面霾伏”、“舌尖上的安全”、“人在证途”、反恐、房价调控等民生难题。诚如涂子沛在《数据之巅》中所言:“人类的地平线上出现了一些新方法来解决一些老问题,这些方法用的不是钢筋和水泥,而是软件和数据。”⑮
计算思维
“大数据”现象是由于信息技术的进步而产生的,大数据时代就是大计算时代,无处不在的计算标志着一个计算型社会的兴起。因此可以说,没有计算技术的发展,就没有大数据。但是,常常听到有人说“技术不重要”,这种轻视技术的思想对于大数据应用的良性发展只会带来伤害。大数据应用就是一种基于计算机信息技术的解决问题的办法,因此也需要计算思维。
计算思维是运用计算机科学的基础概念进行问题求解、系统设计以及人类行为理解等涵盖计算机科学之广度的一系列思维活动。计算思维,简单地说是指人们利用计算机解决问题的普遍方法。计算思维的提出者周以真(Jeannette M. Wing)教授认为,计算思维同算术能力、语言能力等一样,是每一个现代人需要具备的基本能力。⑯从计算机解决问题的角度分析,我们认为以下两个方面最为重要:
算法思维:把工作交给机器。大数据应用是一个极为复杂的系统,大数据系统包括数据采集、数据清洗、数据存储、数据传输、数据管理、数据分析、数据挖掘、数据展示等许多环节,其中任何一项工作都是人力所难以胜任的,一定要借助计算机的力量,通过事先编写好的程度自动完成。
我们在日常工作中也常常会做些调查研究、数据统计分析等,都是手工完成的,最多采用一些数据处理的工具,例如excel等。在大数据时代,我们面临的是TB级、PB级的数据,这远超出了人力所能处理的范畴。
算法思维的关键是要回答以下几个问题:我们面对的问题是否可计算?计算复杂度有多大?是否存在在合理的时间和资源条件下可完成计算任务的有效的计算算法?这些问题有些专业,并非管理人员能回答,具体答案可以交给技术人员去完成,但是管理人员在决策时需要考虑到这些问题。
基于大数据的求解问题的算法不能太复杂,需要比较简单才可行。举个智能翻译的例子。传统翻译软件设定了很多语法规则,用这些僵化的规则拆解每个句子,再逐字翻译生成不同的语句。但这往往使翻译出来的语句生硬拗口,甚至错误率很高。谷歌的翻译软件却不是这么做,他们从大量已存的翻译文章中对比,找出最合适的翻译的文字。事实证明虽然网上搜集来的翻译文章有不少是错误的,或者质量不高,但由于数据量极大,这些错误可以通过排序被过滤掉,这种方法大大提高了翻译的质量和准确性。也就是说,不精确的大数据用简单算法,比精确的小数据用复杂算法要有效得多!以大数据方式做翻译的另一个好处是,系统会随着数据的积累而不断改善。如果您看到某条译文不太合适,可以点击相关词组查看备选翻译结果。当您点击更好的备选译文时,Google翻译会记下您的反馈,并在日后继续改进。谷歌翻译目前能够支持71种语言的互译,2012年用户的使用次数达到2亿次。
用简单的算法,在大数据上能够创造出复杂的人工智能,使计算机代替人类完成动态监测、语音咨询、作业批改乃至医疗诊断、法律文书处理等专业任务。这种处理不仅是实时的、大批量的,更是科学的、精准的。
美国邮政(USPS)的计算机系统能够自动扫描邮件的相关数据(存放位置、派送路线、重量、体积等信息),通过与数据库中近4千亿条数据的比较,甄别出“邮资欺诈”的邮件。扫描一封邮件只需要50~100毫秒。一旦检测出了“异常”——比如包裹邮资不足或者邮票重复使用等情况,系统就会对信件实施实时拦截,再由分拣人员对其进行特殊处理。有趣的是,该项目竟然由此形成了“威慑效应”。自从2006年开始实施此计划起,“邮资欺诈”行为减少了很多。
把工作交给机器,让机器替代或辅助人工,不仅是科技的未来,更是政务大数据的未来。
平台思维:给工作搭一个舞台。“平台”指计算机硬件或软件的操作环境,泛指进行某项工作所需要的环境或条件,包括技术平台、业务平台、数据平台等。“平台”不是一天就建立起来的,需要巨大的建设投资和长期的运行维护成本。我们的一切工作都需要在这个平台上进行。平台一旦建成,中途也很难更换。因此,平台的规划、技术选择等就成为开展大数据应用的重要课题之一。
由于大数据应用种类非常繁多,特征各不相同,一种普遍被接受的观点是大数据平台应该是因应用而异的。例如,就数据管理而言,传统关系数据库管理系统(DBMS)秉承的“全能型”(one-size-fits-all)理念不再适用于纷繁复杂的现实应用:数据不同,负载不同,应用场景不同等,导致每一类典型应用都需要有相应的数据管理系统。
“平台”的可扩展性也是一个重要的问题。从组织IT架构体系上来看,必须考虑可扩展性的问题:随着使用人数的增多、业务量的增加,系统必须具备能够及时扩展IT系统的能力。解决这个问题通常有两种方式:纵向扩容(Scale up)和横向扩容(Scale out),两种扩容的方式分别从两个维度来解决数据管理压力。纵向扩容就是将数据库服务器的配置提高,如增加硬件资源配置,通过硬件速度提升来解决访问压力。横向扩容就是将应用的数据拆分,将原来集中存储的数据根据一定的规则分布到不同的物理数据库服务器上。纵向扩容模式实施成本较高,压力大到一定程度之后,硬件可能无法满足这类需求。如果能够通过叠加相对廉价设备的方式实现存储和计算能力的扩展,那么这将是长期可扩展的有效手段。这是横向扩容的优势。
举例来说,我国的群体性事件时有发生。政府为了加强对群体性事件的发现和处置能力,就需要有一个基于大数据的舆情分析平台,加强舆情研判能力,以捕捉最佳处置时机。这个平台需要自动收集各种社交网络上的信息并进行整合,监控社会舆情和公众情绪,并具有能对网民群体行为进行社会态势分析与预警的能力,将可能酿成重大舆情危机的不稳定苗头化解在萌芽状态。这个平台需要管理各种结构化和非结构化的数据,需要很强的横向扩展能力和实时数据分析能力。建设这个平台将成为政府一项投资巨大、挑战巨大的任务。
结束语
面对新一轮的大数据革命,由于技术的全球化和开放性,中国具有独特的“后发优势”,在很多方面甚至具备创新和超越的可能。
当然,在科技迅猛发展的今天,还有相当多的农民和城市底层居民,因为各种原因而成为信息时代的缺席者,无法在网络世界表达意见和诉求。例如,用驾驶员的智能手机收集交通拥堵、路面坑洼数据,这固然是一个以低成本收集信息的途径,但是,这样收集的信息是存在盲区的,一些贫穷社区、老年社区的道路很可能会因为报告较少而得不到及时的维护。在中国,数字鸿沟造成的差别正在成为继城乡差别、工农差别、脑体差别“三大差别”之后的“第四大差别”,其本身已不仅仅是一个技术问题,而正在成为一个社会问题。只有确保人们能够平等地享用现代通信和网络基础设施,拥有大体平等的教育机会,才能使这些问题得到解决。
党的十八届三中全会将“国家治理体系和治理能力的现代化”列为全面深化改革的总目标,大数据应当成为国家治理现代化的题中之义,在顶层设计和国家战略层面予以部署。大数据治理的内涵还很丰富,还有待我们进一步认识、进一步阐释,有关数据质量、数据隐私、数据安全、数据标准、数据溯源、数据开放、数据定价估价等也都是非常重要而现实的课题。但是变化正在发生,你我置身其中,数据治国的时代已经来临。
(中国人民大学中国调查与数据中心研究人员冯启娜对此文亦有贡献)
注释
涂子沛:《数据之巅:大数据革命的历史、现实与未来》,北京:中信出版社,2014年,第292、337页。
[美]斯蒂芬·贝克:《当我们变成一堆数字》,北京:中信出版社,2007年。
[美]安德鲁·麦卡菲(Andrew McAfee)、埃里克·布林约尔松(Erik Brynjolfsson):《大数据:一场管理革命》,《哈佛商业评论》,2012年10月。
洪黎明:《物联网:“智能城市”生长的沃土》,《福建日报》,2010年12月23日,第15版。
1919年,胡适写下了一篇著名的杂文《差不多先生传》,活灵活现地描绘出了中国人取道中庸、不肯认真、甘于糊涂、拒绝精准的庸碌形象,表达了对中国人“凡事差不多、凡事只讲大致如此”的习惯和作风的忧虑。
《北漂小伙返乡6次办护照 补5张证明多跑3000公里》,“焦点访谈”,央视网,2013年10月11日。
[美]凯文·凯利:《技术元素》,北京:电子工业出版社,2014年,第223页。
[英]维克托·迈尔-舍恩伯格(Viktor Mayer-Schönberger):《大数据时代》,杭州:浙江人民出版社,2013年,第53~55、73页。
涂子沛:《大数据:正在到来的数据革命》,桂林:广西师范大学出版社,2012年,第77~82、313页。
[美]安雅·卡缅涅茨(Anya Kamenetz):《技术公民占领政府:政府2.0时代的凯歌》(How an Army of Techies Is Taking on City Hall),高成长公司(Fast Company),2010年。
徐继华、冯启娜、陈贞汝:《智慧政府:大数据治国时代的来临》,北京:中信出版社,2014年,第33~34页。
UN Global Pulse, Big Data for Development: Challenges & Opportunities, May, 2012.
联合国:《联合国全球脉动:分析实时数据 增进人类福祉》,联合国新闻网,2011年11月8日。
Wing J M., Computational Thinking, Communications of the ACM, 2006.
张婷:《美国邮政探寻“大数据”生存之道》,新华网,2013年4月19日。
责 编/ 武 洁