关于大数据的若干思考
2014-12-21邬贺铨
邬贺铨
一、大数据的价值
关于大数据的定义有很多提法,维基百科给出的定义是:“大数据是指无法在容许的时间内用常规软件工具对其内容进行抓取、处理和管理的数据集合。大数据规模的标准是持续变化的,当前泛指单一数据集的大小在几十TB和数PB之间”。这是一个大众化的定义。这可能收到了大数据英文词“Big Data”中的“Big”的误导。
作者认为,大数据的价值不仅仅在于数据大,不是说数据量越大越好,数据大与价值大未必成正比。例如将一个人每分钟的身体数据记录下来,对了解该人的身体状况是有用的,但如果将他的每毫秒的身体数据都记录下来,数据量将较前者高6万倍,与按分钟记录的数据相比,其价值并不一定增加。另外,大数据的价值在于样本数的普遍性,如果统计一个人每分钟的身体状况数据与统计60个人每小时的身体状况数据相比,数据量是相等的,但后者在统计上更有意义。
其次,大数据往往是低价值密度,大数据的价值绝对值可能是大的,可是相对值是低的,大数据中多数数据可能是重复的或对我们关注的问题没有意义,忽略其中一些数据并不影响对其挖掘的结果。因此可以说大数据的价值挖掘是从沙里淘金和海里捞针。
值得关注的是,实际上对中小数据的挖掘同样值得重视。北京公交一卡通每天刷卡四千万次,地铁一千万人次,这在全世界都是最多的了,这些数据累计一年下来也不到TB,它的级别充其量就是中数据。但是它对优化北京公交线路的设置有足够的价值。微软的研究发现,Facebook 中90%的Hadoop任务数据集在100GB以下,Yahoo的任务数据集平均为12.5GB,它们都够不上大数据的规模。事实上小数据也值得重视,对未到TB级规模的数据的挖掘也有价值,因此,研究大数据不要被“Big”这个词误导。
大数据这个词现在过分突出“大”了,“大”仅仅是大数据的四个特征之一,它另外的三个特征是变化快、类型多、蕴含的价值高。
数据大并非大数据的主要挑战。大数据的量越大,处理难度越大,但仅仅是量的变化,只是需要更多的服务器,或者说需要更高速的服务器。大数据挖掘的难处在于其变化快、类型多,其价值不容易挖掘才显得其珍贵。
大数据挖掘的挑战之一是实时性,实时性的数据变化很快,而且不断地产生新的数据,源源不绝。对于静态的数据可以将数据带进程序来处理,对于动态数据则要将程序带进数据来处理。
大数据挖掘的另一挑战是结构多样性,特别是非结构化。大数据分结构性、半结构性和非结构性,文本数据是结构性的,可以用关系数据库来表示,图片、视频是非结构性数据。目前大量的数据文件是文本数据,但从数据量来看,非结构数据占总量90%以上。针对结构化数据的虚拟存储平台采用了动态分层技术,根据数据被调用的频率,自动将常用的数据搬到最高层。针对非结构化数据使用内容归档平台,把结构化和非结构化数据集成到一个单一的动态归档架构中,设计了一套软件和元数据建库规则,通过给数据加标签的方式,建立不同维度,从而具有模糊查询功能。对于数据结构能很好定义而且问题已知的数据,容易提出预测报告,对于问题未知的数据也可以用多维分析方法来处理,对于问题已知但结构可变的数据,需要用统计分析,对于问题未知且结构可变的数据,用常规的软件在容许的时间内就难分析了,需要用到大数据分析技术。
传统的数据平台在大数据分析中仍有使用价值,但传统数据平台是不够的。在传统的集中式存储基础上还要增加分布式存储,此外还有Map/Reduce功能(即映射与归类简化)、实时任务调度功能、分布式工作流管理功能等,以及机器学习和可视化功能等。大数据需要用到一些云计算的平台。另外,文本虽然是结构化,但计算机需要有语义能力才能代替人的理解,通过收集. 归类、组织所有有关的文本,解释词汇、编辑、通过上下文关联增进理解,对于非结构化的数据例如照片和视频,需要使用可视化分析工具和技术,从大量动态可能是模棱两可甚至是矛盾的数据中综合信息并导出可理解的内容,更需要有机器学习能力才能挖掘出其含义。
目前国内外都有很多大数据应用的成功例子,但基本上还是结构性数据,很少涉及到非结构化。2012年斯坦福大学与Google合作建立深度学习网络,对来自YouTube的上千万幅视频帧自主学习,用10天学会了识别猫的脸孔,然后从2万张未见过的照片中找猫,准确率达到15.8%。可见非结构性数据的挖掘技术到实用还有相当距离。虽然非结构性数据的量占大数据的90%以上,但对结构性数据的挖掘是大数据应用的切入点。从结构化数据入手开展数据挖掘仍然有重要的意义。
二、数据的可信性
我们可以用多种类型的传感器检测环境污染,虽然各类传感器都是有用的,但不是同等重要的,需要依据检测不同的指标来对不同类型的传感器结果加权处理。例如太湖蓝藻的监测使用了溶解氧、水、电导率、氨氮、硝酸盐、PH值六种传感器,但它们与蓝藻爆发强度的相关程度不同,溶解氧、水温和电导率与蓝藻爆发的相关性在0.4以上,而氨氮、硝酸盐和PH值与蓝藻爆发的相关性低于0.2,因此对不同的传感器的数据需要不同的加权。另外,每类数据的重要性会随关注点不同而改变。例如一个人的身体状况可以用多种指标来衡量,显然所关心的疾病不同,与不同指标对应的数据其重要性也不同。另外,同一类型的数据也因为时空不同而价值不同,同一类型的传感器在不同位置收集到的数据其重要性也不同。以城市交通监控摄像头为例,在交叉路口的摄像头其作用就比非路口的重要。同一个传感器在不同时间段收集的数据其作用也不同。仍以交通监控摄像头为例,在没有车辆和行人的深夜,其收集的数据几乎没有价值。同一类型的数据其价值也因收藏时间的长短而异。一般而言,时间间隔越长,其价值下降。
因此存储的数据需要压缩以节省成本。IDC公司发布“数字世界2020”,指出在2020年视频监控数据将占到被标注和分析的数据42%。一个二线城市通常有上百条街道,每街道按50个路口计算,若每个路口装16路摄像头,就共有8万个摄像头,如采用8Mbps摄像头,而且存三个月,就需要72万个2T的硬盘。事实上没有感兴趣信息的摄像数据没有保留价值,在存储前甚至在拍摄时就要有所舍弃。或者对每一帧感兴趣的区域增加分辨率,而其他区域降低比特率。对有用的视频信息也需要压缩,对于存储时间较长而且很少调用的视频数据可以压缩以降低清晰度,节约存储资源。
另外,数据需要过滤,传感器收集的数据并非都是可信的,特别是历史上该传感器的数据与在同一环境下应用的同类其他传感器报出的数据差异很大时,该数据就应弃用,否则把它放到大数据里面,会导致数据的信息失真。既然数据会有重复而且并非都是全部有用的,因此需要进行数据过滤,这对简化存储和提高可信性都是有意义的。数据需要过滤,引入必要的认证和信誉管理。
我们需要应用异构多元的数据来提高可信性。不是所有数据都是可信的,要通过多元,特别是异构的数据来保证数据的可信。收集多元异构的数据有利于对数据的理解,例如通过城市交通监控系统,可以掌握交通流量,可以知道哪一段马路拥堵,但不知道是什么原因,如果把这组数据和政府发布的数据以及网民上载的数据收集起来,你可能知道这个地方发生车祸了,这个地方临时交通管制了,就可以知道交通拥堵的原因。通过历史数据的对比可以推断数据的可信性,通过用数学模型来检验,验证数据的可信性。总之收集数据尽可能异构多元。
关于异源数据的协同处理,以无锡监控太湖污染为例,除了使用传感器外,还利用环保卫星的遥感监测数据,还收集人工巡湖获得的数据,把多种异源的数据综合,调出历史的数据来对比,基于数字湖泊模型进行数据挖掘,后台可能还要调用3S系统、云计算、数据中心等。很多情况下的大数据涉及网络数据、物理数据(例如物联网收集的数据)和社会数据(或称为人本数据,例如政府掌握的法人与居民的数据),要把三元数据结合来分析。通过对异源数据的协同处理可以提升数据挖掘结果的可信性。
网络数据的可信性问题需要特别注意。网络数据并不都是可信的,特别是微博传播,不实的消息散布很快,而微信圈子里的消息是不容易监控的,因此消息的准确性有问题。过去往往认为“有图有真相”,事实上图片可以移花接木、张冠李戴、时空错乱,或者照片是对的,可是文字解释是捏造的,这样的事情已屡见不鲜。最近最高人民法院宣布,网上谣言转发500次就是传谣,一些网站不去甄别内容是否真实,而是对所有帖子转发499次就封顶,就屏蔽,就不让转了,这样得出来的结果不能反映出哪些是最热的帖子,从舆情收集效果看,人为的截尾导致失去了真实性。
另外,搜索引擎上某些词汇的出现频度也会受到一些因素的影响,即基于搜索词频的判断不完全是独立随机的。当某地发生流感,搜索引擎上面的与流感有关的搜索关键词频率突然提高,谷歌将这一现象与历年来美国疾控中心(CDC)公布的流感发生状况对比,得出一定的规律。
2008年H7N1流感爆发时谷歌的流感指数给出的预测比中国疾控中心(CDC)早一周发布,与CDC数据相似度0.9。美国纽约州政府在2013年初发布了“公共健康紧急状态”的通告,大众媒体的广泛报道,引起网民的关注和讨论,随后 1 月流感流行状况十分严峻,没有患流感的人在网上议论流感问题影响了谷歌对流感用户搜索行为的判断,导致谷歌流感指数估值出现了假阳性,远高于 CDC 的统计数值。另外,基于微博的判断不能代表所有年龄段的人群。在谷歌流感指数启发之下,纽约罗切斯特大学利用推特的微博数据进行了尝试,可以提前 8 天预报流感对个体的侵袭状况,而且准确率高达90%。不过推特的使用者大部分是年轻人,而季节性流感的袭扰对象多为抵抗力较弱的老年人和儿童,因此基于推特的微博判断流感有片面性。此外,重要的大数据决策是需要人介入的。比如基于医疗专家系统的计算机可以给人看病,但主要还是辅助诊断,最后还得靠医生来决策。
大数据的挖掘可分为准备阶段、发现阶段和解释阶段。在准备阶段要进行合并压缩、清洗过滤和格式转换。在发现阶段寻找规律以建立模型,将用到统计分析、知识发现和可视化技术。在解释阶段通过关联规则、分类、聚类、序列和路径等操作,揭示数据间的内在联系,利用历史数据来推导和预测,挖掘出数据的前后时间顺序关系,聚焦到感兴趣的内容上。Map/Reduce技术可用于数据清洗、去重、过滤和合并。Map把海量数据分割为若干部分,加入标签然后分给多台处理器并行处理,Reduce归并某一个标签的所有值,合并、汇总和过滤并进行计算,输出计算结果。Map/Reduce一方面是节约存储空间,另一方面是为后续的数据的挖掘提供方便。数据分析需要有合适的模型,数据的表示需要用到可视化和增强现实,数据的发布也需要预见到对社会的影响。
三、数据的可视化
大数据是复杂的,但其结果应该是简洁明了的,通常需要将大数据的结果可视化。从可视化的效果可有助于判断大数据挖掘的可信性。数据的可视化将用到信息融合技术,数据的可视化可能用到虚拟现实的结合或增强现实技术。比如拿照相机拍了不同位置的街景,即孤立的一幅一幅照片,通过信息融合技术可拼成一个三维的图像甚至是视频,合成的效果是一个全景的还原。例如一个城市有很多交通监视用摄像头,每一个摄像头都可以连接一个电视屏,这些电视屏集中到城市的交通监控中心,实际上往往是多个摄像头分时共享同一个显示屏,例如每十秒显示一条马路的摄像头,即便这样监控人员看起来还是很困难。如果把一条马路的摄像头拍下的信息组合成一个视频,这样看起来就方便。如果把整个城市的所有马路的交通监控视频组合成一张三维动态的图,可以很直观发现哪个时间点哪个位置交通流量最高,这就是利用信息融合技术实现可视化和虚拟化。美国统计参加NBA的球队的比赛情况,发现投篮概率与投篮命中率与投篮的位置有一定规律性,用这种方式可以训练球队。NBA从80年代开始将球员在赛场上的表现数据化,经过30多年的积累已达到可辨别每一个球员在场上的弱点,方便教练进行针对性战术安排。目前30家NBA球队俱乐部已有半数聘请了数据分析师,他们的平均胜率达到59.3%,而没有进行数据分析的球队仅有平均40.7%的胜率。
四、大数据的挑战
中国人口居世界首位,但2010年中国新存储的数据为250PB,仅为日本的60%和北美的7%。我国一些部门和机构拥有大量数据但以邻为壑,宁愿自己不用也不愿提供与有关部门共享,导致信息不完整或重复投资。2012年中国的数据存储量达到364EB,其中55%(200EB)的数据需要一定程度的保护,然而目前只有不到一半(44%,即96EB)的数据得到保护。我国在自主可控的大数据分析技术与产品方面与发达国家相比有不少差距,国内企业在数据库、数据仓库、商业智能分析软件等领域基础薄弱,尤其是大数据方面已经远远落后于国外先进企业。另外,需要重视人才问题。500年前达芬奇可以同时是画家、音乐家、工程师、科学家,100年前的医生可以了解医学领域的所有分支。今天一名初级医生必须同时了解大约一万种疾病和综合症、3000种药物和1100种检验方法。估计一个专业的医生也需要每天学习21小时才能跟得上学科的发展。Gartner咨询公司预测大数据将为全球带来440万个IT新岗位和上千万个非IT岗位。麦肯锡公司预测美国到2018年深度数据分析人才缺口14~19万人,还需既熟悉需求也熟悉技术及应用的管理者150万。中国能理解与应用大数据的创新人才更是稀缺资源。
大数据的利用首先要求政府数据原则上该公开的必须公开。大数据的挖掘与利用需要有法可依。我国需要尽快制定“信息保护法”与“信息公开法”,既要鼓励面向群体而且服务于社会的数据挖掘,又要防止针对个体侵犯隐私的行为,提倡数据共享又要防止数据被滥用。重要的数据存储和应用不能过分依赖大数据分析技术与平台,尤其是对我们目前还无法掌控的国外信息产品,需要重视信息泄密的风险。
信息化要从重视硬件到重视软件,再到重视数据的利用,不仅大数据,中小数据的挖掘也有重要意义。需要制定国家大数据发展战略。大数据是一个应用驱动性很强的服务,其标准和产业格局尚未形成,这是我国跨越发展的机会,但切忌一哄而起在目的不明情况下到处建设大数据中心,需要从战略上重视大数据的开发利用,将它作为转变经济增长方式的有效抓手。
结束语
大数据的挖掘深化了信息技术的应用,催生新的应用和新业态出现,大数据提升了管理和决策的智能化水平。需要重视数据的挖掘利用,不仅仅是大数据,中小数据的挖掘也有意义;不仅是非结构数据,即便对相对简单的结构性数据的挖掘也能有大的价值。对数据要进行可信性分析,重视数据的安全域隐私保护。大数据挖掘技术是大数据时代竞争的焦点,自主掌握大数据开发技术是对我国创新能力的考验。推动大数据技术应用和产业发展,我国需要尽快明确国家大数据战略,做好顶层设计,把握好大数据的关键,促使大数据产业赢得健康发展。
(本文是邬贺铨院士在国家信息化论坛上的主题演讲内容,根据现场录音整理)