重 任 在 肩
2016-01-17王拥军
王拥军
又在整理一年一度的年终盘点,时间真快,刚刚习惯了2016,2017就马上要到了。2016年,应该是被历史记住的一个时刻,英国脱欧、特朗普当选等,让多少人守着电脑操碎了心。有趣的是在全球化遭到新一轮质疑的今天,互联网构建的世界大家庭在很多事情上的关注点却惊人的一致。
用个流行词——讲真,下半年来的几件国际大事也确实让我有些茫然。习惯了按照一个逻辑体系去思考,去判断,却突然冒出来一个完全不按逻辑出牌的新套路,结果还就颠覆了固有的逻辑线,或者说是基本面判断,可能真的是到了一个变革的转折点吧。
其实,自从进入了互联网时代,人类的生活圈和生活方式就在不知不觉中发生着变化,无论你喜欢与否,你都要被裹挟着进入这个新的秩序,而互联网社会的一大“成就”就是生产了庞大的数据。
数据是一个很有意思的概念,冰冷但却充满温情,从结绳记事到数字时代,从小数据到大数据,数字符号理性地“干预”着人类的发展。2012年出版的《大数据》一书的作者认为大数据开启了一个重大的时代转型:社会因此放弃了寻找因果关系的传统偏好,开始挖掘相关关系的好处(图1)。事情似乎变得简单,人们只要知道是什么,而无须再追问为什么。人们的决策也更多地基于数据与分析,而非基于经验和直觉。
但是,在美国大选这件事上,大数据栽了。在数据得出的乐观判断引导下,希拉里阵营早早地连庆祝胜选的烟花都买好了,却被特朗普翻盘,到手的鸭子竟然就眼睁睁地飞了。
于是冷静下来,人们开始反思这次大数据集体“失算”的原因,而大数据的欺骗性、片面性也再次被关注。其实,随着技术的发展,数据的获得变得越来越容易,但是面对海量的数据,如何甄别有效数据与垃圾数据,如何解读有效数据则显得尤为重要。解读数据就要尊重数据,而研究、分析、解读数据的模型则需要对这个世界更加宏观地理解与把握,否则就可能被数据所欺骗。
图1 《大数据》一书
特朗普大数据事件的一个重要原因是网上的数据和选民真实想法之间有差别,很多人觉得内心接受特朗普的接地气和真实,而表面不能表达自己接受与道德观违背的事和人(图2)。因此,导致网上的数据反映的是表面的人意,而不是内心的人意。这应验了数据处理中的一句老话:“烂进废出(garbage in,garbage out)”(图3)。意思是,原始数据有问题,再好的数据处理也不会有好的结果。
2015年11月25日中国脑血管病临床研究峰会在中国科技会堂召开,会议为中国脑血管病的精准医学、大数据和人工智能的研究勾勒出清晰的路线图。会上启动了国家脑血管病研究大数据平台(图4),这个平台包括大数据采集和来源、存储、分析、挖掘以及应用5个子平台构成。6个不同来源的大数据资源囊括了超过500万例的脑血管病研究对象的资料(图5),这个庞大的数据库将为我国“十三五”期间脑血管病的临床和基础研究提供强大的数据保证。
重任在身的大数据资源一定不能出现大量垃圾数据,数据是研究的灵魂,也是正确结论的起点。希望脑血管病大数据研究的高起点引导研究者迈向光明的未来。