还好有了大数据
2016-05-27魏忠
魏忠
查询百度,历史学天才称号的中文检索只有两个人,一个是张荫麟,一个是刚刚去世的18岁“历史学天才”林嘉文。相比张荫麟18岁写出一篇引起轰动的老子历史的文章,林嘉文的天才根本不值一提,然而可惜的是张荫麟死于病魔,林嘉文死于捧杀。
并不是所有的行当都不出天才。骆宾王是天才的诗人,苏轼是天才的文学家,刘晏是天才的诗人(后成为唐朝财政学家和宰相),杨丽萍是天才的舞蹈家,高斯是天才的数学家,杨振宁是天才的物理学家。比起这些依靠天才和勤奋成为大师的人,文学家、历史学家、慈善家、社会学家,似乎更多的要和大器晚成画上等号。
原先我们争论天才和后天努力这样的问题,主要依靠教育理念,但有时鸡同鸭讲,永远争论个没完。今天不一样了,有两种工具可以统一大家争论的语言,一种叫大数据,一种叫数据科学。
2015年,中国科学院院士增选,中国科技大学有5位校友增选为院士,同时还有1位增选为美国科学院院士——庄小威,同年32岁的尹希成为哈佛大学史上最年轻的教授。这7位杰出的科学家被称为大师应该毫无疑问,其中4位是科大少年班毕业的。
科大少年班的数据,还不是大数据,我们如果考虑到以下数据,就基本接近大数据了。比如,考虑到少年班不成才的比例、出家的比例、精神病的比例、父母提前退休为少年班孩子照料生活的比例。如果我们将30多年围绕少年班的各种数据收集起来,就会展现给大家一个相当壮观的景观。围绕这些数据(基本上可以称为大数据了),我们很多数据科学家就可以进行各种各样的计算,有各种各样的假设,通过这些假设最后得出的结论,更加有说服力地证明或者推翻具有充分教育经验的人的关于少年班的常识:少年班成材率远远高于非少年班;少年班孩子的失败率也远远高于非少年班;少年班孩子身上的社会成本惊人;适合和大脑特征相关的特长领域的专业类型:物理、数学、诗歌、音乐、美术等;适合依靠后天经验、社会阅历和家族传承的领域:历史、政治、教育。
常识是会出错的,常识也会引发不同背景的人的激烈争论。还好,有了大数据,在数据不能造假的同时,给了大家一个共同的环境,让数据科学家可以根据这些大数据去编程、计算、展示、用数据讲故事,给出大家个性的结论。大数据不能给你少年班到底好不好这样绝对的结论,但每个人可以更加个性化地选择一个角度,去证实自己的结论。
也许10年后,计算机系统会给出这样的建议:“您的孩子这样学历史学,成为大师的可能性为千万分之一,成为教授的可能性为20%,患精神疾病的可能性为40%,自杀和早逝的可能性为18%”。