cs50课:数据可视化与算法
2015-05-30郭娇
郭娇
校长强调了两点:创新实验室(i-lab)和慕课平台(edx)。在介绍edx时,按照传统,校长不忘“黑”一下竞争对手耶鲁。她说在edx上的cs50(一门面向新生的计算机导论课程)如此受欢迎,连耶鲁都决定把它列为大一课程。耶鲁改变它对现代技术敬而远之的态度,还直接引进哈佛的课程,这在两校相爱相杀的200多年历史上是前所未有的。在这背后的推动力量就是cs50、i-lab、edx所代表的颠覆高等教育的技术革命。它不仅体现在校园里新建的创新实验室、课程平台、创业空间等,更影响到课程设计、专业设置等核心元素。提到的这些新生事物是否昙花一现?我们暂无结论。相比之下,课程、专业等方面发生的变化更值得关注。这种变化传递出来的关键信息究竟是什么?对选择课程、专业及未来的职业方向有何启示?
集体刷夜“黑客马拉松”
这门让哈佛与耶鲁共同热爱的cs50到底有何魅力?
2007年以前,选修这门课的学生从来没突破过200人。即使脸书创始人扎克伯格回母校捧场,上座率也稀稀落落。但是从2007至2014年间,这门课的选修人数一路攀升,超过了800人,成为了哈佛最受欢迎的本科课程。从课程内容来看,它覆盖了算法、程序设计、数据存储等计算机科学的入门知识。据统计,选修这门课的78%学生都没有计算机科学的背景知识,所以是一门计算机入门课程。从授课方式来看,教师David Malan年轻有活力,讲解生动,会结合社会热点,还有一支来自不同学科的“助教军团”。从课程设计来看,cs50强调学生的实际动手编程能力与团队合作能力。在期末考试之前会集体刷夜“黑客马拉松(cs50 Hackathon)”,从晚7点到早7点,学生们聚在一起,吃着披萨喝着可乐做项目,助教们也全程参与提供协助。最后一节课是开放日(cs50 fair),学生们展示做的手机APP、游戏、网站等。开放日就像哈佛新生的共同节日,他们邀请亲朋,还有其他教授和企业代表出席。在哈佛新生里,不学cs50就成了少数派,尤其是不懂计算机科学还不学cs50,那就更罕见了。
为什么cs50大受欢迎?我认为,驱动力来自计算机科学里算法和数据可视化这两个领域的突破。这种突破让某些过去不可能实现的研究变得不再遥远。
3月15日福斯特校长讲话前,哈佛还派了两位领军教授来中国,与我们分享他们最前沿的研究成果。一位是生物化学与物理的双科教授庄小威(本科毕业于中科大少年班,伯克利物理学博士,34岁成为哈佛正教授,40岁成为美国科学院院士,曾获麦克阿瑟天才奖)。她在2006年首创STORM方法,实时揭示复杂的生物体中单个分子及其变化过程。传统的方法通过荧光染色后,只能观察到多个分子的共同运动。庄小威的创新可以把单个分子分离出来成像,再把这些单个分子重新“缝”在一起,还原整个复杂的变化过程。这种创新推动了生物领域的很多重大研究,包括对老年痴呆等疑难病症的研究。对分子进行分离并重组,需要无数次的随机实验,这离不开算法;对整个过程进行全面观测与动态展示,离不开可视化。
另一位教授Ali Malkawi加入哈佛设计学院之前曾在宾夕法尼亚大学任教多年。如果说庄小威的研究是微观,聚焦单个分子及其变化过程,那么Ali的研究就是宏观,致力于设计整个城市、国家甚至世界的可持续发展系统。他的研究兴趣在于通过计算机模拟、高级可视化等技术来优化与能源消耗相关的设计方案,小到一栋房屋,大到整个世界。以卡塔尔可持续评估系统为例,在五年的项目执行期内,这套评估标准被奥委会认可并用于包括2022年卡塔尔世界杯在内的多项国际比赛,还被卡塔尔当地的大学引入并开发成环境设计课程。未来Ali计划把这套评估标准推广到世界各国,形成全球可持续评估系统。在这套系统的设计、展示、模拟、评估各关键环节里,算法和数据可视化的重要性一再体现,例如通过可佩戴的模拟设备测试一栋房屋,在屏幕上会显示出红色的耗能最大的位置是屋顶。
各自分享后,两名教授惊喜地发现了共同爱好——算法和数据可视化。400多名校友见证了他们的惊喜和默契。他们表示回哈佛后,会促进各自负责的研究中心跨领域合作。
170个行业61种职业
对生物或能源环保都不感兴趣,还用算法和数据可视化吗?从若干关系人类未来的重大主题里,哈佛选择了生物医学与可持续发展来突出使命和优势。选择这两个领域有偶然性,但是以算法和可视化为代表的数据科学,将对我们的生活产生更深远的影响。数据科学,是对具有时效性与多样性的海量数据(即大数据)进行存储、选择、处理、分析与可视化的科学。2011年麦肯锡全球研究院发布《大数据:创新、竞争和生产力的下一个新领域》,预测数据革命将颠覆健康、零售、政府、制造等各大行业,并估计在2015年,美国共有170个行业的61种职业会因为这场数据革命而改变。考虑在这些职业行业里就业,选修cs50这样的课程,提高算法和数据可视化方面的能力,就成了一项面向未来的必备通行证。
数据革命给这些职业行业带来了哪些变化?提出了什么新的能力需求?在麦肯锡报告里,这种能力需求以及对应的职业行业被分为三类:深度分析师(deep analytical)、大数据高手(big data savvy)和技术支持人员(supporting technology)。深度分析师是在统计、机器学习等领域接受过高级训练后能进行数据分析的人,包括数学家、统计学家、精算师、经济学家、行业工程师、流行病学家等。大数据高手是具有基本的统计和机器学习知识,包括经理、工程师、生物科学家、社会学家、市场分析人员等。技术支持人员是数据库管理人员和程序员等,包括计算机软件工程师、系统工程师等。据麦肯锡预测,在2015年,美国对深度分析师的需求是14~19万人,对大数据高手的需求是150万。劳动力市场反馈信息也验证了这种需求,2014年美国最受欢迎的三种工作分别是应用数学家、(已经获得终身教职的)大学教授和统计学家,难怪2012年10月的《哈佛商业评论》引用Google首席经济学家Hal Varian对数据科学家的评价,说这是“未来十年最性感的职业”。
究竟怎样才能成为一名数据科学家?除了数学、统计、计算机等传统学科,还有哪些新的选择?如果考虑出国留学,纽约大学2013年启动了数据科学的硕士项目,每年招30人。如果考虑在国内深造,清华2014年跟青岛共建了数据科学研究院,由信息、公管、经管、社科、交叉信息研究院、五道口金融学院等6个学院联手推出,首次招生从清华内部选出150个本科毕业生攻读硕士,方向包括商务分析、社会数据、大数据与国家治理等。如果考虑在线课程,Coursera上推出了约翰霍普金斯大学的数据科学专业(data science track)的证书,为期4周,包括9门课程,费用470美元。不需要证书的话,可以考虑零成本自学。想在教育领域里做一名数据科学家,可以在线学习哥伦比亚大学Ryan Baker教授在edx上的《教育、分析与学习》课程,熟悉他推荐的Rapidminer或其他常用的数据挖掘工具。
哈佛和耶鲁的新生都选修计算机入门课程,纽约大学和清华大学都开设数据科学的硕士项目,edx和Coursera两大慕课平台都提供平价甚至免费的数据科学课程,生物和能源环保等研究前沿领域的教授都需要精通算法和数据可视化的人才,麦肯锡报告估算在2015年美国需要上百万的大数据高手,Google里的专家预测这种需求在未来十年会一直存在,那么我们还有什么理由不行动起来?
责任编辑:尹颖尧