走好我们的大数据之路
2016-04-04郭毅可教授上海大学计算机工程与科学学院院长伦敦帝国理工学院数据科学研究所所长上海产业研究院大数据首席科学家
郭毅可 教授上海大学计算机工程与科学学院院长伦敦帝国理工学院数据科学研究所所长上海产业研究院大数据首席科学家
走好我们的大数据之路
郭毅可教授
上海大学计算机工程与科学学院院长
伦敦帝国理工学院数据科学研究所所长
上海产业研究院大数据首席科学家
2015年10月21日上午10点15分,习近平主席偕夫人访问了伦敦帝国理工学院数据科学研究所.作为研究所所长,我向习主席演示了我和我们团队的一些研究成果.
(1)与浙江大学合作的对中国人口迁移状况的分析.对五年中近一百万个流动人口家庭的数据和中国各省人口的流动状况进行了细致的分析.分析包括各省流动人口的特征、相关政策对流动人口的影响,以及流动人口对中国城镇化的影响等.
(2)与维也纳国际应用系统分析研究所、美国大气研究中心和上海大学合作的有关“一带一路”战略的国际影响力分析.用人口学理论和社会发展模型,以及对过去50年间各国社会与经济发展数据和基础建设数据的综合分析,来预测未来30~80年间“一带一路”沿线国家的人口发展.
(3)与英国国家基因组计划、欧盟创新制药计划的合作研究.展示了一个基于个性化医疗的实用临床系统,可以根据每个人的基因以及其他分子医学数据对疾病进行个性化分析,从而提出精确治疗方案.
(4)与上海地铁的合作项目.利用上海地铁每天每个乘客的进出站数据,来分析各条地铁线路的负载情况.同时,对各种故障情况下地铁线路负载的重新分配进行预测.从而对整个地铁线路的可靠性和安全性进行评估.
习主席对这些工作表示赞赏.他认为,用大数据作交叉学科研究很有意义,与实际应用相结合是个好方向.习主席的这些话肯定了我们对大数据的研究方向的思考和策略,使我们倍受鼓舞.
我们秉承着“研究先进大数据管理和分析技术,并以此来促进数据驱动的科学研究及技术发展,造福人类社会”的宗旨,在以下六个方面做出了许多努力,取得了很多令人瞩目的成果:一是作为交叉学科发展枢纽,组织并推进以大数据为基础的多学科合作;二是培养新一代有创新能力的数据科学家;三是为数据驱动的科学研究提供技术与设施的支持;四是与全世界工业界和学术界广泛展开大数据科研合作;五是促进数据经济、数据产品与产业的创新;六是向政府、公共管理机构及全社会提供有关大数据的政策与技术咨询.这次习主席的来访是中英双方对我们工作的一种肯定,我们深感荣幸与自豪.
大数据为人类社会提供了又一次新的资源机遇.这种新资源具有人类已有自然资源所不具备的许多特征.如超可再生性,即数据的使用本身并不消耗数据,相反还会产生新的数据;非竞争性使用,即一方对数据的占有并不限制其他人对这份数据的拥有.这些特征使得数据资源的使用不仅可以像其他自然资源一样产生能量与财富,而且可以完全改变人类的社会组织结构和行为方式.因此,对数据科学必须站在社会发展、新的经济模式、新的工业体系、新的创新产品、新的生活方式以及新的科学研究方法等宏观角度来进行系统化研究.那种仅仅把数据科学作为统计学和计算机科学的分支应用,把机器学习和大数据管理技术等数据科学的具体技术作为数据科学的主要内涵的思路与做法,未免是太狭隘了.
一个数据科学的典型而现实的例子就是当今的医学.近20年来,高通量的医学仪器使得人类对生命的观察达到了分子级的精度.今天,我们不仅可以准确地读出每个人的基因序列,而且还可以对细胞中分子的活动进行实时检测.这些分子级的通过对生命的观察而产生的大数据,是对每个人每一刻生命活动的度量,从而使得医学成为一种基于这种度量,对生命进行有效调控的精准科学.正因为如此,数据科学是当今医学发展的一个重要基础.同时,医学应用也对数据科学提出了许多有意义的挑战和研究方向.医学数据科学本身就成为了一门具有巨大社会价值及科学意义的大学科.我们在上海产业研究院的生物信息学中心的研究也正在朝这个方向努力.
数据,顾名思义就是以数为据,是对物理世界的观察与度量.对这样的数据作分析,得到具有普遍意义的总结,并且对这个总结中的误差和非确定性进行估计和界定,是数据科学的基本方法.然而,这种统计方法的有效应用离不开对物理世界本身规律的理解,这也就是我们常说的观察前的先验知识.这种被称为贝叶斯方法的数据科学原则,实际上充分反映了数据科学和领域科学融合研究的重要性与必要性.
数据作为资源,其巨大的经济价值已经充分体现.但是由于数据资源的特殊性,当数据作为资产时,这样的资产有很特殊的性质.因此,对数据资产的定价和交易是很有意义的经济学命题,而对这些命题的研究本身就是数据科学的一个重要内容.我们在这方面进行了许多开创性的工作,如数据交易的理论和技术、比特币等未来数据货币和数据遗产等.最近,我们与中国建银国际和深圳键桥通讯合作成立了数据经济研究实验室,以进一步推动对数据经济的研究和创新.
数据资源和数据资产都具有很强的社会性,它们与人类生活本身息息相关,因此在数据科学研究中,社会科学和数据科学的融合具有极重要的地位.特别是对法律、伦理以及数据化社会中的社会结构发展与变化都有很重要的现实意义.在英国,我们数据科学研究所和伦敦政治经济学院在这方面有广泛的合作.在上海大学,计算机工程与科学学院和社会科学研究院系也开展了这方面的合作研究.
综上所述,我们对大数据的研究正方兴未艾,国家也把大数据研究与发展作为国家战略.走好我们的大数据之路既是我们今天的事业,也是我们的责任.走好大数据之路的关键是要有宽广的战略胸怀,把大数据真正作为当今社会与经济发展的驱动力,使我们能够把先进的技术研究和广泛的社会实际应用紧密结合,直接造福人类.
在大数据之路上只有创新,没有跟随!
10.3969/j.issn.1007-2861.2015.05.016