主论坛:“大数据科学认识与理解”
2016-04-06
主论坛:“大数据科学认识与理解”
5月25日上午,第一届大数据科学与工程国际会议(2016)的主论坛“大数据科学认识与理解”在贵阳金阳万丽酒店3F贵阳大厅2/3举行,清华大学教授、原中国计算机学会理事长、《大数据》编委会主任郑纬民作为大会主席及主论坛主持人,现场观众爆满,气氛热烈。
大会主论坛观众席,座无虚席
贵阳市政协副主席孙袁代表主办方出席并致辞
中国工信出版集团董事长,人民邮电出版社社长代表主办方出席并致辞
中国计算机学会大数据专家委员会副主任委员张晓东教授代表主办方致辞
郑纬民:大数据发展需要产学研结合,中国企业在大数据领域有极大的发展空间
作为本次大会的主席,清华大学教授、原中国计算机学会理事长郑纬民表示,贵阳数博会是全球大数据领域的盛会,李克强总理的出席更说明了国家对于大数据产业的重视。第一届大数据科学与工程国际会议是大数据学术领域的具有世界一流水平的会议,作为数博会唯一的学术活动,它的举办也是希望对于开始蓬勃发展的大数据领域,能够实现产学研的无缝结合。本次主论坛以“大数据的科学认识与理解”为主题,希望大家能够正确认识和理解大数据及其价值,下午设置的4个主题论坛,分别从大数据分析与管理、大数据系统、大数据安全、大数据学科与人才4个维度探讨大数据的系统性研究及人才领域的建设。
大数据的发展已经有几年的时间,大数据已经成为大势所趋,这已成为无可争议的事实。总的来看,大数据的商业变现仍然不多,他认为这需要一个过程。大数据是一个新兴领域,中国企业在大数据领域仍有很大的机会。首先,目前国际大数据公司在大数据领域的开发均是开源的,公开源代码,中国企业可以直接获益。其次,中国是第二大经济实体,有大量的数据积累,中国在大数据的发展上有很大的希望取得突破。
郑纬民教授接受采访
俞士纶:异构将让大数据实现更多价值
美国伊利诺伊大学芝加哥分校特聘主任教授、清华 大学数据科学研究院院长,ACM/IEEE Fellow俞士纶作为大会的名誉主席在主论坛上发表了“对异构数据源的思考”的演讲。他认为:大数据时代,数据可以改变很多细节,我们要做的是找到有意义的数据,并融合不同的数据,将数据运用在实际的事情上。
俞士纶教授将数据库比作药品,将数据比作药品的内部结构:如果我们把来自不同领域的数据库和数据联在一起,我们将可以利用数据做出更好的预测。
俞士纶教授给出了相似的案例,豆瓣利用人们对于一个电影的喜爱程度,综合这部电影和这个人以往看过电影的主演、导演、电影类型、人物性格等多种电影资讯就可以进行预测,抓住人与人之间的联系,做出预测。但这种数据预测的效果又是因人而异的,有些人社交关系比较重要,但有些人却没有什么朋友,所以数据的预测要通过不同的路径进行预测,就会减少误差。
他认为:异构数据可能是一张图和与之相关的一段图解,这是以两个不同的方式来表达一件事。当我们从图和文字找到相似的地方时,通过图就可以找到相关的文字描述,通过文字描述就可以找到相关的图片。如果将两者联系在一起,结果能更为准确。
俞士纶教授表示:现在是大数据时代,一个重要的事情是我们要怎么融合不同的数据。比如气象预测,光做预测是根本赚不了钱的,但如果应用在货物运输、农业等具体领域,这些天气数据可以改变很多细节,提供更多便利,成为真正有价值的数据。所以,我们首先要了解什么是有意义的数据,然后考虑如何把这些数据合在一起去提供更好的服务。
邬贺铨:大数据“博大精深”,要强调规律,更深入运用
中国工程院院士邬贺铨作为大会的名誉主席在会上作了“大数据之博大精深”的演讲,他表示,目前已有的数据量相当大,具有“博”“大”“精”“深”的特点。
“博”指数据来源非常丰富,包括社会空间数据、物理空间数据和信息空间数据。按网络层面划分则包括自媒体数据、日志数据、富媒体数据、基础网络数据。其中国家安全数据、商业秘密数据、个人隐私数据,这3方面的数据不能开放,开放的应是其他的数据。
“大”指现有数据量已经远远超过传统的研究范围。现在互联网的数据流量每年新增40%,每两年的数据量就增加了两翻,可以预计,到2020年,全球的数据量要超过40 ZB。大数据需要的数据量大,当数据量较少的时候,采用矩阵聚类分析的误差较大,只有当数据大于一定量的时候才可以使用。
“精”不是指追求精准,还是指强调规律。这可以理解为对于一个大数据集而言,我们很难要求所有数据都精准,只要大多数数据有代表性,并不妨碍数据集合得到较为准确的结果。
“深”指对大数据的运用应该更深层次。大数据的分析不仅需要大量的数据,还需要建立模型。现在利用GPU可模拟超大型人工神经网络,最近百度、谷歌在这方面都取得了较好的进展。
方滨兴:云监控与云加密打造可信云
中国工程院院士方滨兴在会议上表示,云安全分为4个层面:第一是可靠的云,能够始终可靠地提供服务;第二是安全云,保障用户及租户在云中不会因攻击而受到损害;第三是可信云,保障云服务商不会对租户的运行进行侵害;第四是可控的云,保障租户不会利用云运算恶意程序。
大数据由云平台进行存储和处理,分工更细,另外,数据的所有权和管理权分离,这种分离导致数据不可控。而云监控与云加密可打造可信的云,云监控可防止云服务商作恶,保障云中数据安全;云加密可降低泄密风险,无缝数据加密传输、支持任意云端平台。
方滨兴院士表示,云监控与云加密有七大特点:第一,增加了云管控与审计,具备对云平台和虚拟机全生命周期的细粒度管控和审计能力,具备对云平台和虚拟机的安全加固能力;第二,多终端无缝介入,随时进行操作;第三,智能权限策略,用户进行敏感操作,可以拒绝;第四,精准指令控制;第五,文化内容审计;第六,大数据分析;第七,更高安全系统。
梅宏:我国的大数据发展应回归理性
中国科学院院士、上海交通大学副院长、IEEE Fellow梅宏在会上做了精彩的报告。梅宏院士认为:大数据作为一个现象的产生是由于信息技术不断降低的成本以及互联网及其延伸带来的无处不在的信息技术的广泛应用。世界各国高度重视大数据,但是存在几个问题:大数据的应用还属于初级发展阶段,现在很多数据、案例很难被看作典型的成功案例,很多是传统的方法在技术上的拓展——“新瓶装旧酒”,属于统计的范畴。此外技术支撑能力也很不足。
梅宏院士表示:我国的大数据发展应回归理性。大数据对社会产生了重要的影响,但不能把所有的事都依靠大数据来解决。它可能会对我们的生产、生活带来负面影响,如可能带来数据所有权、隐私保护及信息安全等一系列的问题。当前的道德建设、法律建设以及技术手段建设仍处于滞后状态,而投资已经很热,应该顶层规划、示范引导,要积极谋划,审慎推进,避免一哄而上,造成超前投资或重复投资,总之,应该“利用驱动”、“需求驱动”。
高光荣:发展大数据必须突破三个门槛
美国特拉华大学电子与计算机工程学院终身教授、ETI公司创始人与首席科学家、ACM/IEEE Fellow高光荣认为,发展大数据要突破3个门槛:其一,认清大数据和高性能计算的依托;其二,找到把大数据变成知识的途径;其三,计算出大数据投资后产生的经济效益。
高光荣教授说,自己在国外一直从事高性能计算领域的研究。2005年,他接到一个项目,要求分析数据速度特别快。为了解决这个问题,他和团队合作制造出一个机器——世界上第一台大数据的超规模计算机,这些经验让他对大数据有了直观的认识。然而,高性能并非计算的“又一春”,眼下的高性能计算和大数据产业既面临挑战,也拥有机遇。
高光荣教授认为,为了突破上面3个发展门槛,行业专家们需要先把自己的“门槛”打开,互相学习,看看大数据和高性能计算到底有多少东西是共通的,从而找到维持大数据发展的办法。
高光荣教授接受采访
华云生:打破大数据研究、应用障碍
香港中文大学常务副校长、伟伦计算器科学与工程学讲座教授、ACM/IEEE/AAAS Fellow华云生做了题为
“大数据研究的战略思考”的精彩演讲。华云生教授提出众多实例,说明在对大数据进行研究的过程中,目前还面临着很多挑战,包括对有用数据甚至是大数据的获取、对核数据的获取等。
华云生教授认为,应该打破现存的这些障碍,并列举了当前国际上对大数据进行的研究项目,提出了大数据研究的领域,包括环境、安全、运输、教育、通信、网络安全、智慧城市、金融、医疗等。华云生教授最后说,大数据发展需要有一个需求,有了需求才可以做出结果。另外,对大数据我们要从上到下进行管理,积极打破障碍才可以做出有用的大数据研究。
华云生教授接受采访
张晓东:数据是检验真理的重要标准
美国俄亥俄州立大学教授、ACM/IEEE Fellow张晓东在会上就“数据分析将对人类自身的了解达到前所未有的高度”做了精彩的报告。
张晓东教授表示,随着计算机的不断演进、数据量逐渐增大,数据处理面临诸多挑战。第一个挑战是原有的通用数据库技术不能满足大数据可扩展和高容错的需求,第二个挑战是传统的数据管理的商业模式不被日益增加的非盈利用户接受。大数据分析是走向理性决策的重要基础。大数据分析主要目的是学到知识,从巨大、不规则和零散的数据中找到新知识,既可以做出完美科学决策,同时可以消除感性、教条和口号式的决策,也可以凭借经验和直觉将其作为重要的参考。大数据让我们更清晰地看到社会本质和认识自身,从而使违背规律和人的本性的决策大大减少。大数据分析的本质不是数据量的大,而是分析结果的科学性。
张晓东教授感慨道:20世纪90年代时,预测互联网的出现和完备将对整个工业生产和人类日常生活做出颠覆性的变化,现已全部应验。今天通过对大数据的分析,我们对人类自身的了解将达到一个前所未有的高度,越来越多的普适价值是以数据为基础的。数据是检验真理的一个重要标准。
张晓东教授接受采访
郭毅可:数据科学是当代科学的重要基础和方法论
英国帝国理工学院数据科学研究所终生教授、所长郭毅可就“数据科学和科学数据”做了精彩报告。
郭毅可教授介绍了英国帝国理工学院数据科学研究所主要的工作方法和思路。他认为大数据存在的原因,不是计算机发展太快,而是科学数据发展太快。英国帝国理工学院数据科学研究所主要做数据驱动科学方面的研究,以数据科学作为技术来推动科学的交叉。数据科学研究所的主要任务包括5方面:一是做研究;二是做教育,把数据科学内容嵌入各个系的硕士教育中心;三是开发一些技术,为学校科学研究提供帮助;四是与工业合作,获得比较多的科研经费;五是影响力,跟政策、政府、国际合作。关于数据研究,研究方向包括3个方面:一是继承与承接;二是感知与交互;三是学习与认识的方向。郭毅可教授认为数据科学是当代科学的重要基础和方法论,而且科学研究推动了数据科学的许多方面和基础方法的发展,他们将在这些方向上努力。