戴汝为:用大数据挖掘海量数据金矿
2015-10-27宋文芳庞贝
宋文芳 庞贝
戴汝为,1951年考入清华大学,1955年毕业于北京大学数学力学系,1991年当选为中国科学院院士。长期从事自动化控制、模式识别、人工智能、智能控制及思维科学的研究。
他自上世纪50年代开始从事工程控制论与最优控制;70年代最早在国内开展模式识别,把统计模式识别与句法模式识别有机地结合起来,提出了新的语义、句法模式识别方法;80年代中期开展了人工神经网络在知识工程中应用的研究;90年代初,进行智能控制及手写汉字识别的工作;通过知识系统及人工智能的途径,跨入对开放的复杂系统及其方法论的研究。1980年—1982年在美国普渡大学(Purdue University)电机系作访问学者。
曾先后获国家科技进步一等奖一项(2001年)、何梁何利科学技术奖(2002年)、中科院自然科学一等奖一项(1992年)、航天工业总公司科技进步一等奖一项(1997年)、中科院科技进步二等奖两项(1986年、1990年),主编的《智能自动化丛书》(共6册)获1999年国家图书奖。到目前为止,已发表《智能系统的综合继承》等学术专著5部,学术论文180余篇。
国际金融危机以后,国际信息化发展呈现出新战略、新思路和新竞争。互联网已经日益深入到各国国家战略之中,成为实现下一代现代化的制高点。
2015年8月19日,国务院通过《关于促进大数据发展的行动纲要》。
针对当前互联网产业的发展趋势和热点问题,本刊记者采访了中国科学院自动化研究所戴汝为院士。戴汝为院士科研团队继承钱学森先生交叉研究学术思想,在国内最早研究“模式识别”,并在信息处理、数据挖掘领域取得重大成就,在刑侦信息技术应用范畴曾参与多项评审和鉴定,具有重要影响。戴院士的回答或许可以为我们在纷杂的发展现象中,厘清未来互联网产业走向的头绪:
“随着互联网的飞速发展,这些我们已经拥有了的数据原材料基础,就是丰沃的土壤和富饶的金矿。但这些积累,必须要通过更好地运用大数据技术进行精耕细作和挖掘提炼,才能真正释放出海量数据巨大的内涵价值,这里有非常可观的发展空间和持续潜力,这无疑将推动互联网产业发展和层次升级。就当前促进整体经济发展乃至从我国社会全方位创新升级来看,这种互联网产业的发展必将是重要的核心动力。”
记者:我们身处在一个信息化的时代,云计算、大数据、人工智能成为当下的热门议题,您对于它们怎样理解,您对于这些热点议题的发展趋势有怎样的展望?为什么现在国家和企业对此如此重视?
戴院士:几十年前,像气象、媒体等持续产生数据的行业只能通过抽取关键数据进行存储。进入信息化时代,云计算的出现使得人们可以将全部历史数据进行存储,使得大数据挖掘成为可能。通过智能算法挖掘数据间的关联性、预测态势,可以发现很多新的知识,为科学决策提供可靠依据。同时,对政府、企业、网络数据进行有效整合,能够大幅提高办公效率、增强企业竞争力,提高人们的幸福指数,从而加速社会的发展,增强国家的实力,强化在国际竞争中的态势。
记者:多年来您长期从事自动化控制、模式识别和人工智能、智能控制等的研究。作为“复杂系统”与控制科学家,您能为我们简要介绍一下复杂系统管理与控制与人工智能的联系和区别吗?
戴院士:人工智能技术自上世纪中叶快速发展,在众多领域得到应用,但是也遇到了瓶颈。钱学森先生早在上世纪80年代就提出了“思维科学”是智能计算机的理论基础。他带领我们实现了“系统学”的创建,发表了《一个科学新领域—开放的复杂巨系统及其方法论》一文,从而面向21世纪提出了具有划时代意义的“科学方法论”。这个阶段随着“思维科学”、“复杂性科学”研究的进展,从而孕育了“智能科学”、“脑科学”。我们通过“系统复杂性”的研究,利用当代计算机科学和信息技术手段,实现了“信息空间”的“综合集成研讨”。钱学森先生说过,这就是知识产生体系、人类涌现了新的“智慧”。这也是“复杂系统”的管理和控制的历程。
可以说,广义的人工智能是方法和手段,复杂系统管理与控制是实现的目标。通过现代人工智能科学及其发展中的技术可以有效处理复杂系统管理与控制问题。
记者:目前您研究的重点放在哪些方面,它们将对我们的生活产生何种影响?
戴院士:我是从模式识别、人工智能领域进入“复杂性科学”研究进而建立“智能科学”;为了实现自然科学和人文科学的“结合”,提出了“社会智能科学”。所以近年来主要从事有关自然环境变化与社会条件进展相结合的研究,例如:巨灾应对,形象思维虚拟场景与智能技术结合的“智慧涌现”等等。
我们的团队根据国家需要和合作部门、企业的方向安排研究课题。目前我们课题组主要从“系统学”的角度,应用智能科学相关技术进行智能环保、智能医疗、智能交通等领域的交叉研究。近期的工作涉及如民众极为关注的气象、健康、交通管理发展等社会问题。通过分析城市的气象数据、污染数据以及医院的医疗数据,城市交通及其关联因素数据,深度挖掘数据间关联关系,例如污染情况与呼吸道疾病的关系等等。通过对历史数据的分析,预测气象及污染趋势,从而进一步预测人们可能的发病情况,为政府专业部门提供污染治理、交通管理优化预案,为民众提供气象及出行指导、减少发病率,为医院提供参考信息,为提升整体医疗水平,为提高人民健康水准服务。
记者:能否介绍一下您的科研团队?
戴院士:在多年培养的研究生当中,我选拔了一支有想法、愿付出、有干劲儿的青年团队。在科研工作的实践中,引导这个团队的年轻成员逐渐认识到,做科研和处理所有问题一样,学习和掌握“科学方法论”是多么重要和有价值。现在他们能够踏下心来不浮躁,学习和继承钱学森先生的科学思想,发展两代科学家创立的“综合集成方法论”。在我们几十年积累的深厚的理论研究基础上,让年轻人打下扎实的功底,而且他们在实践中提高了自己的工程应用能力。在当前形势下,我们应该坚持创新驱动面向国家需要,沿着“产、学、研、用”的路径,在解决社会重大问题的同时,做到不断成长,这正是科学研究的继承和发展。
记者:8月19日,国务院通过《关于促进大数据发展的行动纲要》,明确要在2018年底前建成国家政府数据统一开放平台。同时我国也在大力提倡互联网+,鼓励这一领域的创业创新。您对于国家这一《纲要》和上述战略如何解读?您对于互联网产业的发展有哪些认识和建议?
戴院士:我国前期在社会经济增速方面取得显著成绩,为世界瞩目。同时在基础信息化方面也取得殷实成果。随着互联网的飞速发展,这些我们已经拥有了的数据原材料基础,就是丰沃的土壤和富饶的金矿。但这些积累,必须要通过更好地运用大数据技术进行精耕细作和挖掘提炼,才能真正释放出海量数据巨大的内涵价值,这里有非常可观的发展空间和持续潜力,这无疑将推动互联网产业发展和层次升级。就当前促进整体经济发展乃至从我国社会全方位创新升级来看,这种互联网产业的发展必将是重要的核心动力。
记者:9月8日,百度在百度世界大会上提出“大数据+人工智能,连接3600行”,强调将大数据与人工智能更紧密地接入到生活中来,从而更好地服务社会。您对于这一产业前景如何看待?你觉得将大数据和人工智能更深入地延伸到服务领域,对产业和社会将有怎样的影响和意义?
戴院士:我们当前仍然处于以“信息技术”为核心引领的工业革命的持续进程,乃至以“智能化”为标志的工业革命的浪潮中。如果说这轮变革之始带给人们的最突出感受是便捷和自由,那么后续进程的关键升级就是“智能化”。而智能化的标志性体现场景就是与“每个人”的互动,互动的过程“智慧”涌现,也就是实现着“智慧化”。所以体现互动的社会服务也正是“智能化”发展的重要载体。这种当代的“智能化”的社会服务有赖于大数据和不断更新的人工智能技术的植入。所以说基于大数据的人工智能深入延伸到社会服务领域,将如同我们已经经历的个人电脑、手机一样,将全面而深刻地改变每个社会和每个个体的生活,充分激发社会个体能量,激发社会整体活力,促进社会效率提升和万众创新、创业的繁荣。
记者:以百度、阿里等为代表的企业同时也在进行相关研究,开发应用的新技术诸如“百度大脑”、人脸识别、智能机器人等,并在不断致力于将这些研究推向应用。这与您所做的工作有哪些异曲同工之处?学界的研究与产业界的研究能否实现相关对接?如果实现的话,您希望产生哪些碰撞与火花?或者您的研究将为这些应用提供什么样的理论支撑?
戴院士:在国内,我最早从事模式识别方面的研究,提出了语义—句法模式识别方法,主要应用于文字识别领域,成为“汉王”的核心技术,成为我国早期研究与产业结合的一个典型案例。
我国科学界的传统,就是研究的最终目的是为了服务产业,研究与产业相结合。当然,一方面可以通过产业发展需求,来确定科研方向,另一方面作为研究人员应该能够实现研究的真正落地,造福人类。
2006年我出版了《社会智能科学》一书,书中提到,很多社会问题都是“开放的复杂巨系统”问题。而这种问题,应该是遵循钱学森先生提出的“综合集成”科学方法论去解决。实践证明,我们课题组正是应用“综合集成研讨体系”解决过经济决策、水利调度以及为国家军事决策提供过科学支持。
记者:随着互联网日益深入地介入人们的生活,信息安全问题也日益突出,这仅仅依靠个人和企业的自律是远远不够的,您在这方面有什么好的想法和建议?
戴院士:从宏观趋势层面来看,伴随着以互联网、移动互联网为代表的信息技术发展不断深入,我们在更加自由便捷地获取使用信息的同时,也必然会面对更加严重的信息安全问题。自由和风险,这是事物必然的两面性特征。
对信息安全问题的防控,最初是从单个人或单位的局部个体技术层面发展起来的;后续虽然已经采用了基于云计算的信息防控智能化措施等技术,运用了多个体的整体和统计特性,但还没能建立起从“系统”视角切入的技术对策体系。实际我们可以把当前的整个互联网看做无数个体交互运行的“系统”,将破坏信息安全的动作看做系统的异常行为和状态,进而规范“系统”安全运行的条件,运用“系统科学”的方法和不断增强的技术措施来更好应对信息安全问题。