大数据和人工智能困局与突破
2019-02-07郑志明
郑志明
认知人工智能应该从科学的角度来看。近代科学标志性的东西就是牛顿科学,牛顿第二定律,F=ma,是讲外力和加速度之间的一个比例关系,所以所谓的牛顿科学最本质来讲都是理想方程,他所有得出的东西,都是在理想模型和理想环境下得到的。也就是说牛顿在研究一切问题的时候,他把本来复杂的问题做了简化,这种简化就是三个字——线性化,所以牛顿的思想本质上就是线性化思想,就是把一个复杂的问题里面线性的部分拿出来,随机部分、非线部分不管了。但是在一个动态系统里,这种非线性随机问题,牛顿并没有解决,这个事情是放在现代来解决的。所以说现代科学和近代科学的分水岭就是线性化这条线。
当把一条抛物线迭代起来的时候,一开始的时候它的稳定态是很简单的,但抛物线到一定高度以后它的混沌就出现了,人工智能能学习吗?答案是不能的。所以线性方法是没有办法处理非线性随机问题的,所以后牛顿时代或者现代科学,主要是研究具有非线性动态随机特征的复杂动态系统,这是很重要的一个任务。这种复杂系统多不多呢?在上世纪八十年代已经证明,自然系统,三维以上的动态系统是复杂系统的概率是1,也就是说复杂系统到处存在,牛顿时代的牛顿理想方程,真正在现实中碰到那样的线性方程、理想方程概率是0。所以现在我们要研究的问题,只要是动态,那就是非线性随机,它是普遍存在的。
这个问题讲清楚以后,我们看大数据和人工智能。牛顿科学极大的推动了科技的发展,但随着科技的不断发展,人们希望对这个复杂系统了解多一点,怎么了解呢?没有理论支撑那就开始做实验,一开始的实验都是观测方法,后面就开始随着观测仪器越来越精密,就用数字来描述这些实验现象。这件事就变成我们传统意义下的物理的自然的系统,通过这种传感器等等,把变化用数字记载下来,实际上就变成了过去的物理系统或者自然系统,就变成了复杂的数据系统。所以复杂数据系统并不是从天上掉下来的,实际上这个数据系统后面蕴含着复杂的真实的系统,这样科学就进入了大数据时代。
到了大数据时代,是不是把这种物理或者自然的问题进行一种数字化描述,问题就解决了?实际上还是缺乏一点手段。因为它没有减轻困难,只是把一个复杂问题变成了另外一种数字描述的复杂问题,怎么来解决它呢?就是现在人工智能。那么人工智能实际上就是统计,统计在人工智能里占的分量是很大的,基本上是用的统计方法。从数学的角度来看,人工智能实际上是统计加动态线性的学习方法。人工智能的学习方法,不管是什么学习方法,就是我们所谓的叫大数据的学习方法、分析方法。就是用一个统计模型,看大数据,根据经验,然后弄个统计模型扣上去,不符合模型的就是所谓的清洗,不满足的补一补数据,这就叫大数据的分析方法。
真正的人工智能或者说下一步要发展人工智能,应该是什么呢?应该是从这个数据里建立一些方法,要从这个数据里,把这个隐含在数据后面的系统能够从数据里捞出来,或者近似的捞出来,这就叫精准智能。线性系统的不变集极其简单,只要沾一点非线性或者随机,它的不变集会发生革命性的变化。用这种统计加动态线性的方法,能很好地把非线性这个系统的性质刻画出来或者近似刻画出来,如果这种方法可行的话,其实牛顿科学就终结了现代科学,现代就不要研究数学、物理、化学了,因为我用动态线性已经可以把所有复杂的东西基础研究清楚了。
所以现在的大数据或者人工智能,它碰到的最大的困局就是遇到了复杂系统,这是它的最大问题。所有的复现性存疑,不可解释性。美国研究的人工智能实际上是内嵌物理、数学等等这些东西,核心是能不能用数学物理方法,实际上就是把统计方法里边加一点更细致的数理方法,不要光局限在统计,把更深入的数学和物理的知识能加到这个学习方法里面去,使得得到相对来讲比较稳定的、比较准确地结论,这就是下一步人工智能要做的事情。我们国家要想人工智能取得突破,要想成为人工智能的强国,必须要这么做。所以内嵌的目的就是将数据中非线性随机性的科学关联关系及其演化可能导致的复杂性要随机出来,这是最核心的问题。
第二件事,有了这种数理表征以后,人工智能就开始动态调参了,把这种数理表征做出以后形成系统的近似科学数据场。第三件事,基于调参的学习,因为这里面就把系统或者近似系统,数据里蕴含的真正的系统、隐性的系统,让它显型出来,然后再基于系统的学习。下面我们看一个在AM402暗物质信息的搜索中所做的例子。这个是丁肇中先生主持的一个巨型国际合作项目,参加这个项目的国家和地區大概37个,国际上最顶尖的科学家大概600多人。
这个问题是什么问题?把探测器放在空间站上,利用探测宇宙里的暗物质,物理探测,主要是用物理来看物质,光、电、磁、能、质,五大探测类,最后来确定这个粒子到底是什么类型的粒子,是不是自然粒子或者是暗物质的粒子。这个问题的数据量就变得非常大,而且这个系统还不好控制,因为它是放在天上的,这个系统是探测器在天上被粒子打的,坏了就坏了,所以它的数据是很随机的。第二是放在空间站上的,它是动的,所以是这种角度,这个粒子打到探测仪上,和这种角度到达探测仪上出现的光电信号是不一样的,要把五大类的光电信号不但要筛选出来,而且要耦合起来,组成一个描述暗物质的整个系统,这件事情是非常复杂的。
(本文根据中国国际数字经济博览会速记整理,内容未经本人确认)