AI技术的天花板
2017-09-04何宝宏
自2006年以来,深度学习算法的突破,加上GPU等并行计算方式和海量数据的加持,AI在图像、视觉和语音等方面表现出了超越人类的能力。
但深度学习的效果取决于网络结构和节点的设计、训练数据的质量和训练方法的合理性等,还存在不少瓶颈,可能存在天花板。
算法方面存在问题
一是无论深度学习还是黑盒子,缺乏理论指导,对神经网络内部涌现出的所谓“智能”还不能做出合理解释。二是事先无法预知学习的效果。为了提高训练的效果,除了不断增加网络深度和节点数量、为更多数据和增加算力,然后反复调整参数基本就没别的招数了。三是调参还是在碰运气。还没有总结出一套系统经验做指导,完全依赖个人经验,甚至靠运气。四是通用性仍有待提高,没有记忆能力。目前几乎所有的机器学习系统都是被训练于执行单一任务,做之前任务的记忆。
计算能力仍处于初级阶段
我们今天的人工智能其实还是一种蛮力计算,靠无数的计算资源解决一些问题,今天所有的技术都是开源的,开源的重要特征就是希望根据我的开源搞一套生态,这是高手的玩法,就是一开始就要玩生态,要玩生态必须开源,让大家跟着你一块走。我们今天说大数据,大数据是石油,石油在地球上存在多少万年了,为什么以前不是战略资源,现在才是战略资源,就跟数据一样,因为我们处理石油的成本降低了,经济上划算了,同样我们处理数据的成本降低了。另外我们在GPU等并行式计算硬件取得了巨大进步,但算力仍然是性能的限制性瓶颈,并且能够大幅提高算力的硅芯片已逼近物理和经济成本上的极限,摩尔定律即将失效,计算性能的增长曲线变得不可预测。
数据的处理仍落后
首先我们数据的透明度不够高,虽然深度学习方法是公开透明的,但是训练用的数据往往是不透明的,在利益方的诱导下容易出现数据改变信仰的情况。其次如果输入的数据细微抖动就可能导致算法的失效,如果发起对抗性样本攻击,系统很容易被“洗脑”瘫痪。最后深度学习需要海量的大数据,并且需要打上标签进行监督学习,而目前给海量的大数据都打上标签几乎不可能。
AI进步需要各方面大融合
目前AI取得的进步属于“连接主义学派”(基于神经生物学和认知科学)。在对智能的基本认知方面,缺乏与具有逻辑推理能力的“符号主义学派”(认为智能源于数理逻輯)等的融合能力。比如,还无法理解实体的概念,无法分析因果关系,无法识别关键影响因素,不会直接学习知识,不善于解决复杂数学运算,缺乏伦理道德等方面的常识等。
到2017年,机器学习的神经网络已具有数千到数百万个神经元和数百万个的连接。这样的复杂度还只相当于一个蠕虫的大脑,与有1000亿神经元和10000亿连接的人类大脑,差了N个数量级。但尽管如此,神经网络下围棋的能力已远高于一只蠕虫。与此同时,一只蠕虫所具有的自繁衍、捕食和躲避天敌等智能,无论是人类智能还是人工智能,都还望尘莫及。
人工智能的发展需要依托三大基础力量,新数据、新硬件、新算法。我们以前用CPU,后来有GPU,今天谷歌说我们需要给人工智能设计专用的硬件,所以硬件技术的进步使得它的算法或者能力提高了,当然算法的改进也是很重要的,但是所有的事情都是两面性的,进入深度的时候一定是把广度缩小了。
AI仍处于新一轮技术发展的初期,现在很多的突破并不是颠覆性的,是很稳定的一个增长,主要靠的是蛮力,今天如果你不说大数据,人工智能就是算法。
到2017年,机器学习的神经网络已经具有数千到数百万个神经元和数百万个链接,这样的复杂程度相当于一个蠕虫的大脑,为此大家很担心随着人工智能的发展其会不会控制人类,颠覆人类,但我认为是不会的。我们的IT行业有三个教父级的人物,我们今天使用的计算机是冯·诺依曼算法。比特的定义,是香农定义的,他说比特是剥离了语义的。有些事情,是不可计算,这是阿兰·图灵讲的,从三位教父的观点我们可以得出一个结论,我个人的观点是至少我们这一代的IT技术,基于我们这一代IT技术的人工智能是不可能超过人类的,人工智能只是我们的工具,我们需要新的技术理论,技术架构,技术突破,这一代的技术是往南走的,人工智能会往北走,走是可以走的,大家会非常累。(本文根据2017年8月13日何宝宏公开发表文章进行整理,有删节,未经本人确认。)