APP下载

智能化时代的四核驱动力

2015-10-31刘兴亮

中国传媒科技 2015年9期
关键词:机器深度传感器

文|刘兴亮

智能化时代的四核驱动力

文|刘兴亮

导语:人工智能的发展有4个必要条件,它们是移动网络的发展和传感器的普遍使用、云计算使低成本大规模并行计算成为现实、机器学习尤其是深度学习技术不断进步、大数据的发展。

刘兴亮DCCI互联网研究院院长

仿佛一夜之间,人工智能成为一个火热的话题。乐观主义者指出,社会的趋势必将从万物互联走向万物智能,也就是踏入智能化的时代。从种种迹象看来,人工智能的广泛应用可能会提前,智能化时代来临的轰鸣声会越来越强。为什么这么说?因为人工智能的发展有4个必要条件,它们是移动网络的发展和传感器的普遍使用、云计算使低成本大规模并行计算成为现实、机器学习尤其是深度学习技术不断进入、大数据的发展。而上述4个领域已经在近年有了突飞猛进的发展,它们像四核驱动力一样,驱动着智能化时代的快速来临。

移动网络的发展和传感器的普遍使用

Talking Data发布的《2014移动互联网数据报告》显示,2014年我国移动互联网产业发展迅猛,移动智能终端设备数已达10.6亿个,较2013年增长231.7%。全国各地的“移动侠”有着不同的生活习性,但他们的手机里平均安装着34款App。

而易观国际的数据则显示,2014年中国移动互联网用户规模约7.29亿,较2013年增长11.8%。未来几年,移动互联网用户规模将继续保持增长态势,但增速将进一步放缓。从PC互联网到移动互联网,再到物联网,人与人、人与物之间的联系更加紧密了。

与此同时,传感器技术与产品的发展也有了长足的进步。20世纪90年代初,传感器变得价格低廉且功能强大,这使工程师们开始相信传感器可应用的空间和途径几乎是无限的。来自麻省理工学院的技术倡导者凯文·阿斯顿提出了物联网这一概念,无生命物体可以通过全球网状网络与人或者其他无生命体进行交流。如今传感器已经遍布世界的各个角落,它们不仅能帮助矿工监测矿井内是否有毒气,也能帮助人们了解自己的身体是否有异常变化。

2007年1月,史蒂夫·乔布斯推出苹果手机,作为首款成功配备触摸屏的移动设备,它包含微小的传感器,使用户可以向水平方向或垂直方向旋转屏幕,搜寻wifi信号或者与蓝牙耳机相连。该手机甚至还配有一个加速度传感器,用于在手机掉落时提供保护。到了现在,每台智能手机已平均配有7个传感器。

云计算使低成本大规模并行计算成为现实

冯·诺依曼体系的串行结构使得计算机无法满足人工智能对硬件的要求,而近年来云计算的出现至少部分解决了这个问题。从概念上讲,可把云计算看成是“存储云+计算云”的有机结合,即“云计算=存储云+计算云”。存储云的基础技术是分布存储,而计算云的基础技术正是并行计算:将大型计算任务拆分,然后再派发到云中的各个节点进行分布式计算,最终再将结果收集后统一处理。大规模并行计算能力的提高使得人工智能往前迈进了一大步。

云计算的实质是一种基础架构管理的方法论,是把大量的计算资源组成IT资源池,用于动态创建高度虚拟化的资源供用户使用。在云计算环境下,所有的计算资源都能够动态地从硬件基础架构上增减,以适应工作任务的需求。云计算基础架构的本质是通过整合、共享和动态的硬件设备供应来实现IT投资的利用率最大化。这就使得使用云计算的单位成本大大降低,非常有利于人工智能的商业化运营。

值得特别指出的是,近来基于GPU(图形处理器)的云计算异军突起,以远超CPU的并行计算能力获得业界瞩目。

CPU的架构是有利于X86指令集的串行架构,从设计思路上适合尽可能快的完成一个任务;对于GPU来说,它最初的任务是在屏幕上合成显示数百万个像素的图像——也就是同时拥有几百万个任务需要并行处理,因此GPU被设计成可并行处理很多任务,天然具备了执行大规模并行计算的优势。

现在不仅谷歌、Netflix用GPU来搭建人工智能的神经网络,Facebook、Amazon、Salesforce都拥有了基于GPU的云计算能力,国内的科大讯飞也采用了GPU集群支持自己的语音识别技术。GPU的这一优势被发现后,迅速承载起比之前的图形处理更重要的使命:被用于人工智能的神经网络,使得神经网络能容纳上亿个节点间的连接。传统的CPU集群需要数周才能计算出拥有1亿节点的神经网的级联可能性,而一个GPU集群在一天内就可完成同一任务,效率得到了极大的提升。另外,大规模生产带来了GPU价格下降,使其更能得到广泛的商业化应用。

机器学习尤其是深度学习技术不断进步

机器学习是人工智能的核心和基础,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。该领域的顶级专家Alpaydin先生如此定义:“机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。”

最近几年,新算法的发展极大提高了机器学习的能力。这些算法本身很重要,同时也是其他技术的推动者,比如计算机视觉。机器学习算法目前被开源使用,这种情形将促成更大进步,因为在开源环境下开发人员可以补足和增强彼此的工作。

在各种机器学习技术中,深度学习的发展尤其迅猛。深度学习的“技术路线”是模拟人类大脑神经网络的工作原理,将输出的信号通过多层处理,将底层特征抽象为高层类别,它的目标是更有效率、更精确地处理信息。深度学习自2006年由Geoffrey Hinton教授和他的两个学生提出后,使得机器学习有了突破性的进展,极大地推动了人工智能水平的提升。2013年,《麻省理工技术评论》把它列入年度十大技术突破之一。

人脑具有一个深度结构,认知过程是逐步进行,逐层抽象的,能够层次化地组织思想和概念。深度学习之所以有如此大的作用,正是因为它较好地模拟了人脑这种“分层”和“抽象”的认知和思考方式。

深度学习的实质是通过构建具有很多隐层的机器学习模型和海量的训练数据,来学习更有用的特征,从而最终提升分类或预测的准确性。因此,“深度模型”是手段,“特征学习”是目的。区别于传统的浅层学习,深度学习的不同在于:(1)强调了模型结构的深度,通常有5层、6层,甚至10多层的隐层节点;(2)明确突出了特征学习的重要性,也就是说,通过逐层特征变换,将样本在原空间的特征表示变换到一个新特征空间,从而使分类或预测更加容易。与人工规则构造特征的方法相比,利用大数据来学习特征,更能够刻画数据的丰富内在信息。

深度学习使得人工智能在几个主要领域都获得了突破性进展——在语音识别领域,深度学习用深层模型替换声学模型中的混合高斯模型(Gaussian Mixture Model, GMM),获得了相对30%左右的错误率降低;在图像识别领域,通过构造深度卷积神经网络(CNN),将Top5错误率由26%大幅降低至15%,又通过加大加深网络结构,进一步降低到11%;在自然语言处理领域,深度学习基本获得了与其他方法水平相当的结果,但可以免去繁琐的特征提取步骤。可以说到目前为止,深度学习是最接近人类大脑的智能学习方法。

深层模型是包含多个隐藏层的人工神经网络,多层非线性结构使其具备强大的特征表达能力和对复杂任务的建模能力。训练深层模型是长期以来的难题,近年来以层次化、逐层初始化为代表的一系列方法的提出给训练深层模型带来了希望,并在多个应用领域获得了成功。深层模型的并行化框架和训练加速方法是深度学习走向实用的重要基石,已有多个针对不同深度模型的开源实现,谷歌、脸谱、百度、腾讯等公司也实现了各自的并行化框架。

深度学习引爆了一场革命,将人工智能带上了一个新的台阶,将对一大批产品和服务产生深远影响。

大数据的发展

过去机器学习的研究重点一直放在算法的改进上,但最近的研究表明,采用更大容量数据集进行训练带来的人工智能提升,已超过选用算法带来的提升。举两个实例说明:1. 在语义识别方面,一个普通算法使用1亿个单词的未标注训练数据,会好过最有名的算法使用100万个单词;2. 将照片中的马赛克区域用与背景相匹配的某些东西来填补,从一组照片中搜索填补物的话,如果只用1万张照片,则效果很差,如果照片数量增加到200万张,同样的算法会表现出极好的性能。

换言之,大数据让机器不断学习成为可能,机器开始拟人化。

早在1980年,著名未来学家阿尔文·托夫勒便在《第三次浪潮》一书中将大数据热情地赞颂为“第三次浪潮的华彩乐章”。不过,大约从2009年开始,大数据才成为互联网信息技术行业的流行词汇,进而成为一个产业,甚至是一个时代,即所谓DT时代。其诱因是互联网产业的迅猛发展。根据IDC的监测统计,2011年全球数据总量已经达到1.8ZB(1ZB等于1万亿GB,1.8ZB也就相当于18亿个1TB的移动硬盘,人均200GB, 这些信息的量相当于可以填充572亿个32GB的iPad),而这个数值还在以每两年翻一番的速度增长,预计到2020年全球将总共拥有35ZB的数据量,增长近20倍。

美国互联网数据中心指出,互联网上的数据每年将增长50%,而世界上90%以上的数据是最近几年才产生的。此外,数据又并非单纯指人们在互联网上发布的信息,全世界的工业设备、汽车、电表上有着无数的数码传感器,随时测量和传递着有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化,也产生了海量的数据信息。因此除了互联网,大数据的爆发很大程度上源于传感器技术和产品的突飞猛进。人类在制造数据和搜集数据的量级和速度上将呈现几何级数的爆发式增长!

未来,随着互联网应用的进一步扩展以及传感器不断融入人类生活工作的方方面面,数据产生、搜集的速度和量级将不断加速,人工智能的进化速度也将加快。

猜你喜欢

机器深度传感器
机器狗
机器狗
康奈尔大学制造出可拉伸传感器
深度理解一元一次方程
简述传感器在物联网中的应用
“传感器新闻”会带来什么
跟踪导练(三)2
深度观察
深度观察
未来机器城