2019年人工智能新态势与新进展
2019-02-12孙哲南张兆翔王威刘菲谭铁牛
孙哲南,张兆翔,王威,刘菲,谭铁牛
1.中国科学院自动化研究所,智能感知与计算研究中心,北京 100190 2.中国科学院大学,人工智能学院,北京 100049 3.中国科学院脑科学与智能技术卓越创新中心,北京 100190
引言
当今人工智能的总体态势可以用“成熟+新芽”两个看似矛盾的关键词来概括和总结。一方面一大批基于深度学习的AI应用成功落地智慧城市、金融科技、智能医疗、智能手机等领域,“人工智能+”创新模式实现了大幅增长的产业规模,人工智能的热潮方兴未艾;另一方面2019世界人工智能大会上Gartner牵头发布的2019世界人工智能技术趋势分析报告暨人工智能技术成熟度曲线表明[1],相比2018年,2019年越来越多的人工智能技术处在创新触发阶段,反映出全球人工智能正不断涌现新创意,例如增强学习、人工智能云服务、边缘人工智能、可解释的人工智能等,《自然》杂志(Nature)和《科学》杂志(Science)等高水平学术刊物今年在人工智能领域发表了一批令人耳目一新的“新芽”成果。
1 人工智能技术红利期——瓜熟蒂落、水到渠成
人工智能的概念从1956年提出至今,在探寻智能本质和发展智能机器道路上历经坎坷和曲折,终于在花甲之年凭借深度神经网络在计算机视觉、语音识别、自然语言理解、人机博弈对抗等领域的成功应用迎来了技术红利期,因此可以用“瓜熟蒂落、水到渠成”来概括人工智能现阶段的秋收喜悦,具体体现在以下几方面。
1.1 一批人工智能龙头企业营收创新高,并进入上市筹备期
2019年旷视、云从、依图、云知声等人工智能独角兽企业都有报道计划在港交所、科创板等平台上市,从招股书看一些头部企业的年度营收额超过了10亿级规模并基本实现最新年度的盈亏平衡甚至开始盈利,标志着人工智能首次迈入“有利可图”的红利发展期。
1.2 人工智能创投更加理性,人工智能独角兽估值屡创新高
据统计从2018年至2019年5月,共有573家机构参与人工智能领域的投资,相比2018年的投资高峰期,2019年的人工智能投资更趋理性,投资频次和投资额度显著降低,并且投资向头部企业进一步聚集,这也是人工智能行业日趋成熟的标志。例如,商汤科技成为吸金能力最强的人工智能独角兽企业,2019年9月宣布完成30亿美元融资,总估值超70亿美元。
1.3 人工智能应用进入千家万户,融入社会大众工作生活的人工智能屡屡成为热门话题
2019年华为发布了具有“5G+人工智能”等特色功能的麒麟990芯片,几乎人手一部的智能手机成为老百姓体验人工智能的最佳渠道,充分享受刷脸解锁、摄像头心率感知、物体识别、计算摄影、三维场景测量、虚拟现实、增强现实等黑科技给工作和生活带来的便捷与安全。2019年华为算力最强AI芯片昇腾910商用,将为深度神经网络的高效计算和智能化应用提供技术支撑。随着人工智能在人们日常生活的广泛应用,不断产生热点话题,例如“ZAO”换脸演戏。
1.4 人工智能得到政府、产业和学界高度重视,人工智能高潮迭起不再是昙花一现
人工智能在60多年发展历程中多次经历高潮后的低谷,但是这次高峰期真的是“狼来了”,政府、产业和学术界都高度共识人工智能将会引领第四次产业革命。最近三年世界主要国家密集出台激励人工智能科技和产业发展的国家战略,2019年欧美日韩等发达国家和经济体进一步确认和完善人工智能发展规划并出台了一系列加速举措[2]:
(1)2019年美国进一步加码人工智能技术。总统特朗普在2019年的国情咨文演讲中强调了投资未来前沿产业的重要性。2月11日,美国国家科技政策办公室发布了由特朗普签署的《美国人工智能倡议》(American AI Initiative),同步发布的还有《加速美国在人工智能领域的领导地位》(Accelerating America's Leadership in Artificial Intelligence)等文件,美国将从资金投入、资源开放、标准制定、国际合作、人员培训等方面加强人工智能顶层设计,确保美国在人工智能和相关领域的领先地位。2019年6月,美国特朗普政府发布了《人工智能国家战略:2019年更新版》(The National Artificial Intelligence Research and Development Strategic Plan:2019 Update),其初版是在2016年由奥巴马政府发布,此版不仅对七个重点领域全面更新,并增加了第八项战略——扩大公私合作,加速人工智能的发展。从本次更新报告可以看出,美国政府对人工智能的重视程度和理解程度都有很大提升,人工智能重要的战略价值将在美国国家层面与社会层面凸显。
(2)2019年欧盟各国协同推进人工智能,同时强调技术研发和道德伦理规范。2月18日,欧盟理事会通过了《欧洲人工智能协调计划》(European Coordinated Plan on Artificial Intelligence),促进欧盟成员国在增加投资、数据供给、人才培养和确保信任等四个关键领域合作,使欧洲成为全球人工智能开发部署、伦理道德等领域的领导者。4 月欧盟委员会发布人工智能伦理准则,给出了“可信赖人工智能”的组成部分和关键条件,希望提升人们对人工智能技术产品的信任。2019年欧盟提出的“数字欧洲计划”(Digital Europe Programme),其中25亿欧元用于人工智能。
(3)2019年1月,韩国科学技术信息通信部发布了《数据与人工智能经济激活计划(2019—2023年)》报告,促进数据与人工智能的深度融合。2019年8月,日本政府的2020年度预算增加经费支持人工智能与机器人产业的发展。
(4)2019年我国党和政府对人工智能高度重视,5月习近平总书记写给国际人工智能与教育大会的贺信中指出,人工智能是引领新一轮科技革命和产业变革的重要驱动力,正深刻改变着人们的生产、生活、学习方式,推动人类社会迎来人机协同、跨界融合、共创分享的智能时代。把握全球人工智能发展态势,找准突破口和主攻方向,培养大批具有创新能力和合作精神的人工智能高端人才,是教育的重要使命。2019年人工智能连续第三年进入总理政府工作报告,2019年中央全面深化改革委员会第七次会议审议通过了《关于促进人工智能和实体经济深度融合的指导意见》。
2019在产业界人工智能持续升温。例如微软向OpenAI投资10亿美元研发通用人工智能,2019年财报表明Google将关键性、基础性、重点性投资继续放在人工智能领域,华为公司为2019届人工智能毕业生开出200万年薪成为年度热议话题。
在学术界人工智能相关会议吸引了大量研究人员,例如2019年CVPR和NeurIPS等人工智能学术会议参会人数屡创新高,AAAI2020投稿上万篇。
总之,人工智能技术真正到了可以用、可以开始真正解决经济社会问题的阶段,随着政产学研用资的协同创新和大力投入,“人工智能+”开始渐入佳境。
2 人工智能创新触发期——芽苞初放,生机勃勃
2019年以来科学家和企业家一直在探索人工智能的新方向、新突破和新应用。神经形态芯片、自动化机器学习、自适应机器学习、脑机接口、微型机器人、人机博弈对抗、对抗生成网络、可解释人工智能等新成果不断涌现。虽然有些新技术“小荷才露尖尖角”还不是很成熟,还达不到大规模商用,但是人们开始看到人工智能创新发展的新曙光,假以时日“百花齐放春满园”。2019年一些主要的人工智能技术创新梳理如下。
2.1 神经形态芯片
神经形态芯片采取与传统硬件完全不同的信息处理方式,通过模仿人脑构造来大幅提高计算机的思维能力与反应能力,能够大幅提升数据处理能力和机器学习能力。2019年7月,英特尔发布了“Pohoiki Beach”神经拟态系统[3],包含多达64颗Loihi研究芯片,800万个神经元,更加接近人脑的工作方式,其处理AI算法的能力,速度比普通CPU快1000倍,效率更是普通CPU的10000倍,是神经形态芯片的重大突破。8月,清华大学在《自然》以封面文章[4]发表首款异构融合类脑计算芯片——“天机芯”,它融合了类脑神经科学导向和基于机器学习的计算机科学导向,有多个高度可重构的功能性核,可以同时支持机器学习算法和类脑计算算法,并展示了可以语音识别、自平衡控制、探索跟踪、自动避障的无人自行车。如何借鉴人脑的高效性、多样性、自主性、自适应性,发展具有认知智能的神经形态芯片,大幅提高计算机的思维能力和反应能力,是解决当前AI发展瓶颈的重要路径。
2.2 脑机融合
人工智能(或机器智能)和人类智能各有所长,因此需要取长补短,融合多种智能模式的脑智融合技术将在未来有广阔的应用前景。脑智融合目标是要构建一个双向闭环的,既包含生物体、又包含人工智能电子组件的有机系统。脑智融合得到了美国脑计划、Facebook的“脑机语音文本界面”、Elon Musk的人脑芯片嵌入和脑机接口计划、加州理工陈天桥雒芊芊脑科学研究学院等政府、企业和个人的高度关注,在2019年取得了一批重要成果。
2019年7月,Elon Musk的脑机接口研究公司Neuralink发布“脑后插管”新技术[5],包括柔性的高密度电极和植入电极的机器人设备等创新突破,试图在人体植入脑机接口芯片。Neuralink在9月的旧金山宣布脑机接口系统已经在猴子身上进行实验,让猴子能用大脑来控制电脑,希望获美国FDA批准后将在2020年第二季度进行人体试验。
2019年4月,加州大学旧金山分校的华裔教授Edward Chang博士团队在《自然》发布文章,创造了更接近能够恢复说话功能的脑机接口[6],成功解码脑电波,AI直接从大脑中合成语音。该研究通过解码大脑活动提升语音的清晰度,使用深度学习方法直接从大脑信号中产生口语句子,达到150个单词,接近正常人水平。紧接着,2019年7月,Facebook与Edward Chang团队合作建成一个脑机接口,可以实时从大脑信号解码问答对话,发表在《自然通讯》[7]。这是全球首个实时解码大脑信号的问答语音的项目,或可用到增强现实眼镜中。
从脑机接口、脑机交互到脑机融合将是总体发展趋势,目前的工作才刚刚开始,Elon Musk的目标是脑机融合后的 AI 系统将以和人类的本能大脑与理性大脑同样的特性存在,人脑和计算机将融合无间,人类甚至无法察觉自己在运用 AI 思考,这将是脑智融合的长期战略性发展方向。
2.3 人机博弈
深度强化学习融合了深度学习在信息感知方面以及强化学习在策略选择方面的综合性优势,同时赋予智能体感知和决策能力,成为人机博弈的核心技术突破。从2016年AlphaGo和2017年AlphaGo Zero等成果以来,谷歌的DeepMind团队在深度强化学习以及围棋和游戏应用中取得重要进展,成为人工智能技术突破的标志性成果。对抗博弈根据参与人对其他参与人所掌握信息的了解程度可分为完全信息博弈(如象棋、围棋)和不完全信息博弈(如德州扑克、兵棋、星际争霸等战略游戏)。AlphaGo和AlphaGo Zero是人工智能在完全信息博弈上的胜利,而不完全信息博弈近期也取得显著进展。例如,中国科学院自动化研究所近两年在知识驱动型兵棋AI上取得重要进展,兵棋AI先知系统屡屡大比分战胜人类优秀选手。剑桥大学的报告《2019 AI发展》[8]介绍了增强学习技术已在多个游戏中取得大幅进步,包括《蒙特祖玛的复仇》、《星际争霸2》、《雷神之锤3》。2019年OpenAI 有了超过八倍的训练量,Dota项目已经相当于人类打了45000年的游戏,在超过7000场与人类对决的游戏中取得了99.4%的胜率。
中国科学院自动化研究所兴军亮研究员认为,相对于国际象棋、围棋等棋类游戏以及星际争霸、Dota 2等实时策略游戏,以德州扑克为代表的扑克游戏由于同时具备不完全信息动态决策、对手误导欺诈行为识别、以及多回合筹码和风险管理等特点,而备受人工智能研究者关注。2019年7月,《科学》杂志在线发表了图奥马斯·桑德赫尔教授团队的最新研究成果[9]:Superhuman AI for multiplayer poker,称之为Pluribus多人无限注德州扑克博弈算法,算法的核心是不使用人类数据或者经验,仅仅通过算法的自我博弈来不断学习和提升策略的胜率,在多人无限注德州扑克中战胜了人类专业选手。
对抗博弈(包括人—机、机—机博弈)的智能决策研究涉及不完全信息博弈、深度强化学习、多智能体协调优化等学科领域,是一个综合性、复杂性、挑战性很大的人工智能研究领域。在AlphaGo和德州扑克AI成功的基础上开展应用于对抗博弈和智能决策的深度强化学习方法、理论和应用,重点解决高动态、规则多维、小样本数据下的不完全信息博弈问题。将不完全信息动态博弈、多智能体协同优化和深度强化学习的策略优化结合,为复杂对抗博弈场景中的智能决策提供了可行的思路。
2.4 智能机器人
机器人在智能化时代配上感知和认知的翅膀焕发新生、大有可为。2019年初 Science Robotics就回顾了过去一年引人入胜的十大机器人技术[10]。新的一年机器人智能创新更上一层楼,从波士顿动力Atlas机器人跑酷过独木桥[11],到协同工作的粒子机器人[12]和弹力惊人的微型蚂蚁机器人[13],再到机器人带上触感手套盲眼识物[14],2019年我们看到了机器人在新形态、微型化、仿生化、自主化方向的重要进展。
见识了大型机器人的“力拔千钧”,人们开始希望机器人能够实现微型化,减小机器人体积,降低重量,提高智能化程度,从而适应多种可能的应用场景需求。
(1)2019年3月《自然》杂志封面发表仿生物细胞群体机器人—粒子机器人[12],从生物有机体和人体细胞获取灵感,结合了信息和力学两方面的智能,能够模拟生物细胞集体迁移,实现移动、搬运物体及向光刺激移动,这项工作由来自麻省理工学院(MIT)、哥伦比亚大学、康奈尔大学和哈佛大学等多所高校的研究人员合作完成。
(2)2019年7月的《自然》封面文章[15]介绍了哈佛大学研制的史上最轻自主飞行机器人RoboBeeX-Wing,仅259毫克,只需太阳能供电就能实现持续飞行。
(3)瑞士洛桑联邦理工学院(EPFL)在《自然》发表了重量仅 10 克的Tribots蚂蚁机器人[13],采用简单无绳的设计就可以像折纸一样“三足行走”,并且可以在复杂的环境中协同工作,让不同的微型机器人各司其职。
(4)MIT人工智能实验室利用人类触觉与经验(大数据)的结合,开发了一款多达548个传感器的触觉手套[14],并通过深度学习让智能手套学习人类方式通过触摸来识别物体。
2.5 自然语言理解
离散符号到连续向量的表示体系迁移是自然语言理解与机器翻译当前研究和应用的主流方法。传统基于离散符号表示的规则或统计方法面临语义鸿沟与数据稀疏问题,而基于连续向量表示的深度学习方法成功避免了这两个问题。因此,从自然语言的词法分析、句法分析、篇章分析到机器翻译,目前性能最好的方法无一例外都是基于连续向量的深度学习模型。尤其在大数据的驱动下,自然语言理解与机器翻译中的一些任务已经取得了突破性进展。
2018年10月的谷歌发布深度双向的BERT(Bidirectional Encoder Representations from Transformers)模型[16]是自然语言处理NLP领域的里程碑工作,在机器阅读理解全部两个衡量指标上全面超越人类,并且还在11种不同NLP测试中创出最佳成绩。
2019年6月,CMU与谷歌大脑提出的 XLNet[17]采用一种通用的自回归预训练方法,在20个任务上超过BERT,并在18个任务上取得当前最佳效果的表现。
2019年7月,Facebook对BERT进行优化,采取更久的训练时间、更多的数据、更强力调参,提出了加强版预训练模型RoBERTa(Robustly optimized BERT approach)[18],在GLUE、SQuAD和RACE三个排行榜上都取得了最优成绩。
2019年7月,百度发布了 ERNIE(Enhanced Representation through kNowledge IntEgration)2.0自然语言理解框架[19],是一种持续学习的语义理解预训练框架。ERNIE 2.0可以通过持续的多任务学习,逐步学习和建立预训练任务。这个中英文对话的 AI 框架不仅获得了最优的(SOTA)结果,并且在16个NLP任务中表现出优于BERT和XLNet的高水准。
虽然近两年BERT、XLNet和ERNIE在自然语言处理领域取得了重要进展并屡屡刷榜,基于大规模数据的无监督预训练在NLP领域实现了技术突破,然而大数据驱动的深度学习在自然语言处理领域仍然面临严重的挑战,主要包括:单一文本模态的信息缺失问题、稀缺资源下的自然语言理解与机器翻译问题、以及深度学习方法与经验知识的融合问题。面对第一个问题,一些研究者在探索多模态的自然语言理解技术,例如融合多模态的自动摘要以及多模态机器翻译技术。对于第二个问题,词法、句法、篇章分析与机器翻译都存在标注数据稀缺的问题,例如用于机器翻译的汉语和阿拉伯语之间双语对照训练数据非常匮乏,深度学习无用武之地。对此,学术前沿正在研究基于无标注数据的弱监督方法。针对最后一个问题,学者们已经开始探讨擅长计算的连续系统和擅长逻辑推理的符号系统之间的有机融合技术。总之,多模态融合、弱监督无监督学习以及符号系统与连续系统的结合是自然语言处理和机器翻译的研究趋势。
3 计算机视觉技术主要进展
“百闻不如一见”,计算机视觉是机器智能的主要场景感知能力,也是近些年来深度神经网络取得成功应用和商业化落地的重要领域,因此单列一章对最近几年的计算机视觉技术进展进行综述。由于计算机视觉与模式识别在深度学习时代紧密结合,很难剥离模式识别单独介绍计算机视觉技术,因此本章也涉及模式识别的一些重要技术进展。
3.1 技术进展概况
我们看到,数据(互联网、物联网、广电网泛在的视觉大数据)、算法(深度神经网络、生成对抗网络等模型)和算力(GPU服务器)等基础条件的万事俱备发展推动了人脸识别、物体检测、图像分割、目标分类、视频结构化、场景建模等计算机视觉技术和应用近些年取得突破性进展,机器视觉能力已经在大量单项视觉任务中超过人类视觉精度水平。
随着深度学习时代的到来,计算机视觉从底层、中层,到高层都有了显著进展,底层视觉任务边缘检测已经在经典BSD数据集上达到甚至超越了人类水平[20],全卷积神经网络开启了中层视觉任务图像分割的快速发展时期[21],在无人驾驶的道路分析等应用中发挥了极为重要的作用,典型高层视觉任务目标识别与检测在ResNet、R-CNN等深度模型的推动下实现了全面突破[22-23],视觉场景中除了对单目标的检测与识别,还需要更深入地对目标之间的关系进行推理,进而提出视觉关系检测与识别[24]。二维图像理解的成功很快扩展到两类三维数据中,第一类是增加时间维度的时序视频理解,行为识别与定位作为典型时序视觉任务在双流网络、递归网络和图网络的推动下性能得到极大提升[25-27],第二类是增加景深维度的三维点云分析与理解,专为稀疏、不规则分布三维点云分析的深度模型广泛应用在点云数据的目标检测、识别、分割等任务中[28]。除了从维度上突破计算机视觉任务,从单模态扩展到包括视觉、语言、语音、触觉等多模态数据的理解是当前的热点也是未来的趋势,基于注意和记忆认知建模的视觉语言描述、视觉语言问答构建了视觉和语言之间的桥梁[29-30],语音、触觉与视觉的协同感知研究工作开始增多[31-32],进一步扩展机器感知通道。如果说此前的视觉研究和任务大都集中在“静态的、无交互的”被动感知层面,那么引入导航、操作等一系列与机器人相关的任务则是“动态的、环境交互的”主动具身视觉(embodied vision)认知,在一系列虚拟环境中构建基于视觉、语言的导航、问答、技能学习等任务,并进行数据采集和模型评测[33-34]。在解决一系列视觉任务过程中,也遇到了和其他领域类似的问题:小样本、零样本、样本不均衡学习,学习遗忘灾难、终生学习、迁移学习,以及更加有效的评估方法(包括视觉图灵测试)。这些都是目前计算机视觉领域面临的严重挑战,同时也是突破当前“大数据、小任务”视觉范式的难得机会。
3.2 基于生成对抗网络的计算机视觉
生成对抗网络(Generative Adversarial Networks,GAN)近些年来成为计算机视觉领域的热门方向,GAN 由Ian GoodFellow于2014年所提出[35]。生成对抗网络是一个典型的无监督式学习方法,通过两个神经网络,即生成网络和判别网络,互相博弈的方式进行学习。生成对抗网络最明显的优势在于可以生成以假乱真的图片,是目前所公认的合成图片质量最高的生成方法。近些年来,一系列的扩展工作把生成对抗网络应用到半监督学习[36]、全监督学习[37]、强化学习[38]等领域;很多后续工作在理论上对模型进行优化,例如针对模型坍塌问题,Arjovsky等人提出了Wasserstein度量下的 GAN[39],Zhao等人提出了基于能量函数的GAN[40];此外,生成对抗网络的条件化[37]、循环一致损失[41]的加入等普适性的改进更进一步提升了生成结果的多样性和真实性。对生成对抗网络的有效评估也是当前研究的热点方向之一。当今主流方法是对生成样本与真实样本提取特征,然后在特征空间做距离度量,Inception Score[36]、Fréchet Inception Distance[42]是最为常见的评价方法。目前生成对抗网络的评估依然是一个开放性的问题。
生成对抗网络的提出极大地促进了计算机视觉领域的发展,尤其是图像和视频生成相关的任务。在图像超分辨率、图像风格转换、人脸属性转换、人像编辑等具体的任务上,当前的最好方法都是基于生成对抗网络的思想来设计模型;除此之外,在医学图像分割、域适应、数据扩展等领域,生成对抗网络也占有一席之地并有效地推动了这些领域的发展。在当前阶段,一方面针对具体问题所设计的生成对抗网络在不断地推陈出新,另一方面,生成对抗网络的发展也让解决更多从实际场景中而来的生成任务成为可能。
我们团队在基于GAN的人脸图像编辑领域取得一系列研究成果。我们提出了自省生成对抗式变分网络[43-44],对生成模型进行了理论上的革新,显著地提升了生成图片的质量和分辨率,更有效地防止模型坍塌;提出了高保真的姿态不变人脸转正模型[45-46],以一种新颖的稠密关联场结合了经典的3D人脸建模理论和生成对抗网络理论,有效地提升了姿态不变人脸识别系统的性能;基于小波域对抗学习的视觉超分辨率网络[47]有效地提升了在大超分倍数下的性能;人脸属性保持的小波域老化模型[48]让神经网络可以逼真地模拟出人脸数十年后的样子。
3.3 基于类脑智能的计算机视觉
计算机视觉的多次发展与突破均与脑智能的启发密切相关。目前,类脑智能在神经元、神经环路、功能认知以及学习层面上都有了显著进展。在神经元层面,受神经元噪声启发,Dropout策略[49]通过将一定比例神经元的激活值置为0,极大地提升了神经网络的鲁棒性;Random shifting[50]通过在神经元感受野中增加随机性,促使网络性能得到较大提升。受大脑中单个神经元可表征物体多属性能力启发,CapsuleNet[51]将神经网络的研究推向了一个新的时代,神经元的向量输入输出均被替换为可表征多属性的矢量形式;同时期,受生物体中多种神经元类型启发,研究者提出兴奋性和抑制性神经元[52],显著地提升了网络激活函数的多样性并增强了网络性能。受V1层神经元可自适应矫正颜色变化功能启发[53-55],颜色常量模型被提出且在对应任务上取得了良好的性能。受神经元可检测多尺度物体的启发,研究者提出的TridentNet网络通过在同层采用不同尺寸感受野的方式有效解决了物体检测中的不同尺度问题[56]。在神经环路层面,模拟神经环路前向连接的前向神经网络(包括浅层的HMAX[57],VisNet[58],LeNet[59],以及深层的 AlexNet[60],VGG[61],GoogleNet[62]等)在各种计算机视觉任务上取得了逐渐提升甚至超越人类的性能;模拟神经环路反向连接的计算视觉模型[63],可结合网络中自顶向下的注意信息,有效检测图像的显著性区域。模拟神经环路侧向连接的递归皮层网络[64],可有效结合网络中的同层信息并在验证码识别任务上取得了突破性的进展;递归神经网络[65]通过结合网络中的同层知识,具有了感知上下文信息的能力。在认知功能层面,大脑中注意机制的引入使网络可逐步准确聚焦需要检测的物体[66-67]。大脑中多任务机制的引入使网络可同时处理若干种相关的但目标不同的任务,比如根据同一张人脸同时执行性别、年龄和种族识别的不同任务,或其他不同类型的任务[68]。大脑中多模态融合及联想机制的引入使网络具有了视觉模态、听觉模态和自然语言模态多模态协同感知的能力,在视频描述生成与跨模态生成任务上取得了理想的性能[69-70]。受大脑视觉通路包含腹侧和背侧双通路机制的启发,在行为识别任务中引入表观和运动双通路模型并与注意机制相结合,获得了突破性的进展[71]。在学习层面,将大脑中原型学习[72]、迁移学习[73]、连续学习[74-76]、概念学习[77]引入到神经网络中,使其具有了相应的能力。
尽管目前我们在模拟脑智能层面已经取得了显著成就,但受限于对脑智能的认知,类脑智能仍面临一系列的挑战。(1)建立视觉处理和运动生成为一体的主动视觉系统。目前大部分的脑智能理解只从视觉通路寻求借鉴,但大脑中视觉处理和运动生成是不可分割的。因此,我们应该考虑分层预测编码,将运动行为视为比较传入的感觉信息与内部生成模型的方法[78]。这在计算机视觉中尚未经过测试和模型化,但对于主动视觉领域是一个非常好的借鉴。(2)建立可变性和不可变性相结合的多网络方法和理论。目前普遍的认知是网络的高层具有不变性。但最近的工作发现,低水平的视力信息实际上保存在猕猴视觉皮层(V4)中间层的神经元簇中[79]。这支持了一种日渐成熟的认知,即不变性并不总是必需的,大脑更高层次复杂场景的表示保留了低层次的感觉信息[80-81]。随着计算机视觉需要从分类检测转向更精细的类内识别,在多网络中结合可变性和不变性信息将是未来研究的一个有趣的方向。(3)建立动态内部生成认知模型。在标准的人工神经网络架构中,任何层中的大多数/所有连接都来自上一层。然而,在灵长类动物初级视觉皮层中,只有0.2%的连接神经元来自前一层(丘脑的外侧膝状核)[82]。反向,横向(以及额外的高阶丘脑核)连接在前向连接中占主导地位,但是只少数人工视觉系统包含这些连接[83-84]。我们在fMRI的广泛研究中了解到,底层视觉皮层存在广泛的高层认知功能调节[85-89]。这自然会导致一种观念,即低层信息应该以某种方式与更高层次的表征相关联[90]。更广泛的概念是内部生成认知模型,即基于行为预测和运动输出知识都可在动态系统中调整传入的视觉信息。
3.4 主要挑战和发展方向
尽管计算机视觉随着深度学习浪潮取得了显著进展,但是由于深度学习自身的局限性、以及视觉问题本身的复杂性,计算机视觉也遇到一系列的挑战。(1)建立具有可解释性的计算机视觉模型与系统。当前视觉领域的突破更多是在大规模数据的基础上建立数据关联的结果,也是借用了深度学习这一套强关联分析工具的结果,关联不是视觉的本质、也不是理解的本质,正如图灵奖获得者Judea Pearl所说,关联或者相关性分析只是智能的第一步,能够实施变量干预分析、反事实因果推断是走向真正智能的关键。(2)建立基于小样本学习和知识推理的具有外推泛化性的视觉方法和理论。当前基于大规模数据的视觉系统显然和人眼视觉系统在感知、认知层面上都有很大差别,现有系统在大量数据中依靠关联分析提取了零零碎碎的诸多变量,而人眼视觉系统只需要少量样本就能准确提取目标对象的关键变量(或者叫概念),这些关键变量没有知识引导是无法简单地从大数据中学习得到。此外,目前的视觉系统只能解决独立同分布问题,很难外推到分布之外的情况,基于知识学习和推理有望解决这一问题。(3)建立视觉、语言、认知、机器人等多领域协同理解的新任务。传统视觉“小任务”取得重大进展后,我们需要扩展并提出新的视觉“大任务”,所谓的视觉大任务不是孤立于其他感知、认知功能而独立存在的,挑战人类智能的现实任务往往都是需要视觉、语言、操作、交互等各种功能协同工作的聚合体。
4 结束语
人工智能经过60多年的发展,进入了创新突破的战略机遇期和产业应用的红利收获期,学术繁荣和产业繁荣同步前行、互相促进,共同推动人类文明进入智能社会新时代。但是,我们需要清醒看到通用人工智能及人工智能的整体发展仍处于初级阶段,必须采取理性务实的发展路径,扎实推进基础研究、技术生态、人才培养、法律规范等方面的工作,让人工智能更好地赋能新时代。
致谢
感谢张家俊、赵冬斌、曹杰、公瑾提供人工智能专业领域的素材。
利益冲突声明
所有作者声明不存在利益冲突关系。