人工智能及智能化影像之技术与应用
2019-03-25张树武
张树武
近年来,人工智能已成为信息技术及应用领域最热门的名词。那么,如何定义人工智能?作为文化领域智能化技术的主要代表——智能化影像又有哪些特征?笔者将结合我国新一代人工智能发展规划,简要剖析人工智能的内涵和发展现状,并解析智能化影像技术的主要应用方向。
1 人工智能国家发展战略
2017年7月8日,经中央政治局常委会、国务院常务会议审议通过,国务院印发《新一代人工智能发展规划》(国发〔2017〕35号)。《规划》指出:“当前,世界主要发达国家把发展人工智能作为提升国家竞争力、维护国家安全的重大战略,人工智能作为新一轮产业变革的核心驱动力,已经成为国际科技竞争的新焦点,是未来经济发展的新引擎”。
《规划》描绘了未来十几年我国人工智能发展的蓝图,确立了“三步走”目标:到2020年人工智能总体技术和应用与世界先进水平同步;到2025年人工智能基础理论实现重大突破、技术与应用部分达到世界领先水平;到2030年人工智能理论、技术与应用总体达到世界领先水平,成为世界主要人工智能创新中心。
《规划》提出6个方面重点任务:一是构建开放协同的人工智能科技创新体系,从前沿基础理论、关键共性技术、创新平台、高端人才队伍等方面强化部署;二是培育高端高效的智能经济,发展人工智能新兴产业,推进产业智能化升级,打造人工智能创新高地;三是建设安全便捷的智能社会,发展高效智能服务,提高社会治理智能化水平,利用人工智能提升公共安全保障能力,促进社会交往的共享互信;四是加强人工智能领域军民融合,促进人工智能技术军民双向转化、军民创新资源共建共享;五是构建泛在安全高效的智能化基礎设施体系,加强网络、大数据、高效能计算等基础设施的建设升级;六是前瞻布局重大科技项目,针对新一代人工智能特有的重大基础理论和共性关键技术瓶颈,加强整体统筹,形成以新一代人工智能重大科技项目为核心、统筹当前和未来研发任务布局的人工智能项目群。
围绕《规划》的总体部署,各部门和地方正在加紧贯彻落实相关政策措施,加快部署相关方向发展计划,抢占人工智能发展的先机和制高点。
2 理解人工智能内涵
所谓人工智能,就是使机器能够模拟、延伸和扩展类人智能的理论、方法、技术及应用系统。归纳下来,它主要包括三方面的内容。首先是对人及动物组织机理的研究,主要剖析活体动物的大脑功能组织机制及肢体运动结构。二是认知智能,即分析脑及肢体活动内在规律及物理原理,建立类脑的思维组织与理解模型及肢体运动仿生模型,这包括了思维科学、认知学、语言学、心理学及仿生学等多个门类及跨学科的研究。三是感知智能,与认知智能相对应,感知智能主要从脑及肢体活动外在表现来识别、计算和模拟仿真人类的智能,主要采用的是统计和模式学习的计算方法,并不要求一定具有物理意义上的原理解释。
随着计算机处理能力的快速增长和感知智能技术的重大突破,机器与人类比较,在计算和分析处理海量数据的效率优势日益明显,在某些方面超越了类人智能,逐步形成了特有的机器智能。人工智能的外延逐步扩大,从单一的模拟类人智能延伸、扩展,形成了人机混合智能。另一方面,从脑思维活动和肢体运动两种不同的智能模拟形态也衍生形成了智能计算和智能机器人两个学术研究门类。
因此,综合来讲,所谓的“智能”就是使机器有实时识别和判断的能力,有自适应决策和行动的机制(图1)。
3 人工智能发展现状与趋势
自1956年“人工智能”概念提出以来,人工智能发展经历了60余年的曲折发展历程。到目前其发展状况可以概括为如下四点。
3.1 脑功能组织机理研究尚处于理论探索阶段
脑神经组织机理研究是利用各种成像技术及电生理技术在宏观、介观及微观尺度上建立人脑和动物脑的脑区、神经元群或神经元之间的连接图(脑网络),在此基础上研究脑网络拓扑结构、脑网络的动力学属性、脑功能及功能异常的脑网络表征、脑网络的遗传基础,并对脑网络进行建模和仿真,以及实现这些目标所要的超级计算平台(图2)。
3.2 认知智能逐步被发现和应用
从人类的语言组织、视听认知及表达、思维推理及记忆等方面,研究自然语言结构化分析、人的视觉注意机制、听觉及发音机理、自主学习记忆及知识推理等理论与方法,构建以自主学习为核心的多脑区协同认知脑计算模型,使机器具备人脑的多种认知能力及其协同机制(图3)。
同时,模拟人及动物运动机理的仿生运动学研究取得一定突破,智能机器人成为仿生运动学研究及应用的重要载体。国内外科学家都在探索不同于螺旋桨推进的其他高效率、机动灵活的水下推进方式。“仿生机器鱼”(图4)作为鱼类推进机理和机器人技术的结合点,为研制新型的水下航行器提供了一种新思路。
日本的机械臂(图5)采用了“生物混合(biohybrid)”设计,模拟人类手指的结构和功能,用两组大鼠肌肉来控制机械臂关节。而且,这个使用了活体肌肉的机械指,还能相互协作,提起重量更大的东西。
3.3 以统计模式学习为代表的感知智能取得重要突破,成为人工智能应用创新的理论基础
统计模式学习通过基于海量计算的数值模拟逼近、概率判定和自适应学习不断修正和改善感知智能模型,随着深度神经网络学习算法的重要突破,其对视音频及语言的识别与认识性能取得大幅提高,不断逼近到类人的感知程度,而被产业界逐步认可、接受和应用。
深度神经网络与强化学习的结合,能够使得AlphaGo超过人类顶尖棋手,进一步通过强化学习,AlphaZero可以不依赖人类知识无师自通,使机器自主智能超越单纯的类人智能。
生成对抗学习(GAN)基本思想源自博弈论的二人零和博弈,分别构建模式识别生成器和判别器,通过相互博弈优化生成器和判别器,通过对抗式训练增强了协同判别能力。
3.4 类脑与计算感知混合的机器自主智能将成为未来“智慧社会”的主要源泉
借助信息技术的飞速发展,人类社会已从单纯的现实社会过渡为数字化社会,进而发展到现在的信息化社会。随着类脑与计算感知混合的机器自主智能的飞速发展,AI向社会各行各业快速渗透融合,进而重塑整个社会的发展。人类社会在不久的将来将进入超越人类智慧的人机混合和虚实结合的“智慧化社会”。
事实上,AI热的再次兴起与以云计算、大数据、物联网、5G为代表的现代信息技术快速发展密不可分,它是未来信息技术发展的核心突破点。可以说,“新一代人工智能”是以现代信息技术为基础,面向未来智慧化社会构建的技术应用综合集成体(图6)。
总体来讲,当前人工智能理论与技术发展迅猛,无论是基础理论创新、关键技术突破,还是规模产业应用,都取得了丰硕的成果。人工智能因其广阔的应用前景和重大的战略意义,近年来日益得到社会各界的高度关注。但真正的理论突破尚未到来,产业应用尚处在初级阶段,仍存在诸多瓶颈、盲区和局限。路漫漫其修远兮!
4 解析智能化影像
这里所讲的智能化影像(Visual Entertainment)是指将计算机图形学、计算视觉、虚拟现实、三维数字化、媒体大数据等具有变革性的人工智能新技术综合应用于影视、演艺等文化娱乐领域,为新时期文化创新发展提供源泉和动力,提升文化的创作力、表现力、感染力和传播力。事实上,文化娱乐是当前人工智能技术最具代表性的应用领域之一。智能化影像涉及到人工智能诸多应用技术,结合文化娱乐实际应用场景,智能化影像具體表现可归纳为创作流程可视化、内容展现沉浸化、网络传播透明化和技术装备智能化四个方面。
4.1 创作流程可视化
智能化技术使文化娱乐产品的创作和制作流程发生了革命性变革,通过可视化交互技术,大大提高了文化创作的效率和质量、降低了制作成本(图7)。
《鼠胆英雄》电影全篇预演
北京电影学院未来影像高精尖创新中心(AICFVE)采用大规模、大范围外景的快速获取与资产生成、多人VR协同创意环境与交互、多人光混动捕混合现实、数字排演、演出场景建模与设备参数仿真等智能化虚拟预演技术为电影《鼠胆英雄》进行了全篇预演(图8),提升了电影制作的效率和质量。
2018 平昌冬奥会“北京8分钟”
北京电影学院和北京理工大学团队合作承担2018平昌冬奥会“北京8分钟”彩排技术支持工作,在参与表演创意设计和彩排的8个多月的过程中,针对“8分钟”表演参演要素多、创意过程复杂、排练关联度高的特点,利用影视虚拟制作技术和数字表演与仿真技术,专门研发了《创意设计全景虚拟仿真系统》和《训练彩排与数字验证系统》,保证了前期创意设计与现场排练工作的顺利进行(图9)。
歌剧《马克·波罗》
“丝绸之路国际剧院联盟”原创歌剧《马可·波罗》,主要用到了预演和自动跟踪两大功能(图10),可以在预演里进行虚拟与实际舞台1:1比例搭建和舞台整体效果演示,同时可以根据剧本进行场景变化预览走位、素材视觉预览编排、流程走台编排、实时预览编程等,极大地方便了国际合作团队的异地工作,加深了国际艺术交流和技术合作;也简化了舞台上的工作,缩短了装台合成时间,提高了舞台利用率和整体工作效率。
4.2 内容展现沉浸化
邓丽君全息真人秀
日本综艺《金sma》去年的一期节目中,利用3D投影技术“复活”了邓丽君,并献唱了一首《我只在乎你》的日文版《时の流れに身をまかせ》。一首歌结束后,“邓丽君”消失。尽管在电视播出中增加了后期编辑合成技术处理,但其不同角度的逼真效果仍为人称道(图11)。
MSG Sphere未来体验中心
MSG Sphere作为麦迪逊广场花园的增强型沉浸式体验中心,正在试图打造成为下一代演出场馆。其最大的特色是拥有一块约15 000 m2的球形LED,能够提供极为沉浸的视听体验。从外表来看,它采用球体设计,球体外表面拥有LED屏幕,能够在不同的场景活动中显示不同的画面。而在其内部则拥有一块约15 793 m2的LED屏幕。据介绍,MSG计划采用10台8K摄像机来捕获360°全景视频,以此获得更高清的画面。Sphere内部还采用了一套自适应声学系统,其特点是能够把声音传递至指定的区域,并且也能够将声音以均匀的音量从舞台扩展出去,不会受到场馆内人员的影响,人们总是能够听到更清晰的、高保真的声音。此外,场馆内部还具有基于气味的嗅觉系统和具有物理触觉的地板反馈系统,以此来进一步提升沉浸感(图12)。
上海迪士尼4D影像超感官互动体验 (图13)
4.3 网络传播透明化
侵权盗版是影响文化内容产品网络化传播的最严重问题之一。数字版权水印标识技术可实现文化内容作品网络化传播全过程透明化追踪,媒体指纹技术和版权大数据分析有助于网络侵权的鉴别和取证。中国科学院自动化研究所开发的全媒体版权监测平台可实现包括音、视、图、文等媒体类型作品在各类网络平台上的多维度全时段监测(图14),可保障内容作品在授权、使用、传播各途径的版权价值最大化。该平台已应用于腾讯企鹅号以及国内多家地方卫视和影视公司的热门综艺视频版权监测。
4.4 技术装备智能化
歌剧《马克.波罗》
歌剧《马可·波罗》的舞美设计方案出自于英国“设计大牛”卢克·霍尔斯,最大的设计亮点就是旋转舞台(图15),他表示旋转的舞台象征着“文明的进程”与“文化的交融”。该剧将视频技术与机械运动有机结合,这个系统的特点就是能同时控制灯光、投影画面、舞台转盘等多个技术模块。
灯光追踪(ClayPaky)
在2018德国法兰克福国际舞台灯光及音响技术展览会上,ClayPaky展出了一款ZAC-EYE离线追光灯产品。Zac-Eye的3D传感器可以检测舞台上的多个人形,并将其区分开(图16)。演员可以在场景中自由移动,并被3D传感器检测到,连接的灯具进行实时跟踪,可以完全替代追光师的手工操作。视觉跟踪是计算视觉领域的一项基础研究,已经具有了较成熟的算法,但在舞台智能化装备中还是刚刚开始应用。相信未来会有更多的智能化技术应用在舞台装备中,提升舞台装备的自动化和智能化水平。
此外,还有像生物特征识别、语音控制、语言分析、智能机器人等诸多较成熟的模式识别与机器视觉智能化技术可以应用在智能化影像中,“智能+影像”将会成为文化应用领域的核心技术支撑(图17)。
4.5 部分前瞻性技术探索
基于浸入变换的三维物体重建(AICFVE-SIGGRAPH2017)
利用物体排水体积等于物体体积这一简单观测巧妙地将表面重建问题转换为体积问题。通过液体技术重建出来的模型与原始的三维模型几乎一模一样,由此开启了非光学三维形状获取技术的新世界的大门。《Dip Transform for 3D Shape Reconstruction》入选SIGGRAPH2017大会,并被大会官方选为重点推荐的六篇论文之一,获得了全球媒体的广泛转载。
基于涡流解算流体模拟(Xinxin Zhang etal,SIGGRAPH-Asia 2014)
张心欣等提出的基于涡流解算流体模拟(IVOCK)算法可以近似仿真模擬烟雾、海啸等流体动力学运动轨迹,在美国主流特效论坛CG Channel上,将张心欣与奥斯卡技术奖获得者Robert Bridson共同研发的IVOCK模拟算法评为2015年计算机图形图像年会(SIGGRAPH)的高亮。
场景灯光自适应变换(Relighting)
照明是摄制过程中非常重要的一环,摄影就是用光进行造型的艺术,照明的效率与效果直接影响着最终的摄制质量。AICFVE中心的研究人员正在尝试研究高效的软硬件灯光自适应匹配技术。
5 结语
人工智能让社会充满智慧!智能化影像让文化炫丽多彩!
注:本报告部分图片和内容取自中科院自动化所、谭铁牛院士、北京电影学院未来影像高精尖创新中心及公共网络相关研究报告。谨此致谢!
(选编自第十六届论坛演讲稿)