迎接AIGC:掌握隐空间(一)
2023-05-30高焕堂
高焕堂
1前言
上一期里我们曾经谈到AI有3种型:识别型AI、生成型AI、决策型AI。一般而言,2020年之前,识别型AI是主流;而在2020年之后,生成型AI和决策型AI逐渐蔚为主流。尤其是生成型AI模型,如长江后浪前浪,蒸蒸日上。
因之,本期就来谈谈生成型AI(例如AIGC)的魅力源头:隐空间(Latent space)。愈擅长于操作隐空间向量(Vector),就愈能生成令人惊讶的创作。现在,我们就来认识隐空间,建立扎实的基础,以便顺畅迎向AIGC 新潮流。
2复习AI基础概念:特征
大家都知道,科学素养是从“观察”开始。观察是认识现象(如事物)的起点,也是智力活动的泉源。观察的目的主要是为了了解事物外部形态和特征。包括区分事物的一般特征(Feature)、发现事物的内在本质特征等,并且加以记录,并对结果进行描述和对比分析,以便提出新问题,进行创造性的活动。
简而言之,人们对于周遭的问题或事件常可由不同的角度来观察或看出不同的特征。所谓特征,就是一件事物或一群事物,其具有与众不同的特色或表征。例如,人们在辨别其他人的长相时,常常会观察对方的脸形、眼神、嘴巴、发型等特征来区分和判断,只要记住对方独特的长相特征就可以,不必记忆其他细节了。这是人们天赋的观察和萃取特征的能力。再如,当您一大早从家里出门时,常常会先观察天气的特征:“乌云密布”,或是“阳光普照”。这也是天赋特征萃取能力的表现。
了解了特征的意义之后,就可以近一步观察到,特征与特征之间的可能存在有相互之间的关联性,这又称为:相关性(Correlation)。例如,当我们观察到天气呈现了一个特征:高空上乌云密布;这时也常常会发现另一个特征:低空中蜻蜓纷飞。而且可能还会发现第3项特征:快下雨了。
由于您观察到了这3项特征:“乌云密布”、“蜻蜓纷飞”和“快下雨了”。您就会赶紧采取行动,例如:赶快去收衣服,以免被淋湿了。所以这3项特征与您的行动之间,也具有紧密的关联性。
3以人脸特征为例
刚才提到了,人们在辨别其他人的长相时,常常会观察对方的脸形、眼神、嘴巴、头发的形状、位置、颜色等特征来区分和判斷。其中,最简单的就是找出人脸的脸框(Box)位置,以及其脸部关键点(Landmark)的位置,例如眼睛,鼻子,嘴巴等位置坐标。例如,有一张图像,里面有两张人脸(图1)。
请您按下“萃取脸部关键点”按钮,这 Excel 画面就会调用幕后的 Python 程序,来萃取各关键点的坐标(图2)。
图2里显示出两张脸的脸框和关键点特征。其中,男生脸框的左上角坐标为(32, 67),且右下角坐标为(78, 126)。而女生脸框的左上角坐标为(274, 52),且右下角坐标为(320, 112)。接着来看看女生的脸部各关键点特征。
第1点:脸部的左边眼睛坐标为(289, 77)。第2点:右边眼睛坐标为(311, 76)。
第3点:鼻子坐标为(301, 90)。
第4点:嘴左角坐标为(290, 99)。
第5点:嘴右角坐标为(310, 98)。
4复习:空间映射的概念
在本专栏的前几期里,已经介绍过空间映射(Space Mapping)的概念,及其在机器学习的重要功能。请您先复习本专栏第3期的内容:《 ML(机器学习):理解空间对映观念》。在这里,简单复习这项AI(机器学习)的核心概念和技术。
当人类看到自然空间的实际事物,收集这些事物的特征,提供给AI。而AI则透过这些(训练)数据来(间接)观察实际事物。这些 X 数据则成为 X 空间里的坐标,来观察自然空间里实际事物之间的关联性(图3)。
然后,AI会很聪明地探索出两个空间的对映关系(图4)。
人们会在其生活的自然(实物)空间里,对其所感兴趣的各项事物,并收集其特征,就成为各笔原始资料(Raw data),各对映到X 空间里的一点。然后再映射(过滤)到 Y 空间;还可再从 Y 空间映射(过滤)到 Z 空间。而 ML 的魅力就是它很擅长于探索出对映的规律性。在AI里,通常会将上述的空间,区分为两种:可观察空间(Observable space)和隐(藏)空间(Latent space)。
5认识可观察空间
兹举一个最简单的范例来说明之。这里有5只兔和猫,各收集其两项特征:耳朵长度与尾巴长度。于是总共收集了5笔原始数据(Raw data)。现在,就来把它们各对映到可观察空间里的一个点,而且两项特征各对映到一个维度(轴)。也就是,每一笔数据各对映到2维(2-Dimension)的坐标空间里的一个点(图5)。
由于这个空间的每个维度的意义很明确,人人都可以理解。因此,每一个点所带的含意,是类类可以理解的。它是人类可以观察其含意的空间,就称为:可观察空间。
同样地,这里有3张脸(即3笔数据),含有其脸框和关键点的坐标,以及各有14项特征(图6)。
现在,就来把这3张脸(即3笔数据)各对映到可观察空间里的一个点,而且14项特征各对映到一个维度(轴)。也就是,每一笔数据各对映到14维(14-Dimension)的坐标空间里的一个点(图7)。
由于这个空间的每个维度的意义很明确,人人都可以理解。因此,每一个点所带的含意,是类类可以理解的。它是人类可以观察其含意的空间,就称为:可观察空间。
6结束语
俗语说:从有招到无招。又说:无招胜有招。这里介绍的“可观察空间”可以说是有招的空间,人类可以理解空间各数据的含意。那么相对地,无招的空间就是“隐空间”,它是AI创造出来的数据空间,人类就无法理解其数据的真实含意,所以称为:隐空间。
由于篇幅的关系,我们下一期就从有招到无招,将详细介绍神秘的隐空间,它是千变万化AIGC 创作魅力的源头。