APP下载

人工智能中无监督学习算法综述

2019-12-19甘井中杨秀兰黄恒杰

海峡科技与产业 2019年1期
关键词:互信息马尔可夫向量

甘井中 杨秀兰 吕 洁 黄恒杰 肖 磊

玉林师范学院计算机科学与工程学院, 广西 玉林 537000

1 无监督学习概况

无监督学习是指无教师监督的学习过程, 即其神经网络学习样例是不带类别标号。它在广义上可分成两个子类,一个是强化学习,一个是自组织学习。计算机的出现解决了人脑的逻辑思维问题,而且功能远超人类,但在当前计算机很难代替人脑独特的形象思维和智能。计算机与人在物体识别方面,花费时间和正确率有很大的差距。这种差距引起了科学家的关注,他们研究用工程方法来实现或近似模拟人类智能,从而出现了人工智能及神经网络,但这些都有一定的缺陷。然后,一种结合人对智能和对世界的理解的,模拟人眼视觉和人类智能的新的智能处理方法—无监督学习出现了。

人工神经网络是由许多人工神经单元组成的,每个单元能依照“映射”并行计算,同时可通过样例学习。样例的输出是已知的,又称有监督学习。反之,有一种方法是根据神经元自己所处的状态学习的。假设两个神经元输出分别为xi、yi,wij(=xiyi)为它们之间的连接权,如果两个神经元都处于兴奋的状态,则wij值高;若都处于抑制状态,即wij=0;这种方法称为无监督的学习[1]。

无监督学习也是自组织学习系统,学习没有外部监督。自组织学习的训练目标不是产生一个分类系统,而是对那些正确或错误的行为做出激励或处罚。所以必须网络表达质量的任务度量,让学习根据这个度量来最优化网络。为了完成自组织学习,我们可以使用竞争性学习规则[2]。

所谓强化学习是指在此过程中,并不直接告诉机器要做什么或采取哪些行动,而是机器通过一些已有的不确定的信息来进行学习,做出最优的策略,得到最多的奖励来自己发现。机器所响应的动作的影响不仅是即刻得到的奖励,还影响接下来的动作和一连串的奖励。强化学习的目标是将代价函数最小化。

2 自组织学习的相关形式

2.1 自组织映射

自组织映射(SOM)是基于竞争学习的,在SOM里,神经元被放置在网格节点上,这个网络通常是一维或者是二维的,更高维的映射不常见。在竞争学习过程中,用不同输入模式刺激,网络选择性地调整,形成对不同输入特征的机系。

2.2 信息论学习模型

自组织目标函数的互信息:在输入和输出随机过程之间的香农互信息具有一些唯一的性质,这些性质使其可作为自组织学习的目标函数,从而被优化。

有以下4种自组织原则[3]:

(1)Infomax原则,其包含了最大化神经网络的多维输入和输出向量之间的互信息,这一原则制定了自组织模型和特征映射的开发框架。

(2)最小冗余原则,这基本上是另一种最大化网络的输入和输出之间的互信息导致冗余最小化的方法。

(3)Imax原则,这是最大化一对神经网络的单一输出之间的互信息,这对神经网络是由两个空间位移多维输入向量所驱动的。该原则非常适合于图像处理,目标是发现带噪声传感的输入在空间和事件上表现的相干性。

(4)Imin原则,这是最小化一对神经网络的单一输出之间互信息,这对神经网络是由两个空间位移多维输入向量所驱动的。该原则在图像处理中的应用目标在于最小化同一环境中两幅相关图像之间的空间时间相干,图像是由具有正交性质的一对传感器获得的。

2.3 统计力学

自组织学习的另一个类别是统计力学。统计力学作为优化技术表示和机器学习的数学基础。有以下3种模拟算法[4]:

(1)Metropolis算法,这是MCMC(Markov chain Monte Carlo)针对未知概率分布上的模拟。

(2)模拟退火,这是一个动态的过程,利用“高温时观察到系统的总特点,低温时出现细节特征” 来避免局部极小值的一种优化算法。

(3)Gibbs抽样,它产生一个带Gibbs分布作为平衡分布的马尔科夫链。与Metropolis算法不同,与Gibbs抽样器相关的转移概率不是静态的。

3 强化学习与动态规划的关联

3.1 马尔可夫决策过程(MDP)

很多强化学习问题被看成一个马尔可夫决策过程(MDP),主要是围绕马尔可夫决策过程来建立模型的。给定动态系统的初始状态,马尔可夫决策过程为选择决策序列提供数学基础,这将最大化N-阶段决策过程的返回值。

3.2 瞬时差分学习算法(TD)

TD 方法是用于解决时间信度分配问题的方法。能够有效地解决强化学习问题中的暂态信用分配问题,可被用于评价值函数的预测。几乎所有强化学习算法中评价值的预测法均可看作TD 方法的特例,以至于通常所指的强化学习实际上就是TD 类强化学习。时序差分学习是一种增量式学习算法,也是MC和DP方法的结合,没有环境模型,而是根据经验学习[5]。

3.3 Q-学习算法

Q-学习是一种增量式的动态规划过程,用逐步方式来决定最优策略。它非常适合于求解没有明显的转移概率知识的马尔可夫决策问题。但是和TD相似,成功应用Q-学习的关键在于假设环境状态是完全可观察的,这就意味着环境的完全可观察的马尔可夫链。

3.4 R-学习算法

第一个基于平均报酬模型的强化学习算法是由Schwartz 提出的R-学习算法,它是一个无模型平均报酬强化学习算法。类似于Q-学习算法,用动作评价函数Rπ(s,a) 表达在状态s下执行以动作a为起点的策略π的平均校准值。

4 无监督学习的应用

乳腺癌早期诊断是很困难的,一般摄影只能观察几个病变像素,易被作为杂躁而忽视。利用两个不同的波段红外感应相机同时拍摄两幅图像,肿瘤在不同的生长阶段,血管血液成分有不同的比例,从而呈现不同的红外特征。

不同波长的红外图像从两个通道输入神经网络,用S1,S2表示两幅红外图像中单像素的值,A和B表示混合传递函数的矢量,让二维向量X=S1A+S2B,如何寻找两个W1和W2,获得S1和S2。一个方法是让W1与A正交、W2与 B 正交,即 S′2=W1·X=S2W1·B,S′1=W2·X=S1W2·B,这样得到S′2只与S2有关,而S′1只与S1有关。这样对两幅乳房的图像进行逐个像素的处理,很快就可得到确诊。这种采用正交向量对消元的无监督学习的方法,称独立元分析法。

猜你喜欢

互信息马尔可夫向量
向量的分解
聚焦“向量与三角”创新题
保费随机且带有红利支付的复合马尔可夫二项模型
向量垂直在解析几何中的应用
基于互信息的贝叶斯网络结构学习
联合互信息水下目标特征选择算法
向量五种“变身” 玩转圆锥曲线
基于SOP的核电厂操纵员监视过程马尔可夫模型
应用马尔可夫链对品牌手机市场占有率进行预测
改进的互信息最小化非线性盲源分离算法