APP下载

机器学习理论浅谈

2012-12-31孙璐

考试周刊 2012年76期

摘 要: 本文介绍了人工智能学科中机器学习的概念、发展、分类及应用情况。

关键词: 机器学习 人工智能 基本模型

1.引言

“机器学习”是人工智能的重要研究领域之一。机器学习的定义是“系统通过积累经验而改善系统自身的性能”。通俗地说,就是让机器去学习,利用学到的知识来指导下一步的判断。最初研究机器学习,是让计算机具有学习的能力,以实现智能化。因为人们认为具有人工智能的系统首先必须具有学习能力。机器学习的研究始于神经元模型研究,此后又经历了符号概念获取、知识强化学习研究阶段,至今已发展到连接学习和混合型学习研究阶段。

2.机器学习系统的基本模型

根据机器学习的定义,建立如图1所示的机器学习基本模型。

模型中包含学习系统的四个基本组成环节。

环境和知识库是以某种知识表示形式表达的信息的集合,分别代表外界信息来源和系统具有的知识。学习环节和执行环节代表两个过程。学习环节处理环境提供的信息,以便改善知识库中的知识。执行环节是整个机器学习系统的核心。利用知识库中的知识来完成某种任务,并把执行中获得的信息送还给学习环节。

2.1机器学习的分类

很多学者从不同的角度对机器学习进行了分类,这里简单阐述一下继续学习策略的机器学习的种类。按照学习策略的不同,机器学习分为机械学习、归纳学习、基于解释的学习、基于神经网络的学习和基于遗传算法的学习。

2.1.1机械学习

机械学习(Rote Learning)就是“死记硬背式的学习”,靠记忆存储知识,需要时检索已经存下来的知识使用,不需要计算和推理。机械学习的模式如下:需要解决的问题为{y,y,...,yn},输入已知信息{x,x,...x}后,解决了该问题,于是将记录对{{x,x,...,x},{y,y,...,y}}存入数据库,以后当遇到问{y,y,...,y}时,检索数据库,即可得到问题{y,y,...,y}的解答是{x,x,...,x}。

能实现机械式学习算法的系统只需具备两种基本技能:记忆与检索。此外,存储的合理安排,信息的合理结合,以及检索最优方向的控制也是系统应该考虑的问题。该算法简单、容易实现、计算快速,但是由于系统不具备归纳推理的功能,对每个不同的问题,即使是类似的问题,也需要知识库中有不同的记录。因此占用大量的存储空间,这是典型的以空间换时间的算法。

2.1.2归纳学习

归纳学习是应用归纳推理进行学习的一种方法。归纳学习的过程是由特殊实例推导出一般情况的过程,这样就使类似的问题可以利用同样的方法求解。归纳学习的过程就是示例空间与规则空间的相互利用与反馈。1974年,Simon和Lea提出了双空间模型,形象地对这一执行过程进行了描述,如图2所示。

归纳学习算法简单,节省存储空间,在一段时间内得到了广泛的应用。在应用过程中,该算法逐渐显现出它的缺点:(1)归纳结论是通过对大量的实例分析得出的,这就要求结论的得出要有大量实例作支撑,而这在许多领域都是无法满足的。(2)归纳结论是由不完全训练集得出的,因而其正确性无法保证,只能使结论以一定概率成立。(3)该算法通过对实例的分析与对比得出结论,对于信息的重要性与相关关系无法辨别。

2.1.3基于解释的学习

基于解释的学习(Explanation-Based Learning)是运用已知相关领域的知识及训练实例,对某个目标概念进行学习,并通过后继的不断练习,得到目标概念的一般化描述。该学习的执行过程如图3所示。

这种方式的学习得到一个领域完善的知识往往是比较困难的,这就对该算法提出了更高的要求。为解决知识不完善领域的问题,有以下两个研究方向[2]:(1)改进该算法使其在不完善的领域理论中依然有效。(2)扩充该领域的知识使其拥有更强的解释能力。通常情况下,第二种改进方法更重要些。

2.1.4基于神经网络的学习

神经网络是由许多类似神经元的节点和它们之间带权的连接组成的复杂网络结构,是为模仿人类大脑的复杂神经结构而建立起来的抽象数据模型,希望相似的拓扑结构可以使机器像人脑一样进行数据的分析、存储与使用。神经网络学习的过程就是不断修正连接权的过程。在网络的使用过程中,对于特定的输入模式,神经网络通过前向计算,产生一个输出模式,并得到节点代表的逻辑概念,通过对输出信号的比较与分析可以得到特定解。在整个过程中,神经元之间具有一定的冗余性,且允许输入模式偏离学习样本,因此神经网络的计算行为具有良好的并行分布、容错和抗噪能力。

神经网络学习算法是一种仿真算法,拥有良好的认识模拟能力和有高度的并行分布式处理能力。但神经网络模型及其参数设置难以确定,需要长时间的试验摸索过程。并且,对于最后得到的神经网络,其反映的知识往往难以让人理解。为解决这些问题,构造神经网络集成并从神经网络或神经网络集成中抽取规则成为当前研究的热点。

2.1.5基于遗传算法的学习

遗传算法以自然进化和遗传学为基础,通过模拟自然界中生物的繁殖与进化过程,使训练结果逐渐优化。与遗传过程类似,在学习过程中,通过选择最好结果并使其组合产生下一代,使“优秀的遗传因子”逐代积累,最后得到最优的解。遗传算法解决了神经网络学习中的一个缺点,它不需要知道原始信息而只需知道学习的目的即可进行,具有很强的并行计算能力和适应能力。此外,遗传算法采取的随机搜索方法提高了该学习算法对全局搜索的能力。遗传算法的缺点主要体现在三个方面:无法确定最终解的全局最优性;无法控制遗传过程中变异的方向;无法有效地确定进化终止条件。基于这三个缺点,有人提出了遗传算法与其他学习算法的结合,优点互补已达到更好的效果。

3.结语

机器学习在过去十几年中取得了飞速的发展,目前已经成为子领域众多、内涵非常丰富的学科领域。“更多、更好地解决实际问题”成为机器学习发展的驱动力。事实上,过去若干年中出现的很多新的研究方向,例如半监督学习、代价敏感学习等,都起源于实际应用中抽象出来的问题,而机器学习的研究进展,也很快就在众多应用领域中发挥作用。机器学习正在逐渐成为基础性、透明化、无处不在的支持技术、服务技术。

参考文献:

[1]周志华.机器学习与数据挖掘[J].

[2]郭亚宁,冯莎莎.机器学习理论研究[J].科技教育创新,2010(14).

[3]于凤.机器学习方法及其技术应用[J].电脑学习,2003.</