APP下载

浅谈机器学习

2021-11-30高灵宝杜银学陆江波马永军杜海平

铸造设备与工艺 2021年6期
关键词:人工神经网络贝叶斯决策树

高灵宝,杜银学,陆江波,马永军,杜海平,虎 鑫

(共享智能铸造产业创新中心有限公司,宁夏 银川 750021)

1 什么是机器学习

机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,是人工智能核心,是使计算机具有智能的根本途径。

机器学习介于多门理论学科之间,对于数学、统计学、概率论、计算机科学等学科均有较高要求。要想对机器学习的相关算法以及工作原理有深入理解,则需要对以上学科融会贯通,这也是机器学习的难点之一。

2 机器学习的发展历程

机器学习并不是一个新生儿,其成长过程已经经历了几十年,大体可以分为三个阶段:

第一阶段是20 世纪40年代至60年代的萌芽期,这一时期产生了最早的人工神经网络,赫布学习规则,图灵测试等一系列标志性事件,也标志着机器学习这一概念的诞生;

第二阶段是20 世纪60年代至80年代的探索期,这一时期机器学习的理论研究相对超前,产生了KNN 最邻近算法(the Nearest Neighbor Algorithm),决策树算法,BP 和MLP 神经网络算法等,但相比理论研究,计算机硬件的发展则相对缓慢,不能很好地将理论研究转化为实际应用,在一定程度上限制了机器学习的发展;

第三阶段是20 世纪90年代至今的高速发展期,随着计算机硬件性能的飞速发展,计算机运算速度在集成电路不断发展的助推下,有了质的飞跃。互联网产业的崛起则为机器学习插上了新的翅膀,大量的数据为机器学习的分析研究提供了理论基础。这一时期,涌现了Boosting 算法、SVM 向量机算法、随机森林算法、深度学习(Deep Leaning)等,而深蓝人机国际象棋大赛和AlphaGo 人机围棋大战的出现,使得人们对机器学习有了更加清晰的认识,机器学习自此走出了瓶颈期,迈上了新的发展阶段。

3 机器学习的分类

目前,主流的机器学习算法可以归类为:监督学习、无监督学习和强化学习。

3.1 监督学习

监督学习(有导师学习):输入数据中有导师信号,以概率函数、代数函数或人工神经网络为基函数模型,采用迭代计算方法,学习结果为函数[1]。

监督学习主要包括分类和回归。当输出被限制为有限的一组值(离散数值)时使用分类算法;当输出可以具有范围内的任何数值(连续数值)时使用回归算法。相似度学习是与分类和回归都密切相关的一类监督机器学习,它的目标是使用相似性函数从样本中学习,这个函数可以度量两个对象之间的相似度或关联度。它在排名、推荐系统、视觉识别跟踪、人脸识别等方面有很好的应用场景。

3.2 无监督学习

无监督学习(无导师学习):输入数据中无导师信号,采用聚类方法,学习结果为类别。典型的无导师学习有发现学习、聚类、竞争学习等[1]。

在无监督学习中给定的数据是和监督学习中给定的数据是不一样的,数据点没有相关的标签。相反,无监督学习算法的目标是以某种方式组织数据,然后找出数据中存在的内在结构。这包括将数据进行聚类,或者找到更简单的方式处理复杂数据,使复杂数据看起来更简单。

3.3 强化学习

强化学习(增强学习):以环境反惯(奖/ 惩信号)作为输入,以统计和动态规划技术为指导的一种学习方法[1]。

强化学习的主要特点是通过试错来发现最优行为策略,将没有带标签的数据作为训练数据,但这并不意味着根本没有监督信息。系统根据强化学习程序运行,在获得所需结果时给出称为奖励的信号。例如,在机器人的步行控制中,可以走的距离就是奖励。在围棋的比赛程序中,赢或输的结果就是奖励。失败时的奖励是负值,也称为惩罚。

4 几种主流的机器学习算法

机器学习是建立在理论算法之上的,机器学习算法为机器学习的不断发展提供了理论基础。

4.1 线性回归

线性回归所表示的是描述一条直线的方程Y=A+BX,通过输入变量的特定权重系数(B)来找出输入变量(x)和输出变量(y)之间最适合的映射关系。

例如:给定输入,可以预测出输出变量(y)的值。线性回归学习算法的目标是找到系数(B)和(A)的值,有一个(x)的观测值,就可得到一个(y)的估计值。

找出数据的线性回归模型有多种不同的技巧,例如将线性代数解用于普通最小二乘法和梯度下降优化问题。在机器学习领域,线性回归可能是最简单,最容易理解的算法之一。

4.2 逻辑回归

逻辑回归来自统计学领域,是一种可以用在二元分类问题上的方法。逻辑回归,和线性回归相似,都是要找出输入值的系数权重。不同的地方在于,对输出值的预测改成了逻辑函数。逻辑函数看起来像字母S,输出值的范围是0 到1.把逻辑函数的输出值加一个处理规则,就能得到分类结果,非0 即1.比方说,可以规定输入值小于0.5,那么输出值就是1.

这个算法还可以用来预测数据分布的概率,适用于需要更多数据论证支撑的预测。和线性回归相似,如果把和输出不相干的因子或者相近的因子剔除掉的话,逻辑回归算法的表现会更好。对于二元分类问题,逻辑回归是个可快速上手又有效的算法。

4.3 决策树算法

决策树算法最早产生于20 世纪60年代,是一种最逼近离散函数值的方法。它是一种典型的分类方法,首先对数据进行处理,利用归纳的算法生成可读的规则和决策树,然后使用决策树对数据进行分析[2]。在决策树算法中,训练模型是通过学习树表示的决策规则来学习和预测目标变量值的,而树是由具有相应属性的节点组成的,本质上决策树是通过一系列规则对数据进行分类的过程。

4.4 朴素贝叶斯

朴素贝叶斯算法是基于贝叶斯定理的一类算法,贝叶斯定理是关于随机事件A 和B 的条件概率(或边缘概率)的一则定理。其表述是:其中P(A|B)是在B 发生的情况下A 发生的可能性。比如,要预测下个月商场雨伞大卖的可能性,你可能想知道下个月的天气情况。

朴素贝叶斯分类器算法假设两个事件是彼此独立的,这在很大程度上简化了计算。然而,特征并不总是独立的,这通常被视为朴素贝叶斯算法的缺点。简而言之,朴素贝叶斯算法允许我们使用概率给出一组特征来预测一个类。最初,朴素贝叶斯定理只是想被用于进行学术研究,但现在看来,它在现实世界中也表现出色。

4.5 KNN 最近邻算法

KNN 最近邻算法,是机器学习当中最简单的方法之一,其设计思想与中国成语“人以类聚,物以群分”类似,KNN 最近邻算法的核心思想是,如果一个样本在特征空间中的k 个最相邻的样本中的大多数属于某一个类别,则改样本也属于这一类别[2]。k的选择很关键,k 太小可能导致结果噪声太大、准确性降低,而太大的k 值又是不可行的。KNN 算法常用于分类,同时也适用于回归问题。

4.6 SVM 支持向量机

SVM 支持向量机是优秀的二分类机器学习算法之一,是通过某种事先选择好的非线性映射将输入向量a 映射到一个高维特定空间Z,在这个高维空间中构建分类超平面,找到一个特殊的超平面,使正例和反例样本之间的分离界限达到最大,从而得到最优超平面。在最优超平面的两侧建立两个相互平行的超平面,最优超平面使得两个平行超平面的间距最大,平行超平面的间的间距越大,则分类器的误差就越小。支持向量机是目前最强大的分类容器之一,在实际应用过程中,人们采用一种优化算法来寻找间隔最大化的系数。

4.7 随机森林法

随机森林是一种非常流行的集成机器学习算法。这个算法的基本思想是,通过投票机制产生结果,通过征集多数人的意见得到更加准确的结果。在随机森林法中,我们使用了决策树集成。为了对新对象进行分类,我们从每个决策树中进行投票,并结合结果,然后根据多数投票做出最终决定。也就是说,在数据中取出大量的样本,计算均值,然后对每次取样计算出的均值再取平均,从而得到对所有数据的真实均值更好的估计。

在训练过程中,每个决策树都是基于训练集的引导样本来构建的。在分类过程中,输入实例的决定是根据多数投票做出的。

4.8 Boosting 和AdaBoost

Boosting 是一种提高任意给定学习算法准确度的方法,其思想源于Valiant 提出的PAC(Probably Approximately Correct)学习模型。不需构造高精度的回归分析,只需一个粗糙的基础算法即可,再反复调整基础算法就可以得到较好的组合回归模型。它可以将弱学习算法提高为强学习算法,可以应用到其它基础回归算法,如线性回归、神经网络等,来提高精度[3]。

AdaBoost 算法是Boosting 算法的一种,是其最成功的代表,AdaBoost 是一种迭代算法,其核心思想是针对训练集训练不同的弱分类器,然后将这些弱分类器集合起来,构成一个强分类器。AdaBoost主要用来解决分类问题,同时也可以用于解决回归问题。

4.9 人工神经网络算法

人工神经网络(ANN)可以处理大型复杂的机器学习任务。神经网络本质上是一组带有权值的边和节点组成的相互连接的层,称为神经元。在输入层和输出层之间,我们可以插入多个隐藏层。人工神经网络使用了两个隐藏层。除此之外,还需要处理深度学习。

人工神经网络的工作原理与大脑的结构类似。一组神经元被赋予一个随机权重,以确定神经元如何处理输入数据。通过对输入数据训练神经网络来学习输入和输出之间的关系。在训练阶段,系统可以访问正确的答案。如果网络不能准确识别输入,系统就会调整权重。经过充分的训练后,它将始终如一地识别出正确的模式。

5 结束语

本文针对机器学习的基本概念、发展历程、分类和部分主流算法进行了相关介绍。机器学习是一项门槛较高的科学技术,要想在机器学习领域取得较好发展,则需要有全面的知识储备和综合应用能力。

目前,机器学习的发展刚刚起步,由于理论研究和硬件基础的限制仍处于弱人工智能阶段。未来随着科技的不断发展,机器学习必将引领新的技术革命。推动机器学习的不断发展,正确应用机器学习技术才能使其更好地造福人类,为我们向往的美好生活创造新的价值。

猜你喜欢

人工神经网络贝叶斯决策树
使用人工神经网络改进2022年北京冬奥会数值天气预报后处理过程的算法研究
基于人工神经网络的Ni-ZrO2纳米镀层耐腐蚀性能预测
简述一种基于C4.5的随机决策树集成分类算法设计
租赁房地产的多主体贝叶斯博弈研究
租赁房地产的多主体贝叶斯博弈研究
贝叶斯网络概述
贝叶斯公式的应用和推广
基于人工神经网络的优化配置研究
决策树学习的剪枝方法
基于人工神经网络的经济预测模型