APP下载

机器学习建模方法及其研究进展

2017-12-25卫志鹏岳宛莹山西财经大学

新商务周刊 2017年12期
关键词:山西财经大学机器建模

文/卫志鹏 岳宛莹,山西财经大学



机器学习建模方法及其研究进展

文/卫志鹏 岳宛莹,山西财经大学

本文对机器学习方法总结为有监督学习、半监督学习和无监督学习这三大类。并对机器学习方法进行了详细总结,对比分析。

机器学习;建模方法;研究进展

1 机器学习方法主要分为三大类

有监督学习,指有结果度量的学习过程,这里的结果度量包括定性和定量,分别对应统计学中的回归和分类问题。常见模型有:决策树、Boosting与Bagging算法、人工神经网络和支持向量机等;半监督学习,指获取的观察量的一部分由指导者确认并加上标识的数据,即已标识数据。另一部分观察量由于一些原因未能标识,即未标识数据,需要解决的是如何利用标识数据和未标识数据以及相关知识对未标识观察量的标识做出合理推断;无监督学习中,则只能够通过观察特征,二并没有结果度量,即只能利用由总体中获取的样本对总体做出推断,并不需要某个目标变量和训练数据集。

机器学习并非是为代替传统统计分析技术,相反,它是统计学的延伸和扩展。大多数的统计分析方法都是基于完善的数学理论和严格的假定条件实现的,机器学习方法正是避免过多繁杂的假定条件从而达到传统统计方法无法达到的效果。统计建模,以模型驱动的建模方法,是基于概率分布进行推断,其目的是获得数据的概率分布、追求最佳模型的精确解;机器学习,以数据驱动的建模方法,基于最小化预测误差,无需考虑数据分布,其目的是实现精确化。

2 机器学习主要算法简介

1.决策树算法,是一个树状预测模型,即通过把实例从根节点排列到某个叶子节点来进行分类,叶子节点即为实例所属分类。该算法核心在于选择分裂属性和剪枝问题。决策树算法有很多种,Hunt等(1966)提出了CLS算法,随后的ID3、C4.5、CART都是对CLS算法的改进,为处理大规模训练样本又提出了SLIQ、SPRINT算法,但由于之前有剪枝的算法均是生成树后再剪枝,RajeevRaSto等人(2000)提出的PUBLIC算法对未完全生成的树进行剪枝,除此之外模糊决策树也有较快发展。

2.随机森林算法。当数据中噪声或分裂属性过多时,则无法解决树不平衡问题和对训练集过度拟合问题,因此通过构造多分类器或回归器的集成来提高分类或预测的精度。随机森林算法是Leo Breiman提出的一种利用多个树分类器进行分类和预测的方法,可用于处理回归、分类、聚类以及生存分析等问题。当用于分类或回归时主要思想是通过自助法重采样,生成很多个树回归器或分类器。

3.神经网络算法提供了从样例中学习值为实数、离散或向量的函数,其重点是构造阈值逻辑单元,一个逻辑单元是一个对象,它可以输入一组加权系数的量并对它们进行求和,若这个和达到或者超过某个阈值,输出一个量。神经网络是基于经验风险最小化原则的学习算法,存在一些固有的缺陷,如:层数和神经元个数难以确定易陷入局部极小,但这些缺陷在SVM算法都有很好的解决。

4.支持向量机算法,由Vapnik等人于1995年提出,该方法是建立在统计学习理论基础上的机器学习方法,。SVM算法可以自动寻找出那些对分类有较好区分能力的支持向量,由此构造出的分类器能够最大化类之间的间隔,故有较好的适应能力和较高的区分率。该算法的目的是要寻找一个超平面,该超平面可以将训练集中的数据分开且与类域边界的沿垂直于该超平面方向的距离最大。

5.Boosting和Bagging算法。Boosting算法是一种用来提高学习算法准确度的方法,通过构造一个预测函数系列,然后以一定的方式将他们组合成一个预测函数,达到把一弱学习算法提升为强学习算法的目的。Bagging(Boostrap Aggregating),亦称自举聚合,由Breiman提出的与Boosting类似的方法。主要思想是给定一个弱学习算法和一个训练集让该学习算法训练多轮,每轮训练集由从最初的的训练集中随机取出n个训练例构成,初始训练例在训练集中可以出现多次或根本不出现,训练之后得到一个预测函数序列,最终的预测函数对分类问题采用投票方式,对回归问题采用简单平均方法对新示例进行判别。以上二者的区别在于:后者的训练集选择是随机的,各轮训练集之间相互独立,而前者的训练集选择不是独立的,各轮训练集的选择与前面各轮的学习结果有关。

6.关联规则算法。关联规则挖掘是由R.Agrawal,T.Imielinski和A.Swanmi于1992年最先提出,用来分析变量之间关系,并且把这种关系表达成非常容易解释的规则的方法。该算法对数据分布不做任何要求,所得结果是完全基于数据的,没有任何主观假定,客观的反映了数据的本质。Agrawal等人提出了最早的经典关联规则Apriori算法,针对Apriori算法的缺点提出多种改进算法,如Park提出的基于散列技术的算法、Toivonen提出的基于采样思想的算法。

7.贝叶斯学习算法。Bayes法是在已知先验概率和类条件概率的情况下模式分类方法,待分样本的分类结果取决于各类域中样本的全体。该算法的薄弱环节在于实际情况下,类别总体的概率分布和各类样本的概率分布函数(或密度函数)常常是不可知的,未获得概率分布函数就要求样本足够大,此外,当用于文本分类时,Bayes法要求表达文本的主题词相互独立,此条件在实际文本中一般较难满足。

8.EM算法。它是从不完全数据中求解模型参数的极大似然估计方法。一般情况下,该算法的结果只能保证收敛到后验分布密度函数的稳定点,并不能保证收敛到极大值点。

[1]Hunt E B, Marin J, Stone P J. Experiments in induction[J].1966.

[2]方匡南[1,2],吴见彬,朱建平[1,2],谢邦昌[1,2],.随机森林方法研究综述[J].统计与信息论坛,2011,26(3)

[3]瓦普尼克.统计学习理论的本质[M].清华大学出版社,2000.

卫志鹏(1992—)男,山西吕梁人,山西财经大学统计学硕士研究生,研究方向:国民经济核算与宏观经济统计分析。岳宛莹(1993—)女,山西运城人,山西财经大学统计学硕士研究生,研究方向:国民经济核算与宏观经济统计分析。

猜你喜欢

山西财经大学机器建模
机器狗
山西财经大学
机器狗
联想等效,拓展建模——以“带电小球在等效场中做圆周运动”为例
山西财经大学会计学院第二届博士论坛召开
基于PSS/E的风电场建模与动态分析
未来机器城
不对称半桥变换器的建模与仿真
2016年山西财经大学会计学院学术论坛召开
Consequences of Economic Globalization