基于数据降维的机器学习分类应用问题探讨

2018-09-10赵斌

现代信息科技 2018年2期

赵斌

摘要：海量数据的涌现与数据维度的提升，让数据的噪声与冗余特征带来的负面影响呈现出了严重化的趋势。在降低数据维度的基础上，提升数据的分类精度是机器学习领域需面对的重要问题。本文主要从数据降维方法与机器学习分类方法的内容入手，对基于数据降维的机器学习分类应用问题进行分析。

关键词：数据降维；机器学习分类应用；手写数字识别

中图分类号：TP391.41 文献标识码：A 文章编号：2096-4706（2018）02-0144-02

Research on the Application of Machine Learning Classification Based on Data Reduction

ZHAO Bin

（Beijing University of Posts and Telecommunications，Beijing 100876，China）

Abstract：The emergence of massive data and the enhancement of data dimension make the negative impact of the data noise and redundancy features a serious trend. On the basis of reducing the data dimension，improving the classification accuracy of data is an important problem to be faced in the field of machine learning. This paper，starting with the content of data reduction and machine learning classification，analyzes the problem of classification and application of machine learning based on data reduction.

Keywords：data reduction；machine learning classification application；handwritten digital recognition

0 引言

科学技术的发展进步，让不同类型的大数据成为了科研分析人员要面对的内容，如在生物医疗领域，海量的基因组数据探索，对遗传类疾病诊断技术的发展进步起到了积极的推动作用。在金融领域，金融大数据的重要性也得到了众多金融机构的关注。大数据技术的发展，使统计学、应用数学和计算科学等学科之间的科技界限有所弱化，机器学习与深度学习技术的应用，也成为了大数据技术发展的反映。

1 数据降维方法与机器学习分类方法的主要内容

机器学习是根据数据分析中获得的规律，对位置数据进行预测的算法。降维算法是机器学习算法的重要组成部分。海量数据的涌现与数据维度的提升，让数据中的噪声与冗余特征带来的负面影响呈现出严重化的趋势。在降低数据维度的基础上，提升数据分类精度，是机器学习领域需面对的重要问题。在提升识别精度的同时，降维算法还可以在获取数据内部本质结构特征的过程中起到提升后续计算速度的作用。

1.1 数据降维方法

主成分分析法和线性判别分析法是两种较为常用的数据降维方法。前者可以借助某种现行投影，将一些高维数据映射至低维空间之中，其投影维度的方差是影响这一降维方法应用效果的主要因素。投影维度数据中方差较大时，主成分分析法可以借助较少的数据维度，保留较多的原数据点特征[1]。后者产生于20世纪30年代，它也需要借助一组投影向量，将高维数据投影至低维空间之中，相比于主成分分析法，线性判别分析降维法要求人们在原始数据投影至低维空间以后，将不同类的数据分开处理，因而这种降维方法更有利于区分两类数据。

1.2 机器学习分类方法

机器学习分类方法包括支持向量机法、K最近邻方法、随机森林法等多种。以随机森林法为例，这种分类方法在实际应用过程中，可以在一定程度上减少过度拟合的可能性，也对数据噪声有着较好的抗性，但是在数据特征维度相对较低的情况下，与之相关的基决策树的重复度会有所提高。

2 基于数据降维的机器学习分类应用问题分析

2.1 降维分类的分析架构

从数据降维技术的研究现状来看，针对数据噪声的问题，人们需要在提升数据降维算法鲁棒性的基础上，降低噪声和奇异值对降维结果的影响。降维分类的分析架构与数据降维方法之间有着较为密切的联系。在维度选取层面，主成分分析法和线性判别分析法均可以借助选取特征向量来选取机制，并构建特征提取以后的低维数据。在机器学习算法的参数调整环节，人们也需要根据算法在同一维度中的最优表现来确定相关算法。K折交叉验证法是应用于降维分类评价的主要算法，它要求人们将原始数据分为K组，对每一组所包含的数据做一次测试集，其余的小组作为训练集。K组模型测试集平均分类的准确率是衡量机器学习方法实效性的主要依据。

2.2 手写数字识别数据分析

手写数字识别是借助分类技术识别纸张及图像之中的手写阿拉伯数字的识别技术。人们现实生活中所使用的阿拉伯数字的属类低于汉字和英文拉丁字母，同一个数字在不同国家和地区的写法是影响数字识别的主要因素。由于數字识别技术在银行、财务、邮政及刑事案件侦查领域有着较为广泛的应用，因而借助基于数据降维的机器学习分类应用技术来提升手写数字的识别精度，具有较为重要的现实意义。以手写数字识别数据集为例，对降维分类分析架构建设问题和机器学习分类方法的应用问题进行分析，可以起到提升分类准确率的作用[2]。

2.3 模型训练过程分析

主成分分析法和线性判别分析法是线性降维方法和非线性降维方法的代表方法。在机器学习分类法的应用研究阶段，人们可以在100维、50维、25维和10维四种维度水平之下，对数据进行特征提取，并对支持向量机法、随机森林回归法等机器学习分类方法进行应用。较差验证法是开展训练、预测的主要工具。根据模型训练过程的训练结果，在维度降低的初始阶段，以原始维度下的平均分类准确率为参照物，非线性降维方法的平均分类准确率会呈现出上升趋势。在维度值为100的情况下，线性降维方法的准确率可以达到95.14%。在维度值为50维或25维的情况下，不同机器学习分类应用法的准确率均表现出了下降趋势，在维度值為10的数据集中，机器学习分类应用法会达到最低值。线性降维方法应用于机器学习分类算法以后，机器学习分类算法的平均分类准确率会在维度不断降低的情况下表现出不断下降的特点，在维度下降至10位以后，机器学习分类算法的平均分类准确率仍然会处于最低点（根据试验结果，非线性数据降维法应用于机器学习分类算法以后，其在10维度下的准确率约为92.43%；在线性数据降维方法应用以后，机器分类算法在10维度下的准确率为88.86%）。因此，在平均分类准确度方面，非线性数据降维方法的准确性要高于线性降维方法的准确性。

从机器学习方法的应用情况来看，我们以梯度提升决策树法与随机森林法的应用情况为例，对机器学习方法的应用情况进行分析，如以梯度提升决策树法为代表的集成决策树方法可以对一些建立在残差减小的梯度方向的决策树进行分类处理，这种处理方法也可以有效减少噪声信息的干扰。随机森林法与前者相比存在一定的相似性，在主成分分析法应用以后，这种分类应用方法在降维下的准确率并不会超过原始的维度准确率。

3 结论

在平均分类准确度方面，非线性数据降维方法的准确性要高于线性降维方法的准确性。为提升分类的准确率，需要在应用机器学习分类方法的过程中，首先利用降维方法进行一定的降维处理，再进行训练分类。

参考文献：

[1] 石志国，杨志勇.深度学习降维过程中的信息损失度量研究 [J].小型微型计算机系统，2017，38（7）：1590-1594.

[2] 毕达天，邱长波，张晗.数据降维技术研究现状及其进展 [J].情报理论与实践，2013，36（2）：125-128.

现代信息科技

2018年2期

基于数据降维的机器学习分类应用问题探讨

杂志排行

现代信息科技的其它文章