基于大数据特征选择的深度学习算法

2019-09-10刘芳

赤峰学院学报·自然科学版 2019年5期

刘芳

摘要：随着信息社会进入大数据时代，数据的快速增长既是机遇也是挑战.一方面，大数据可以为深度学习提供大规模的样本集进行训练继而对数据挖掘和选择，有效地分析和处理这些数据;另一方面，大数据的异构性和海量性又会造成维数灾难，同时需要先进的硬件平台支撑以及优化技术.因此，选择一种合适的深度学习模型是解决这一问题的关键.本文针对传统的深度学习模型无法选择大量不同的数据特征，提出一种基于大数据特征选择的深度学习算法，首先构建一个大数据特征选择框架继而进行数据融合和深度学习.实验表明，算法较好地解决了数据庞大与信息贫乏之间的矛盾，具有一定的前瞻性.

关键词：大数据;特征选择;深度学习

中图分类号：TP391.4 文献标识码：A 文章编号：1673-260X（2019）05-0046-03

随着互联网技术以及高清数字视频的普及，数据量正在呈现指数规模的增长，数据的规模达到了TB级、PB级甚至是EB级，这就使数据具有规模性[1].然而大量的数据，只有极少数数据被分析和有效利用，这就造成了数据庞大与信息贫乏之间的矛盾[2].因此，需要找到一种能够对大数据进行充分挖掘的智能学习算法，从规模庞大的数据中发现隐藏的规律和特点，挖掘大数据的潜在价值进行特征选择，继而进行后续的分类或决策.深度学习作为机器学习的一部分，能够在庞大的数据中进行映射变换，借助复杂的模型处理规模庞大的数据，提取到数据的多层特征[3].虽然深度学习能够对大数据进行变换提取，但由于数据具有异构性、动态变化以及不完整性，因此深度学习仍需进一步优化.

1 大数据特征选择

1.1 大数据的基本特征

随着云计算、移动互联等技术的应用数据量由TB到PB模式的增长，1996年John Mashey提出了大数据的概念，大数据是融合信息空间、人类社会和物理世界的连接器[4].麦肯锡在此基础上重新定义了大数据的概念：数据集合规模大的传统数据库程序无法对其进行管理、分析，计算时间远远大于预期的数据集合[5].大数据隐含有小数据不具备的规律和价值，但对大数据准确的定义并没有统一的说法，并不仅仅体现在规模和速度上.普遍认为的大数据具有的三个特征为：高速性（Velocity）、大容量（Volume）和多样性（Variety），即所谓的3V特征，也就是数据的异构多样性和大规模，同时数据流的快速运行[6].在3V特征的基础上，有人认为大数据的特征不仅仅局限于此，提出了数据的真实性（Veracity）、价值性（Value）等概念，也就是所谓的4V和5V特征，总结起来，大数据的基本特征可以概括为以下几个方面，如表1所示.

1.2 特征选择过程

在机器学习算法中，特征选择是对数据进行预处理，即为了从高维数据集中得到数据的低维表示形式，从大数据中筛选出能表示出原始数据的最优特征子集[7].特征选择方法主要有过滤法（Filter）、嵌入法（Embedded）以及封装法（Wrapper），过滤法选择的目标对象为数据的统计特性，通过对每个特征对应的值进行估计进而选择特征;嵌入法的前提是已知特征空间的模型，继而从特征空间中寻找能够提高系统性能的最优子空间，通过分析样本中是否具有已知数据分为无监督学习和有监督学习;封装法是利用得到的特征子空间进行分类，通过分析分类的准确率来判断特征，由于选择的特征子空间对象不同，因此需要对样本进行多次训练得到.特征选择的一般流程如图1所示：

特征选择的实质是求解线性或非线性组合优化的过程，亦称为属性约简，属于NP问题，评价函数和搜索方法是特征选择的核心部分，搜索作为解决组合优化的主要方法，有启发搜索策略、完全搜索策略和随机搜索策略;作为影响特征选择结果的评价函数是度量特征集优劣的标准，而评价函数则通过误差度量、一致性度量、距离度量和依赖性度量准则，作为评判特征集的优劣影响特征选择结果[8].

2 深度学习

2.1 浅层学习与深度学习

从特征数据中经过一系列计算，提取出有用信息的过程叫作特征提取[9].特征提取经历了从人工设计到浅层学习和深度学习的过程，人工设计进行特征提取利用图像的底层特征，观察和分析如颜色特征、纹理特征和局部特征等，进而人为设计出便于提取的有效信息;浅层学习模型层数较少，着重强调数据之间的可区分性，主要有高斯混合模型（GMM）、稀疏編码和支持向量机（SVM）;深度学习相较于浅层学习隐层有两层甚至更多，为了发现数据的分布特征和潜在属性，将低层特征组合转换为高层的抽象特征，核心是通过非线性变换使数据由具体到抽象、低层到高层，主要有自编码（AE）和卷积神经网络（CNN）、受限玻尔兹曼机.浅层学习模型与深度学习模型如图2所示：

2.2 深度学习关键技术

深度学习利用分层结构，构建多个隐层处理复杂的高维数据[10].深度学习关键技术为：

（1）对大量的样本数据进行处理以及训练复杂的隐层模型对计算机的硬件性能提出了更高要求，高效的硬件平台及并行处理方法是必不可少的;

（2）深度学习依赖于对大量样本进行训练，模型训练集的规模决定了模型的适用性即泛化性，因此大数据可以避免过拟合现象的发生以及泛化不足适应能力差;

（3）深度学习模型结构复杂，训练困难为了提高学习效果采用新的优化技术，如修正线性单元避免过拟合、修正非线性激活函数减少计算复杂度，进行无监督预训练防止出现局部最小值循环.

2.3 典型的深度学习模型

典型的深度学习模型主要有深度置信网络、栈式自动编码机、多层卷积神经网络.将若干个受限玻尔兹曼机模型进行堆叠得到一个多层神经网络即为深度置信网络[11].深度置信网络模型在预训练阶段可以通过无监督训练进行，不需要大量的标签数据，大大提高了模型的适应性;在预训练过程中通过对参数进行选择，能够加快收敛速度，降低计算复杂度;无监督训练提高了训练参数的有效性，避免了计算结果进入局部最优而非全局最优[12].

4 实验仿真

针对大数据样本的特征选择对计算机的硬件提出了更高的要求，高效的硬件平台及并行处理方法是多层深度学习必不可少的.实验首先搭建所需硬件平台，所需服务器采用8核16线程，图形处理器（GPU）采用Tesla V100，CPU采用酷睿i7处理器主频为3.8GHz，内存为金士顿16GB;仿真环境为MATLAB7.0;大数据样本数据库为了体现算法的适应性采用两个样本数据库，分别为ORL人脸数据库和Yale人脸数据库，ORL人脸数据库包含40人，每人10张相片，通过脸部微小姿态以及表情变化来区分，尺度变化再0%以内;Yale人脸数据库包含15人，每人11张相片，相片的特征主要表现在表情以及外部光照对脸部的影响.

为了验证算法的有效性，分别将本文算法与深度置信网络、多层栈式自动编码机在人脸数据库上进行分类研究，比较其分类精度;而为了验证算法的适应性，需要将两个人脸数据库进行混合然后再比较其分类精确度，具体分类精确度如表2所示.

通过分析实验数据可知，基于大数据特征选择的深度学习算法在两个数据库上的，分类效果具有一定优势，但在混合数据库上三种模型的分类准确率都有一定程度下降，但本文算法的准确率还是优于其他算法，因此具有一定的适应性.

5 总结展望

规模庞大的数据量一方面带来维数灾难，对计算机的硬件带来新挑战，另一方面大数据提供了大量训练样本，可以解决深度网络泛化能力差容易出现过拟合的缺点.因此，基于大数据特征选择的深度学习模型具有一定的实用价值，通过实验发现深度计算模型在分类准确性和适应性上，都得到了进一步提高.

参考文献：

〔1〕冯登国，张敏，李昊.大数据安全与隐私保护[J].计算机学报，2014，37（1）：246-258.

〔2〕程学旗，靳小龙，王元卓，等.大數据系统和分析技术综述[J].软件学报，2014（9）：1889-1908.

〔3〕陈海华，张立臣.大数据下的CPS自适应路由服务[J].计算机工程与应用，2018，54（1）：94-101.

〔4〕鲁亮，于炯，卞琛，等.大数据流式计算框架Storm的任务迁移策略[J].计算机研究与发展，2018，55（1）：71-92.

〔5〕胡志刚，刘佳.面向大数据实体识别的超图分割算法[J].小型微型计算机系统，2018，39（7）：32-33.

〔6〕林学民，杜小勇，李翠平.基于图结构的大数据分析与管理技术专刊前言[J].软件学报，2018，29（3）：70-74.

〔7〕马世龙，乌尼日其其格，李小平.大数据与深度学习综述[J].智能系统学报，2016，11（6）：728-742.