交互式学习技术下的多元化业务建模框架分析
2020-02-02谭期文陆冰芳
谭期文 陆冰芳
[摘 要]本文以多元化业务建模框架体系为研究对象,对其在交互式学习技术条件下的应用模式进行分析。通过对通用机器学习算法的简述,说明机器学习中数据标准化与归一化的处理方案,在实现机器学习数据驱重的同时,提高数据清洗与治理能力。同时,在系统化的训练模式细化说明中,分步骤对其实施方案进行介绍,为相关技术内容开发与研究提供参考材料。
[关键词]多元化业务;交互学习技术;数据挖掘
doi:10.3969/j.issn.1673 - 0194.2020.02.026
[中图分类号]TP391.1;TP18[文献标识码]A[文章编号]1673-0194(2020)02-00-02
0 引 言
现代社会市场体系下,企业的产业发展布局不断推进,并在持续深化的发展过程中,形成了系列性的深度分析。尤其在多元化业务内容上,需要建立起开放性的模型框架,并在交互式学习的内容中,不断推进技术应用开发,并通过系列化的技术手段,形成信息技术体系的应用升级。尤其在实际处理中,应在软件系统与应用程序的建设中,将通用机器学习算法作为引导,保证学习的有效性,不断对整体多元化业务建模形成积极影响。
1 通用机器学习算法简述
机器学习系统中,形成了分类、聚类、关联分析、深度学习4种细化分类条件。其中,在分類条件下,会将物体或抽象对象的集合进行分类处理,并在形成基本训练样本数据的同时,形成多样化的数据标签。由此,可在组织问题处理方法的过程中,保证其形式的多样化。而在应用内容上,也可以采用决策树、贝叶斯、人工神经网络、K-近邻等激活手段,完成数据资料的分类分析,并在一定逻辑关系的引导下,保证自身数据分析的有效性。而在聚类分析中,主要通过数据深度挖掘,在对集合组进行整理的同时,处理未知内容的应用条件。在聚类数据处理中,还可将同一簇对象的相似性内容做出定位,并在不同簇间对象的差异性分析中,整理出深入性数据的指示内容。尤其在独立工具获取的条件下,可在保证集合步骤分析的同时,保证其他算法的预处理条件。而对于关联分析,则相对较为简单,通过对大量数据关联性状态的判断,可对其展开应用条件下的描述分析,并以此定位相应数值的应用状态。另外,在深度学习的内容上,需要建立起新的技术领域,并在开发模拟人脑学习神经网络的同时,使其参照人脑的运算模式,完成数据分析,以此保证自身对数据内容的处理效果,实现数据的效率化使用。
2 机器学习中的数据标准化与归一化
2.1 标准化
标准化技术条件中,模型中的数据信息转化为标准正态分布数值,并形成公式。
式中:xi为输入向量x的第i个特征;ui为xi的平均数值;δi为特征量标准差。由此,形成Z-score标准化。在进行变量标准化调整后,50%的观察值低于0,而另一半则在0以上,形成了整体均值状态为0,标准差数值危机的数据体系。如果在这一数据中,特征状态的分布系数有大量0值存在,则表现出这一标准化数值的不可控状态。在技术分析中发现,经过标准化处理后,xi以不带纲的状态存在,消除了不同特征向量状态下量纲差异导致的不合理因素,完成了数据资料的标准化调整。而在大数据定理的条件下,将一定数量的样本量,作为正态分布进行分析,可以在网络模型搭建过程中,保证数据的敏感性,并维护数据训练基本条件。
2.2 归一化
归一化的技术处理中,主要目标是确定某种存在的映射关系,并将源数据数值映射到[a,b]区间中,通常情况下,会将a取值设为[-1,1],将b取值设置为[0,1]。而归一化处理的方法上,可以针对性进行区分,在划分不同归一化条件的同时,提高归一化处理的针对性,如下所示。
①Mean-max归一化处理,可直接映射到[-1,1]中,形成公式。
②min-max归一化处理,则映射到[0,1]参数上,形成公式。
在归一化应用处理的过程中,需要对场景条件做出说明,并以此确定自身技术条件的应用内容。第一,对于概率模型,无须进行归一化处理;第二,SVM与线性回归之类的最优化问题,需要进行归一化处理,并主要针对其变量取值数据进行分析;第三,神经网络体系中的归一化处理有明显的必要性,需将变量取值限制在[-1,1],由此弱化部分大数值变量数据对整体模型产生的负面影响。通常情况下,神经网络中的隐藏层会使用tanh完成激活函数,并在优于sigmoid激活的条件下,适应其双曲正切函数的取值条件,在tanh的0均值状态下,保证归一化的有效性;第四,K-近邻算法中,如果没有对解释变量数值(x)做出归一化调整,则小数量级的释变量条件可忽略不计。
3 基于多元化业务建模框架的训练数据模式
多元化状态下,业务内容的建模框架结构中,数据挖掘技术是完成技术分析的核心。通过开展数据挖掘处理,可以针对应用条件下,数据模型训练能力不足的问题,提出有效解决策略,并在数据训练效果上,获得本质化提升。而在执行训练数据(Train Data)的过程中,除了完成基础性的模型检验以外,还可以引入验证数据,并在辅助模型上,补充小型数据集的管理办法,并通过自助法等手段,实现训练数据模式的完善体系建设。
3.1 数据挖掘
数据挖掘作为计算机学科的分支,在对多元化业务建模框架进行优化调整的过程中,可以提高训练数据的应用深度,并使整体数据体系更好地展现出信息价值。而在具体的使用数据应用分析中,可以对数据模型做出判断,通过以下4个阶段性的计算,保证数据分析的有效性。
3.1.1 训练阶段(training phase)
训练阶段为所有数据挖掘处理中公用的基础性技术,在建模处理之前,需要对数据信息进行预处理。尤其在获取定义是被分配信息的内容上,务必要对挖掘类型与特定控制信息内容做出细化分析。尤其在分类与回归技术调整中,训练阶段还需要形成一个确认处理,以此维护训练分析的有效性。另外,在训练阶段的数据管理中,还需要针对具体的数据挖掘模型,设置单独的额外数值组,并作为对测试阶段的具体描述。而这一独立数值组的计算结果,则可定位为实例内容,以此完成对决定运算法则结束时间的技术控制。
3.1.2 模型自查阶段(model introspection phase)
在添加并设计模型自查阶段的过程中,可将其作为解释与评估的具体模型,完成整体数据挖掘的对照管理。在执行过程中,需要将模型与目标设置为统一的细查数据,并在揭示训练阶段数据的同时,定位数据信息中潜藏的规律条件。同时,通过对具有统计价值信息的特性评估,保证评估模型的分析质量。
3.1.3 测试阶段(testing phase)
测试阶段的设置,可配合分类与回归。在测试过程中,可以形成模型化的对象读入系列数值组,并通过对相应数值组的具体评估,确定数值对象段的实际数值比较条件。数据统计结果可以作为应用案例,确定模型质量的可用性水平,为多样化业务模型的适用条件奠定基础。
3.1.4 应用阶段(application phase)
在模型的应用阶段中,需要输入数据组完成整体模型的评估分析。同时,也可以使用大量的数据组作为基础,对数据模型进行判断,以求更加系统的补充数据模型的计算条件。而为了形成正确的模型数据输入值,则务必保证将其分配到训练阶段,并完成对相关字段的确认与分析。由此,在预定课题的模型应用中,保证整体课题的建设条件,并在模型系统中形成完整的推论信息。最终,在推论数据的辅助作用下,可以配合附加状态的特性内容,提交并获得完整的数据挖掘资料。注意,特定条件下,推论内容的应用,是提高整体数据分析可信度状态的重要条件,需要在整体数据挖掘处理中,关注其添加状态与分析结果。
3.2 自助法计算
进行多元化业务建模分析过程中,还可尝试引入自助法进行分析。通过强调自助采样模型的(bootstrap sampling)基础性,在包含m数量样本集合数据系统D中,形成具体的数据集合。由此,在对集合进行分析的过程中,从中提炼出具体的样本条件,并复制交换到初始集合数据D中,以保证样本采集效果的重复性。經过m次的重复执行后,可以形成带有m个样本数据的新数据集,以此对自助采样结果进行计算,形成此采样的不被采集概率,表示如下。
(4)
经过这一概率分析,可以向自助采样发出通知,并在初始数据集合D中,形成36.8%的样本未出现概率。由此,可以将新生成的样本集合作为训练集,在保证D/D′测试效果的同时,完成自助化的计算分析。在自助法分析中,可以有效地区分训练集与测试集,在对自助法进行数据优化的同时,使整体数据分布条件发生改变,并在这一因素的影响下,增加误差的产生概率。所以,在进行数据分析与训练的过程中,需要根据实际情况进行选择,并采用留出法与交叉验证法完成测试。
4 结 语
企业在应用多元化业务模型框架的条件上,需要借助交互式学习技术的优势条件,通过对整体技术体系的开发,保证自身应用内容的管理状态。尤其在优化企业数据建模框架的过程中,应将深入化的数据分析作为核心,在保证深度学习状态的同时,提高整体数据分析的有效性,并生成具体的数据分析结果,对企业的实际运行管理提供必要的指导,以此维护整体技术的开发运用。
主要参考文献
[1]张雪松,庄严,闫飞,等.基于迁移学习的类别级物体识别与检测研究与进展[J].自动化学报,2019(7).
[2]焦志伦,金红,刘秉镰,等.大数据驱动下的共享单车短期需求预测——基于机器学习模型的比较分析[J].商业经济与管理,2018(8).
[3]冉智勇,胡包钢.统计机器学习中参数可辨识性研究及其关键问题[J].自动化学报,2017(10).