基于Boosted方法的大数据网络样本数据建模
2019-11-11张春丽
张春丽
摘要:为积极对大数据网络样本数据处理效果不佳的问题,提出结合Boosted方法对网络的样本数据进行建模方法。结合抽样调查以及Apriori算法对大数据网络样本数据进行采集和挖掘,获取数据特征,并根据特征参数对模型的倾向得分进行估计,以便对网络数据访问群进行对比分析,从而实现对大数据网络样本数据模型的构建。最后通过实验证实,基于Boosted方法的大数据网络样本数据模型有较高的有效性,充分满足研究要求。
关键词: Boosted; 大数据; 网络样本; 数据建模
中图分类号: TM897 文献标识码:A
文章编号:1009-3044(2019)27-0277-02
随着大数据时代的到来,对社会各行各业的影响也呈现多样复杂、高速大量等特点。在此环境背景下,结合Boosted方法对网络数据库概率样本进行等级划分和评估,判断数据的有效答率,并随着其答率数值的上升,有效解决覆盖不全等的问题,从而实现对大数据网络样本数据的合理建模[1]。通过在大数据网络环境背景下对数据样本进行随机采集,基于Boosted方法和Apriori算法对样本合理性概率、特征数值和模型的倾向得分进行计算。并根据计算结果推断出目标样本变量,有针对性的构建广义Boosted样本数据判断模型,最终实现对网络样本数据的合理建模。
1大数据网络样本数据建模
1.1大数据网络样本采集
对大数据网络样本进行采集,记为V,在采集过程中由于数值相对较大,对网络候选数据进行抽样调查,并记录随机抽取到的数据样本,为方便记录,对数据样本记为S-。将随机选择的抽样调查数据视为一个近似于二阶段原理的特征样本[2]。在二阶段处理过程中,其中的第一阶设总体样本数据U中的数据特征进行采集。第二阶主要的处理是根据第一阶段中采集到的数据特征值进一步进行抽样调查,获取其样本有效性概率。考虑到样本数据设在调查过程中,共得到了i个采集样本,样本的潜在协变量数值可记为Xi1,Xi2,...Xip,且i=1,2,....,n,另外,在样本数据采集的过程中,P表示高位组成的向量,则则网络银行部数据找那个的单元特征算法为:
在上述算法中,[ι]克表示在采集过程中抽取的随机样本合理性概率,[ε]为在固定的网络环境条件下的数据特征普遍性概率。结合Boosted模型对样本参数进行评估,设W表示二值性变量,且在检测单元L中W=Li,若网络数据的参考样本以w=0为标准基数,则数据样本的倾向分值可记为[P(W=0σi)=P(x)],令logP(x)/[1-P(x)]=g(x=1)。基于广义的Boosted模型对网络样本数据进行估计可得:P(x)=1/[1+expg(x)+logP(x)]。利用Logistic回归模型,对P(x)的回归性曲线模型进行设计,为线性回归模型,设定一个灵活的期望函数点,记为L(p),则:
基于上述算法对网络数据的运行函数进行估计,并调整估算数值,以便保障估算数据的合理性,进一步进行改建,寻找一个节点H(x)并保证公式(2)的计算结果大于随机节点H(x)的评估参数值,并对H(x)进行进行迭代处理,最终得到最优值,并以其最优值作为广义Boosted模型设计的参考数值,从而保证对网络样本数据的稳定和精准评估。
1.2基于广义Boosted模型的倾向得分估计算法
在上述步骤的基础上,根据迭代函数数值建立回归树,并对回归树上的自变量和因变量之间的数值关系进行判断,采集完整的网络数据集,并根据前文中的算法对网络数据样本特征进行划分和归类,并实现对不同等级的数据的采集,并对数据进行最小误差预测处理,从而更好地实现对网络样本数据的分析[3]。结合Apriori算法和Boosted模型对获取到的网络样本数据逻辑信息关系进行合理的改善和有效的调整。结合上述方法进行Boosted模型的优化,保证网络结构倾向数据具有相应的独立性,避免判断误差等问题,基于上述思路对广义Boosted模型结构进行优化,具体如下:
在以上模型结构中,通过对网络结构数据的倾向得分数值进行评价有针对性的实现部署,并生成相应的网络节点关系逻辑代码以及相应数据评价及处理列队排序。在对倾向得分进行预估评价过程中,要对网络结构的综合数据向量数值进行计算,设在网络结构中,网络数据等级可分别记为N=(Q、W、Y、T),基于上述原理对不同等级的数据特征权重算法进行优化,可记为N=W*P(x)*(n1,n2,n3,...,nm),则通过计算得出网络结构中的量最小指标数值,具体算法如下:
其中,Wn为可检测到的数据样本标准信息熵,Ha(W)表示数据样本特征挖掘前后的信息差。
1.3大数据网络样本建模
结合Boosted方法对大数据网络样本进行建模。基于前文算法对模型进行优化。在复杂的网络环境下对样本数据进行跟踪调查和收集记录,并根据采集记录结果对样本数据特征进行进一步的挖掘和存储。为保障数据特征挖掘的有效性和合理性,对数据样本采集和挖掘的有效性进行评价,结合广义Boosted模型进行网络样本数据的分析和评估[4]。首先对网络数值及倾向得分数值的变化进行挖掘和分析,并调查网络样本运行的安全需求数据,从而有针对性地对网络运行质量倾向数值进行合理的估计和调整,通过对网络样本数据的数据信息进行处理,获取其逻辑特征并有针对性地提出特征支持数据。并在不同的网络结构中,建立不同的数据等级评价体系,为方便对数据样本进行分析研究,保证样本数据采集的合理性。建立了数据采集挖掘优化流程,具体如下图所示。
基于以上步骤实现对大数据网络样本特征的采集和分析,改善其处理流程,在上述步骤中,若样本数据建模变化数值为0,则说明该模型对网络样本数据的识别效果相对较为稳定[5]。若数值大于0,则说明结果有效,且其数值越高,效果越佳。反之若数值小于0则,说明建模效果不佳,其数值越小效果越差。基于以上原理可有效实现基于Boosted方法的大数据网络样本数据的合理建模。
2实验结果分析
为了验证基于Boosted方法的大数据网络样本数据模型的有效性,进行了实验检测,为保障检测结果精准有效,在相同的实验环境和实验参数下,于传统数据样本模型使用效果进行了对比,具体检测结果如下图所示:
观察以上实验检测结果,其中,A曲线表示本文设计的基于Boosted方法的大数据网絡样本数据模型有效性检测结果,B曲线为传统模型有效性检测结果,观察检测结果可知,随着数据量的增加,基于Boosted方法的大数据网络样本数据模型运行的有效性呈现缓慢的上升趋势,其有效性可达到50%-85%,反观传统模型有效性检测出现明显下降的情况其有效性处于30%-55%之间。因此这证实,基于Boosted方法的大数据网络样本数据模型具有较高的有效性,充分满足研究要求。
3结束语
为了更好地对复杂的网络环境下的数据样本进行合理的分析和建模,提出基于Boosted方法的大数据网络样本数据模型方法,以便对数据样本进行更加准确有效的分析和处理。通过对大数据网络样本特征进行采集和挖掘,结合广义Boosted模型对采集参数进行倾向得分估计,从而实现对网络样本数据合理建模,有效保证网络运行的安全稳定。
参考文献:
[1] 彭道刚, 梅兰, 李生根,等. 基于大数据和神经网络的锅炉燃烧含氧量建模研究[J]. 热能动力工程, 2018, 33(9):86-92.
[2] 董娜, 刘伟娜, 侯波涛. 基于大数据的网络异常行为建模方法[J]. 电力信息与通信技术, 2018(1):6-10.
[3] 孟祥鹏. 大数据网络恶意入侵数据准确恢复仿真研究[J]. 计算机仿真, 2017, 34(12):279-282.
[4] 史金梅, 夏伟. 基于大数据分析的学生最优选课方案模型的设计与实现[J]. 现代电子技术, 2017, 40(14):30-32.
[5] 毛国君, 胡殿军, 谢松燕. 基于分布式数据流的大数据分类模型和算法[J]. 计算机学报, 2017(1):161-175.
【通联编辑:光文玲】