基于云计算的海量高校体育数据建模与分析

2017-04-14王宁涛

现代电子技术 2017年7期

王宁涛

摘要：为了提高高校体育信息的管理分析能力，针对当前高校体育数据库建立和信息检索的实时性和系统性不好的问题，提出基于云计算的海量高校体育数据建模与分析方法，构建高校海量体育数据的分布式数据库模型。在云计算环境下进行数据库访问模型设计，采用K均值数据聚类方法进行体育数据的可靠性挖掘，实现高校体育数据的优化信息调度和检索分析。仿真结果表明，采用该模型进行高校海量体育数据分析的实时性较好，数据挖掘的精度较高。

关键词：云计算；海量数据；数据挖掘； K均值

中图分类号： TN911.1?34； TP391 文献标识码： A 文章编号： 1004?373X（2017）07?0105?04

Mass college sports data modeling and analysis based on cloud computing

WANG Ningtao

（Zhongzhou University， Zhengzhou 450044， China）

Abstract： In order to improve the management and analysis capabilities of the college sports information， and aiming at the poor real?time performance and systematicness of the current college sports database establishment and information retrieval， a massive college sports data modeling and analysis method based on cloud computing is proposed. The distributed database model of the college mass sports data was constructed. The database access model was designed under cloud computing environment. The K?means data clustering method is used to mine the sports data reliably to realize the optimization information scheduling and retrieval analysis of the college sports data. The simulation results show that the model has high real?time performance to analyze the college massive sports data， and high data mining accuracy.

Keywords： cloud computing； massive data； data mining； K?means

0 引言

随着海量大数据信息处理技术的发展，采用云计算进行大数据信息分析能提高数据处理的并行能力和计算速度，结合云存储数据库进行数据存储和访问，提高海量数据存储的容量[1?2]。高校的体育数据信息管理是通过对体育数据信息的特征分析，结合大数据信息处理，挖掘高校海量体育数据信息的规律性特征，掌握学生体育训练的成绩和分布，结合专家系统和经验判断，进行体育训练水平的研究和判断[3]。

为制定合理的体育训练和管理制度提供数据基础，本文针对当前体育数据处理的并行度不高，系统性不强的问题，提出一种基于云计算的高校体育数据建模分析方法，通过构建数据库管理模型，结合数据库访问和数据挖掘技术，实现体育数据管理建模。

1 海量高校体育数据的数据库

1.1 数据存储结构的散布点集合

海量高校体育数据是一组非线性时间序列，采用非线性时间序列分析方法进行云计算分析，假设体育数据在云计算环境下的存储结构模型为[G（0）=（V，E，LV，LE，μ，η），][η：E→LE]是两个分布式的云计算特征映射，体育数据管理的概念节点[G1=Mα1，Mβ1，Y1，][G2=Mα2，Mβ2，Y2，]令[A=][a1，a2，…，an]为海量高校体育数据特征矢量的模糊聚类中心[4?5]，在给定的云计算特征分布结构下进行数据库结构模型构建，本文假设云计算存储数据库是可分类的，引入一个物理数据层管理因子[β?0，0.5]，进行数据库的概念格分区，通过网格访问模式进行高校体育数据的访问和调度，提高数据的处理能力，在限定初始特征信息下进行海量高校体育数据的存储结构分析，利用指向性数据聚类方法分析计算高校体育数据分布的散布点集合[S]，表示如下：

[S=U，A，V，f] （1）

令[x（n）]为海量高校体育数据的时频采样信息特征，待挖掘的体育数据的输入模型为：

[g（t）=1πΔ2texp-t22Δ2t] （2）

通过对体育数据存储结构的散布点集合进行计算，得到散布点分布集合为：

[u（t）=Aexp（j2πf0t）+U] （3）

式中：[U]为体育数据采样幅值论域；[A]为体育数据存储结构的特征分布非空集合。

1.2 数据云计算存储数据库的调度

在给定的海量高校体育数据分布的权重指数下，数据库特征分类权重[ai]的属性值为[p，]在有效的数据库访问请求下，构建云计算存储数据库的数据存储信道模型，描述为：

[x（t）=Rean（t）e-j2πfcτn（t）sl（t-τn（t））e-j2πfct] （4）

其中，云计算存储数据库中海量高校体育数据初始调度网格赋值表示为：

[U×A→V] （5）

为了实现体育数据管理数据库信息模型构建，采用自适应信道加权方法进行云存储数据库的网格分布区域拟合，得到数据库分布的网格结构为：

[c（τ，t）=nan（t）e-j2πfcτn（t）δ（t-τn（t））] （6）

式中：[an（t）]是第[n]条数据存储通道上的时间?频率联合特征分析；[τn（t）]为第[n]条数据存储路径扩展时延；[fc]为云计算存储数据库中的数据属性权重。

设定模糊算子映射到综合评价矩阵，进行初始化网格调度，得到云计算存储数据库数据存储节点的传递路径的映射关系为：

[h（t）=i=1Paip（t-τi）] （7）

式中：[ai]和[τi]分别是云计算存储数据库中海量高校体育数据的传播损失和传递时延。

海量体育数据特征分布的状态空间重构为：

[y（t）=kx（kt）， k>0] （8）

[Wy（t，v）=Wx（kt，vk）] （9）

式中：[k]表示数据信息采样频率；[v]表示云计算存储数据库的存储带宽；[Wx]为时间窗口函数。

给出体育数据的云计算存储数据库的数据信息的静态量化信息模型为：

[maxF（X）=（F1（X），F2（X），…，Fn（X）） s.t. gj（X）≤0 ，j=1，2，…，p hk（X）=0，k=1，2，…，p] （10）

式中[gj（X）]为混合模型参量。

在体育数据云存储散点状态下，海量体育数据特征分类训练集的属性为：

[Vi（t+1）=wVi（t）+c1×rand（?）×（Pi-Xi（t））+ c2×rand（?）×（Pg-Xi（t））] （11）

结合时间序列分析方法得到海量高校体育数据存储模型的调度概念格为：

[y（t）=x（t-t0）?Wy（t，v）=Wx（t-t0，v）y（t）=x（t）ej2πv0t?Wy（t，v）=Wx（t，v-v0）] （12）

2 海量高校体育数据挖掘

2.1 数据挖掘的关联特征匹配

设海量高校体育数据最流样本[S=X1，X2，…，Xk，…]分布于数据库网络空间概念格[T1，T2，…，TK，…]中，基于属性集合进行数据特征分类，得到云计算环境下体育数据库[i]层级的返回属性状态[x0（tk）]，输入体育数据的访问执行序列，即：

[uj（s；t0）=0， s∈[t0，t1]] （13）

假定数据结构模型为某种几何空间[S，]通过计算体育管理数据库中的特征点[Xi]到另一个点[Xj]之间的距离，进行数据挖掘的信息分布评估，得到节点时间的距离为：

[dist（Xi，Xj）=k=1d（xik-xjk）2] （14）

在云计算环境下的海量體育数据库散布点中，通过特征映射构建海量高校体育数据流挖掘的路径访问图模型，如图1所示。

在图1所示的访问模型中，每个时间片都可以用来处理体育数据挖掘的请求任务，通过区间概念格的信息点重组，对采集数据集合[S]通过关联特征匹配，得到数据挖掘的关联信息分布关系为：

[xk=f{xk-1，uk-1，wk-1}] （15）

式中：[wk]为预测权重；[uk]为读取该批数据流中的一个数据点的特征值。

在云计算分布几何空间[S]中，数据挖掘的关联特征匹配式为：

[indP=x，y∈U2ax=ay，?a∈P] （16）

式中：云计算存储数据库散布点的关联特征匹配关系是一种一一映射等价关系；[indP]等价于各种条件的集合。

2.2 数据的K均值聚类挖掘

在进行海量高校体育数据挖掘的关联特征匹配的基础上，采用K均值聚类方法进行数据挖掘，实现高校体育数据的优化信息调度和检索分析[6]。设定海量体育数据访问的时间控制阈值[Tsim∈（0，1]]，设任意两个聚类属性簇头节点[Mi]与[Mj]的中心距离为[Clustdist（Mi，Mj）]，利用K?Means算法聚类得到体育数据的云计算存储数据库的数据关系[A={A1，A2，…，Am}]，其中，体育数据的二叉分类属性满足[（i≠j，1≤i≤q，1≤j≤q）]，确定体育数据流挖掘的约束向量，通过访问路径控制，得到整个搜索空间的特征相似度表示为：

[B2=4πEx-∞+∞（v-vm）2X（v）2dv] （17）

通过设计K均值聚类的传输算子[hi（t）]，进行海量高校体育数据的路径访问控制，定义该距离为两簇合并的距离mergedistance[7]，得到海量高校体育数据在云计算存储数据库的平均互信息特征集为：

[D″i，jtn+1=D′i，jtn+1+fnD′i，jtn2] （18）

查询获得的信任值，在K均值聚类下进行特征空间压缩，执行数据挖掘的平滑处理，得到平滑算子为：

[dfssi，j=dfsi，j?hσf] （19）

设每个数据聚类中心矢量[Xi]都是[d]维的，记作[Xi=（xi1，xi2，…，xid），]其中任一训练样本[Xk=][xk1，xk2，…，xkm，…，xkM，]通过对云计算存储数据库的初始查询，得到模型为：

[x′j（k）=11+e-u′i（k）， j=1，2，3] （20）

建立数据库整体逻辑映射的查询条件机制，进行数据流相邻时间段模式匹配，在属性值和用户检索机制中设定查询条件，令[x（n）]为有限数据长度的数据信息特征，通过K均值聚类，得到体育数据库的访问互信息量为[Rx，c′i（τ）=E[x*（t）c′i（t+τ）]=Ej=1nc*j（t）c′i（t+τ）=E[c*1（t）c′i（t+τ）]+…+E[c*i（t）c′i（t+τ）]+…+ E[c*n（t）c′i（t+τ）]=Rci，c′i（τ）+j=1，j≠inRcj，c′i（τ）=Rci，c′i（τ）]

式中：[i=1，2，…，n，]进行索引指令控制。

通过权向量编码，在K均值聚类下[8]，高校体育数据挖掘输出的属性集合幂级指数信息为：

[rt+1i=r0i1-exp（-λt）] （22）

在K均值聚类分析中，采用时间?频率联合特征分析进行云计算存储数据库中的海量高校体育数据的时域分析，判断进化代数，通过权向量编码得到海量高校体育数据的频域特征状态空间重组计算式为：

[X0i=（x0i1，…，x0in，…，x0id）， i=1，2，…，p] （23）

通过上述处理，采用K均值数据聚类方法进行体育数据的可靠性挖掘，实现了基于云计算的海量高校体育数据建模分析。

3 仿真测试与结果分析

在Matlab和C++仿真平台上进行海量高校体育数据建模分析仿真实验，数据序列的原始样本数据源于某高校体育部提供的学生体育成绩的相关数据信息，体育数据的统计时间为2012年9月20日—2016年6月30日，构建体育数据的分布时间序列，时间序列样本长度为1 024，进行体育信息管理的云计算数据库构建，数据库特征空间的维度设置为4，体育数据库访问的迭代次数为100，首先进行体育数据信息流模型构建，采用非线性时间序列分析方法得到体育数据在两组统计通道上的时域采样结果，如图2所示。

以上述高校体育数据的测试样本集在云计算环境下进行数据库访问模型设计，采用K均值数据聚类方法进行体育数据的挖掘，图3描述的是不同方法进行体育数据挖掘访问的时间开销对比，图4给出了挖掘的精度对比，分析仿真结果得知，采用本文方法进行海量高校体育数据库建模和数据挖掘分析，时间开销较小，说明进行数据分析的实时性较高，数据挖掘精度较高，数据访问检索的精度和可靠性较优。

4 结语

本文研究高校体育数据库模型的构建和数据挖掘问题，为提高高校体育信息的管理分析能力，提出一种基于云计算的海量高校体育数据建模与分析方法，构建高校海量体育数据的分布式数据库模型，在云计算环境下进行数据库访问模型设计，采用K均值数据聚类方法进行体育数据的可靠性挖掘，实现高校体育数据的优化信息调度和检索分析。仿真结果表明，采用该模型进行高校海联体育数据分析的实时性较好，数据挖掘的精度较高，可靠性较好，具有一定的应用前景。

参考文献

[1] 严海芳，蒋卉，张文权.用MCEM加速算法估计多序列无根树最优分支长度[J].湘潭大学自然科学学报，2014，36（2）：13?16.

[2] 刘颖，苏俊峰，朱明强.基于迭代容积粒子滤波的蒙特卡洛定位算法[J].信息与控制，2013，42（5）：632?637.

[3] 徐金龙，赵荣彩，韩林.分段约束的超字并行向量发掘路径优化算法[J].计算机应用，2015，35（4）：950?955.

[4] 周亚兰.基于FPGA的多通道数据解码技术研究[J].物联网技术，2015，5（3）：32?34.

[5] 杜丽萍，李晓戈，周元哲，等.互信息改进方法在術语抽取中的应用[J].计算机应用，2015，35（4）：996?1000.

[6] YAMAMOTO K， CARUSONE A C. A 1?1?1?1 MASH delta?sigma modulator with dynamic comparator?based OTAs [C]// Proceedings of 2011 IEEE Custom Integrated Circuits. [S.l.]： IEEE， 2011： 1866?1883.

[7] CZIBULA G， MARIAN Z， CZIBULA I G. Detecting software design defects using relational association rule mining [J]. Know?ledge and information systems， 2015， 42（3）： 545?577.

[8] HILLS J， BAGNALL A， IGLESIA B， et al. BruteSuppression： a size reduction method for Apriori rule sets [J]. Journal of intelligent information systems， 2013， 40（3）： 431?454.