函数型数据分析若干方法及应用的研究
2018-01-26李珺
李珺
摘 要:随着我国进入到大数据时代以来,需要描述和分析的数据种类多样化,数据量急剧增加,而为了能够准确展示出各数据的具体特征,并深刻把握数据之间的变化规律和数据来源等信息内容,人们通常会选择使用函数型数据分析法,即通过将原本离散的数据转化成函数形式,从而通过分析函数型数据探索数据之间的关联性。基于此,本文将通过对几种函数型数据分析方法进行简要介绍,从动作识别和CPI分析两个方面对函数型数据分析法的实际运用进行初步探究。
关键词:函数型数据 数据分析 主成分
引言
作为一种非参数统计的分析方法,函数型数据分析可以摆脱以往统计方法对于参数的限制,其通过重点研究变化的曲线轨迹,在直接打包处理海量数据的基础之上,立足全局的高度对数据中的规律和关系进行有效反映,进而有利于帮助人们解决和处理大量数据的描述与分析问题。
一、函数型数据分析的常用方法
1.方差分析
在函数型数据的方差分析当中,通过将某因素第j类影响下的第i个观测函数设为,其中j=1,2,3,……J而i=1,2,3,……n,则可以用:这一模型进行表示。在这一模型当中, 则为共同均值函数,而和则分别表示第j个水平影响函数以及误差函数。通过对其进行进一步简化后可以得到: 在对残差平方和进行定义之后,通过利用经典方差分析以及数值计算法可以获得相应的参数函数[1]。此时通过利用光滑参数可以对参数函数平滑度进行有效控制,假设两个基函数系统与均能够线性表出Y(t)和β(t),则通过对模型进行变换后即可得到:
2.聚类分析
所谓聚类分析指的就是通过将数据按照其具体类别进行明确划分,类别相近的数据将被统一划分至一个簇当中,簇与簇之间的对象则具有明显的差异性。通过搜集整理大量数据信息并对其进行聚类分析,能够有效掌握各数据源之间的内在关联。而在对函数相似性进行衡量的过程中,本文则主要使用欧式距离这一指标。基于函数型数据下的欧氏距离中,函数和之间的欧式距离表示为:
通过对其进行简化之后即可对两个曲线间的欧式距离进行精确计算,但由于此种方式下计算量相对较大,因此在函数型数据聚类分析当中,可以将点与点之间的欧式距离与之间的差值设定为一个常数,因此对其进行简化变形之后可以得到:
3.主成分分析
在函数型数据分析当中,主成分分析指的就是通过将变量等同于一种函数形式,并将样本协方差矩阵转换成函数形式,此时观测矩阵重复N次观测统一变量,从而其在每一次观测过程中获得的数据均可以构成一个函数型数据,该函数型数据可以用表示[2]。假设在区间[a,b]当中有任意一组观测函数,区间平方可积函数为,在的情况下取最值,则其第一主成分系数函数为,第一主成分得分便为。其中权重函数就是该函数型主成分分析当中的特征
函数。
二、函数型数据分析方法的实际运用
1.动作识别
在将函数型数据分析法运用在动作识别的过程中,首先需要构建函数型数据曲线x(t),令,其中β(t)为函数型回归光滑因子。根据相关研究资料显示,研究人员通过在依次在人体的左右手腕部以及左右脚踝和腰部位置上绑定传感器,并通过将采样频率恒定在30Hz,随后其通过对13名男性和7名女性采集者进行动作采集,最终获得了1300个样本。由于在此次试验当中总共设置了五个测量单元,因此根据其在研究当中罗列出的样本函数矩阵可知,当采样频率控制在30Hz时,传感器序列当中选取的45个点均获取了较为精准的实验结果,平均每1.5秒便会完成一个行为动作。因此研究人员按通过将人的运动周期时间设定为1.5秒,并利用函数型数据分析中的欧氏距离聚类分析方法,将周期数据长度设定为45个点,并随机从样本函数矩阵当中选择某一元素函数,将其作为周期的起始点,也就是人在运动过程中脚部抬起的最高点。通过其给出的相关数据对比示意图可以得知,在采用函数型数据分析方法下,研究人员不仅能够有效完成对人体动作的识别,同时也可以较为精确地周期提取运动数据函数。
2.CPI分析
消费者物价指数本身就是一种非周期性的函数数据,因此通过采用函数型数据分析法,同样能够有效帮助人们完成对消费者物价指数的深入分析。根据曹建新(2017)等人的研究可知,其通过选择2014年至2017年上半年的猪肉价格同比指数,发现随着季节的变化,猪肉价格指数也随之出现相应变动。其在研究中指出,通过对选取的消费价格数据进行拟合之后,拟合曲线比较光滑,因此证明曲线中存在一阶和二阶导数[3]。其随后通过将横纵坐标分别设置为函数中的一阶导数和二阶导数,在重新绘制相平面图后,其发现代表速度的一阶导数和代表加速度的二阶导数之间具有交替变化的情况。因此在函数型数据分析法的指导下,曹建新等人首先通过对变动曲线进行拟合,并将匀滑函数曲线中相对应函数值,从原始数据序列当中排除,以获得真正的季节变动成分以及误差项,随后通过借助拟合基函数的方式,完成拟合季节变动成分,进而发现猪肉价格每三到四年或进入到一个波动变化时期,但随后价格将会逐渐回落至正常状态,而后再次进入到波动变化时期。根据其绘制的函数曲线可知,猪肉价格指数波动变化幅度较大的情况下,季节变动幅度也较大,反之季节变动幅度则相对较小。政府以及相关部门通过利用函数型数据分析法对消费价格指数等信息数据进行深入分析,对其决策决议的制定具有极大的参考意义。
结语
本文主要通过对几种函数型数据分析法进行简要介绍,并从消费者价格指数和人体动作识别两个方面,对函数型数据分析法目前的实际应用进行分析,证明了函数型数据分析法对于处理和解决海量数据信息的优越性。相信随着研究层次的不断加深,未来函数型數据分析法的种类和应用领域还将得到进一步发展。
参考文献
[1]曲爱丽.基于函数型数据分析的沪深权证市场研究一以蝶式权证为例[D].厦门:厦门大学.2014.
[2]严明义.函数性数据的统计分析:思想、方法和应用.统计研究[J]. 2017,11(02):87-94.
[3]曹建新,刘宇峰.广东省猪肉价格上涨对消费价格指数的影响分析[J].粤港澳市场与价格.2017 ,33(07) :19-21.endprint