基于高斯分布模型的数据去噪算法
2015-05-30刘涛高慧
刘涛 高慧
【摘要】 为了预测未来某时刻风力发电功率的情况,论文提出了一种高斯分布模型,并以此模型为基础利用高斯分布的特点对每一区域进行去噪处理,进而拟合出一条合适的预测曲线。通过对实验数据的分析验证了高斯分布模型的可行性。
【关键词】 高斯分布 去噪
数据预处理是指在主要的处理以前对数据进行的一些处理。现实世界中的数据大体上都是不完整、不一致的噪声数据,无法直接进行数据挖掘,或挖掘结果差强人意。为了提高数据挖掘的质量产生了数据预处理技术。数据预处理有多种方法:数据清理,数据集成,数据变换,数据规约等。这些数据处理技术在数据挖掘之前使用,大大提高了数据挖掘模式的质量,降低实际挖掘所需要的时间。
论文主要采用了一种新型的基于正态分布模型的去噪方法,在数据挖掘前进行预处理,使数据挖掘得到的效果更加令人满意。
一、改进的数据去噪算法
目前的数据去噪算法有很多种,例如K-近临点云去噪算法、散乱点云去噪算法、基于几何关系的数据点云去噪算法等等,但是各种各样的数据去噪算法都存在着一定的问题。
本文所采用的方法是基于高斯分布模型的数据去噪算法,在研究原有算法的基础上加以分析,进一步优化数据去噪算法,弥补了多种去噪算法的缺点,进而更好的进行去噪处理,得到理想的结果。
1.1算法基本思想
通过高斯分布模型对整体数据进行收缩进而求得数据分布的中心点,直到中心点小于某一误差。每一步用正态分布去拟合,求得方差,按比例去掉方差之外的点,直至收敛。
1.2算法具体内容
A、将原始数据在X轴上分成N等份区间,对于每一个区间内的数据分布都看成是一个正态分布模型,然后求出正态分布的均值μ和标准差σ。由于有大量噪声数据的影响,所以之前求出的均值μ和标准差σ并不是最准确最理想的数值,进而对剩下的数据进行迭代操作。
σ越大,数据分布越分散,σ越小,数据分布越集中在μ附近。对每个区间的数据进行有限次迭代直至σ逐渐趋向收敛。
B、对每个区间进行完如上操作之后,根据数据挖掘需求者的误差允许范围设置一个理想的误差参数,使得到的数据都处于理想误差范围之内。
初始化理想的误差参数为m%,对每个区间随机取样20个数据,将这20个随机样本看作是一个小的正态分布模型,进行同样的操作求出随机样本的均值μi和标准差σi。将随机样本的均值μi和标准差σi和整个区间的均值μ和标准差σ进行比较,若误差在m%以为,则本区间去噪成功,若误差在m%以外,则对本区间的所有数据继续进行迭代操作,直至误差范围在m%以内或者达到设定的最大迭代次数为止。
C、最后将所有区间的数据处理完之后利用matlab拟合出一条分布曲线,求出数据分布曲线的函数,然后对数据进行进一步分析处理,通过求得的分布函数进行风力发电预测。
二、风力发电预测问题
本文主要针对风电预测问题进行分析,并应用实例分析去噪算法,进而对结果加以分析,从而验证算法的可行性。
根据电力调度部门的安排,风电功率预测分为日前预测和实时预测。
实例:某风电场由N台风电机组构成,每台机组的额定输出功率固定。附件中给出了2006年6月10日至2013年8月15日时间段内该风电场中指定的风电机组输出功率数据记为W,另有测得实时的风速为V,表中仅列出其中一部分数据,请利用Matlab程序拟合出风速与功率之间的关系。由于测得数据量较大,下面仅给出原始数据分布图。
三、基于改进的数据去噪算法的实验研究
风力发电原始数据分布图如图1所示:
首先根据改进算法的第一步对原始数据进行处理,将X轴分成N等份,然后对每个区间的数据进行预处理求得均值和方差,将误差之外的噪声点全部删除,最后将得到的处理后的数据导入Matlab中进行曲线拟合,进而对发电功率进行实时预测,处理后的数据拟合曲线效果图如图2所示:
利用三次方的高斯公式拟合得到预测函数:
f(x) =a1*exp(-((x-b1)/c1)^2) + a2*exp(-((x-b2)/c2)^2)+a3*exp(-((x-b3)/c3)^2)
a1 = 1450 b1 = 22.27 c1 = 6.832 a2 = 6.371e+005 b2 = 15.24
c2 = 7.614e-005 a3 = 1181 b3 = 12.96 c3 = 5.477
通过随机取样验证了模型的可行性和合理性。
四、总结
本论文提出的正态分布模型通过简单的区间划分和数据迭代,对原始数据进行了预处理,去除了对数据挖掘有影响的噪声数据,进而使得数据挖掘的精确性更高,得到的数据更有价值性。实验通过正反对比检验,验证了模型的可行性及正确性。最后通过matlab拟合得到预测函数,从而可以对未来某一时刻的风力发电功率进行精确预测。这一模型不仅可以用于本实验的数据,对于大多数数据分布集中且有线性规律的数据都可以应用。同时该模型更是为以后数据挖掘预处理提供了一种好的思想,会在未来更好的发展利用。
参 考 文 献
[1] 董明晓,郑康平.一种点云数据噪声点的随机滤波处理方法[J].中国图像图形学报,2004,9(2):246-248.
[2] 刘大峰,廖文和,戴宁,等.散乱点云去噪算法的研究与实现[J].东南大学学报,2007,37(6).
[3] 王丽辉,袁保宗.鲁棒的模糊C均值和点云双边滤波去噪[J].北京交通大学学报,2008,32(2).
[4] 顾亚芳.高斯模糊图像的盲复原[D].南京:东南大学,2005