基于点云数据特征组合数学模型的海量数据统计方法研究
2020-03-24姚娟于喜志
姚娟 于喜志
[摘 要] 针对传统海量数据统计方法中存在的统计过程消耗时间长,无法满足数据传输的高效性需要问题,开展对海量数据统计方法的研究。通过建立基于点云数据特征组合数学模型的多维数据集及统计指标,通过对比实验证明,该数据统计方法与传统统计方法相比统计过程耗时更短,保证了统计数据的可用性,更符合实际需要,并以方差统计软件验证了实验的有效性。
[关 键 词] 点云数据;特征组合;数学模型;海量数据统计
[中图分类号] G642 [文献标志码] A [文章编号] 2096-0603(2020)23-0060-02
在互联网环境中,海量数据包含各类格式,包括文本、音频、视频、数字等,传统海量数据统计均是针对单个类型或单个来源对数据进行分析,并不能有效地解决多数据结构、多数据来源的复杂问题,并且统计得到的分析结果也十分有限,无法有效地解决特定的问题[1,2]。海量数据的统计是针对当前互联网环境中每天产生的各类数据进行分析,其中包括对海量数据的分类、集成、计算分析、提供决策等。与传统统计学模型相比点云数据特征组合数学模型在建模过程中可以提高建模准确性,同时时间效率、所占内存等方面也远远超过传统模型。因此,本文提出一种基于点云数据特征组合数学模型的海量数据统计方法。
一、研究方法与统计指标
笔者对点云数据特征组合数学模型进行过相关研究,是将其应用于机载激光雷达中。此次将点云数据特征组合数学模型应用于海量数据统计中,以求提高统计效率。
(一)建立多维数据集
首先针对不同来源、不同类型的海量数据,针对其不确定性特点,选用点云数据特征组合数学模型中的联合分布函数以及随机分布函数获取海量数据的多维数据集[3]。本文假设点云数据特征组合数学模型为K={k1,k2,k3,…,kn},并且该模型与海量数据的多维数据集P={1,2,3,…,X}一一对应,其中X表示每个多维数据集中的点云数量。本文针对整合的海量数据,将其分为行为日志、用户维度、时间维度、行为类型维度、行为结果维度以及作用对象维度共六个部分。通过点云之间的关系提高整个算法的计算效率,如图1所示。
(二)統计指标建立
选择互联网环境中海量数据作为处理目标,在数据集中包含用户的自身信息、用户行为日志以及各来源渠道中的相关数据等[4]。针对不同的数据集,对其统计指标及计算公式进行设定。
数据停留时间P1:将用户在互联网环境下向另一方用户传输数据时,两者传输到接受时间的间隔,并计为第一次数据传输行为的有效停留时间。这一统计指标可以有效地体现出用户对数据的黏着度。
页面行为次数P2:页面行为主要以对数据的检索、展现以及浏览为主,并且实际范畴远大于浏览行为范畴。这一统计指标可以通过对用户的浏览行为判断数据的适应程度。
会话数P3:指海量数据统计过程中的会话数量。
用户访问数P4:指海量数据统计过程中不同的用户数量[5]。
P1、P2、P3、P4四种不同统计指标的计算公式分别为:
平均数据停留时间:
公式(1)中,Ssum表示用户可统计的停留时间总和;Scount表示用户可统计的停留时间记录数的总和[6]。对统计过程中用户无后续行为的特殊情况,应当利用平均页面停留时间代替用户有停留时间总长,其公式为:
公式(2)中,Ptotal表示用户停留时间总长;tavg表示平均会话持续时间。平均会话持续时间是以数据停留时间的总长与用户会话数相除所得,因此平均会话持续时间可用如下公式表示:
对待统计的海量数据的数据集,可能存在较大的离群点,进而导致数据中隐私信息被泄漏的风险,避免离群点存在泄露数据信息或增加误差的问题,因此基于点云数据特征组合数学模型,将散乱分布的点云数据根据其特征进行融合,获取不同数据集的中心点,完成对数据中心点的采集。首先,假设数据集中的离群点云数据分布在X轴、Y轴和Z轴方向上的值为Xl、Xr、Yl、Yr、Zl、Zr,假设γ表示选中的离群点中的点云数据量,则γ主要通过点云的取值范围以及数据集离群点分布的曲率进行选择。
(三)统计学验证
基于点云数据特征组合数学模型对海量数据进行统计后,借助SPSS软件运用方差统计方法对结果进行分析。
二、海量数据统计与分析
(一)数据来源
选取某一网站中的交易数据作为海量数据统计对象,其中包括交易记录、交易金额等数据信息。借助点云数据特征组合数学模型将离群点数据与近似分组相互融合,首先对原分组进行划分,对海量数据而言,通过快速聚合相似分组,可达到最优的分组融合效果[7]。再对分组数据集进行差分隐私保护处理,从而进一步巩固海量数据统计过程中的隐私性,保证数据统计后统计结果的可用性。
在对海量数据统计前,首先要明确应用数据统计的周期,再确定数据总体构成的基本数据周期。确定指标后,估算应用指标详单的数据总体容量,明确应用指标统计分组的业务主体,再对指标分组的环境因素、数据库服务器、网络交换机能力等综合考虑,给出分组环境因子。再将得到的数据集中离群点进行融合,降低数据统计过程中出现遗漏后数据信息隐私泄漏的问题发生。最终将应用指标分组全量统计结果输入到对应的数据库中存储。
(二)海量数据统计结果对比
依照上述方法,运用本文统计方法与传统方法的统计结果作对比,选择由两台计算机搭建的数据存储平台,并在平台中构建两种不同类型的数据库。表1为计算机与数据库的配置参数信息。
分别利用本文提出的海量数据统计方法与传统数据统计方法,对两个数据库中的数据进行统计,分别设为实验组和对照组,并记录两种方法统计完毕后所消耗的时间,如图2数据统计结果对比图所示。
由图2中的统计结果可以看出,对海量数据的统计所消耗的时间实验组远远少于对照组。因此通过对比图可以看出,本文提出的基于点云数据特征组合数学模型的海量数据统计方法可以较好地解决海量数据统计时的运行效率问题,采用本文方法可以对海量数据进行有效统计和分析,同时保证数据的隐私安全以及运行效率。
(三)方差统计
为验证对比实验的准确性,借助SPSS软件运用方差统计方法对结果进行分析,将上述实验数据输入SPSS软件,统计结果如表2所示。
经方差统计验证,证明上述实验结果具有统计学意义,本文设计的海量数据统计方法能够有效提升运行效率。
三、结语
為了进一步提高海量数据的统计结果可用性及效率,本文提出了一种基于点云数据特征组合数学模型的海量数据统计方法,解决了传统海量数据统计中存在的计算效率低、统计过程中存在隐私泄漏等问题。同时在对比实验中得出,该模型可以更好地满足数据安全性需要,保证数据统计结果具有良好的可用性,具有更高的应用价值。
参考文献:
[1]李俊锋.大数据背景下的统计学发展方向分析[J].中外企业家,2020(5):110.
[2]牛永清.大数据审计下统计分析方法初探[J].纳税,2019,13(1):225.
[3]唐玉兰,项莹雪,马甜甜,等.基于多元统计分析方法的浑河流域沈抚段水质时空特征[J].安全与环境学报,2018,18(5):2008-2012.
[4]卢浩宜.基于统计学方法对试验室结果一致性、有效性分析[J].汽车实用技术,2019(4):125-128.
[5]洪慧,李娟,汪洋,等.基于统计学方法的地下水水质评价与成因分析:以齐齐哈尔市为例[J].环境工程技术学报,2019,9(4):431-439.
[6]霍娇,刘运杰,游一屏,等.大鼠体内Pig-a基因突变试验设计及统计学分析方法建议[J].卫生研究,2018,47(4):525-529,553.
编辑 冯永霞