APP下载

概率论与数理统计在大数据分析中的应用

2020-02-14冯凡

科学导报·学术 2020年2期
关键词:数理统计概率大数据

摘  要:随着信息技术的不断发展,大数据技术成为近些年逐渐兴起的先进技术,通过大数据的分析与运用可以进一步促进技术的发展,为社会进步提供助力。所以,相关大数据技术的研究十分必要,本文主要通过对概率论与数理统计在大数据分析中的应用进行研讨,希望可以起到一定借鉴意义。

关键词:概率;数理统计;大数据

前言

大数据技术的运用可以改善民众生活,提高相关技术的研发水平,促进社会的全面发展。概率论、数据统计与大数据技术存在密切关系,且三者之间的发展具备一定的相互促进作用,所以将概率论与数理统计与大数据分析相融合,对全面提升大数据技术应用水平,促进社会的进步与发展十分必要。

1概率论、数理统计、大数据相关概念分析

1.1概率论概念分析

概率论是数学重要分支之一,主要指用规律表示随机事件发生的可能性。随机现象是随机事件的重要特点之一,随机现象与决定现象是相对概念。决定现象主要指某些事物发生的必然结果,例如标准大气压下沸水温度100℃。随机现象则是指事物在发展中可能出现的结果,在事物发生之前无法预测结果具体朝哪一个方向发展,例如抛掷硬币之前无法知道硬币会出现正面还是反面。概率论在现实中应用比较广泛,例如体育彩票、刮刮乐、双色球等。

1.2数理统计概念分析

数理统计作为高数分支之一,是构成高等数学核心内容之一。数理统计主要指通过对某些现象发生的频率进行观察,在若干次观察之后分析该现象的内在规律,并以此制定相应的精确预测形式。数理统计与其他学科联系密切,例如数理统计学与数学关系密切。另外,数理统计学的应用也越来越广泛,近些年在自然科学、管理科学、人文科学、工程技术中运用越来越广泛深刻[1]。

1.3大数据概念分析

大数据分析主要指对大量数据进行处理分析,其中数据的数量十分庞大。大数据分析是近几年最为火热的词汇之一,伴随大数据技术的运用不断深入,数据库、数据挖掘等以大数据技术为基础的相关技术逐渐得到应用,这些技术的商业价值逐渐铺展开来,一定程度上促进了大数据分析研究。大数据主要具备快速度、多类型、高真实性、高价值等特点,为大数据技术开发运用提供可能。当前关于大数据分析的内容包括六方面,包括数据库(数据存储/数据仓库)、可视化分析(Analytic Visualizations)、预测性分析(Predictive Analytic Capabilities)、语义引擎(Semantic Engines)、数据质量管理(Data Quality and Master Data Management)、数据挖掘算法(Data Mining Algorithms)。

2概率论与数理统计与大数据关系分析

2.1概率论与数理统计与大数据分析同属数据研究的方法之一

科学研究并不是对所有的事物都进行研究,往往在进行科学研究时只是选择一定量的研究对象,之后进行缜密的实验,从个体实验推导出整体规律。无论是概率论还是数理统计,亦或是大数据分析都是基于一定范围内研究对象进行研究,同样可以看做是科学研究的具体方法之一。三者对比之下,大数据技术分析在科学研究中,相对可靠性更强,研究的质量更高,为定量研究提供了新的研究方法。三者在科学研究中的应用各具特色,各有其自身的指导理论。例如,概率论与数理统计在科学研究中,根据定量化水平的不同,分为等距数据、名义数据、比率数据等概念,且不同的数据在统计方式运用上也不相同。相较于概率论与数理统计来说大数据在数据分析中所能应用的手段要更加广泛丰富。例如,大数据技术在分析上可以利用非结构化数据,可以对文字、图片等数据进行整理,之后利用数据定量转化,然后进行分析得出相关数据研究结果。综上可知,三者在数据分析与处理上大体步骤相同,第一步先对数据进行定量,第二步对定量数据进行分析,第三步得出相应的数据分析结果。相关研究者按照相应数据模型,通过数据研究,划定相应的数据量,以求更为精准的探究研究对象之间存在的内在特征与联系,为决策优化提供依据,这也是概率论与数理统计与大数据分析联系的一种内在表现。

2.2概率论与数理统计与大数据分析同属数据科学范畴

数据科学主要是通过对数据进行分析的一种科学门类,简言之利用科学方式对数据进行研究。数据科学研究涵盖领域丰富,包括数理统计、数学、计算机等学科。在数据科学研究中数理统计学作为数据科学研究的理论基础,足见数理统计学与数据研究科学的关系。尽管当前数据分析技术已经有所发展,但数据分析中也不可能将所有的数据进行汇总,这样就不得不选取整体数据中的一部分,进行“样本”统计,得出相应的答案,从此不难看出概率论作为数据研究科学的重要手段。另外,通过概率论对研究数据进行细致分析,排除其中干扰因素与偏差数据,进一步提升数据研究的精准度,对数据研究科学发展意义明显。而大数据分析更是数据研究科学的发展前沿,与数据研究关系更是密切。综上可知,概率论与数理统计与大数据分析同属于数据科学领域,且通过对三者关系进行协调,提升概率论、数理统计、大数据分析的科学运用,对于提升数据精准度意义深远[2]。

2.3概率論与数理统计与大数据分析与计算机技术关系密切

三者与计算机网络技术十分密切,尤其是大数据技术。大数据技术是在计算机技术普及之后逐渐发展起来的,且伴随着网络技术与大数据技术的不断融合,使得互联网与云计算发展更加成熟。大数据技术与计算机技术关系密切,相互作用共同促进彼此的进一步成熟与发展。一方面,大数据技术的发展为计算机技术的发展提供技术支持。大数据技术的发展,为计算机技术发展提供相应数据需求。计算机技术发展需要巨量的数据支撑,大数据技术恰好满足计算技术这一点,进而为计算机技术发展提供数据支持。大数据技术的发展还为计算机技术提供了创新算法与程序,大大促进计算机技术的发展。同时,大数据技术的发展迫使计算机技术不断进步发展,以求适应大数据技术的发展需要,进而促进科学研究发展。另一方面,计算机技术让大数据技术的实现成为可能。大数据分析时分析的数据基数很大,这么巨大的数据并不是普通的技术就可以分析的。计算机技术的存在恰好可以满足大数据分析处理需求,让大数据分析实现成为可能。例如,Hadoop平台,是当前应用十分广泛的大数据处理平台。

概率论与数理统计与计算机技术关系也比较密切,虽然概率论与数理统计出现的要早于计算机技术,但并不影响二者之间相互影响作用,其二者之间的关系比较密切。一方面,概率论与数理统计为计算机数据处理提供了基本算法与程序。计算机技术在进行数据处理计算时需要相应科学算法才能实现,概率论与数理统计程序严格,可以满足计算机技术应用需要,提升计算机数据计算精确性。另一方面,计算机技术的发展,为概率论与数理统计完善数据处理算法,大大提高统计效率[3]。

2.4概率论与数理统计与大数据差异点分析

概率论与数理统计与大数据分析除了关系密切之外,还存在很多不同点,具体区别如下:第一,概率论与数理统计与大数据处理的对象不同。数理统计与概率论涉及的数据处理相对数量不大,一般数据类型处理的形式也十分单一,而大数据技术数据处理的数据形式比较丰富,除了常规数据处理之外还可以处理图形等非结构性数据。第二,概率论与数理统计与大数据依据的原理不同。概率论与数理统计在应用中对数据考量有限,大多时候由于数据收集不全不得不先进行假设之后针对假设进行论证,例如抽样分布定理、大数定律等。而大数据技术收集数据的能力强,基本上可以全体数据进行分析,除了表面数据关系之外,还可以挖掘隐藏数据关系,更为全方位的开发数据的意义。第三,概率论与数理统计与大数据所用平台不同。概率论与数理统计在运用中大多运用集中式的计算环境,而大数据分析技术应用中运用的平台是分布式计算环境。

3概率论与数理统计在大数据分析中的应用

3.1加强概率论与数理统计相关理论知识的理解

为了提升大数据技术的应用水平,相关部门需要加强概率论与数理统计相关内容的教学工作,提升相关人员对概率论与数理统计理解,为数据研究科学的发展提供基础条件。首先,相关部门需要注重基础数据处理科学的教学。相关部门需要注重相关数学科学研究知识的系统性教学,从小学到大学,全方位进行相关数据技术的教学,培养专业大数据人才,为数据研究工作提供保障。其次,加强概率论与数理统计在大数据相关技术软件教学。全社会相关部门需要适当加强概率论与数理统计在大数据相关技术软件教学,提升相关软件操作能力,为大数据技术的推广与应用提供保障[4]。

3.2经济数据分析中概率论与数理统计应用

大数据时代背景下,相关理论与技术的应用十分必要,尤其是经济数据的处理,对经济发展作用比较明显。首先,通过概率论与数理统计应用可以降低经济数据处理难度。大数据时代互联网信息十分丰富,经济数据充斥其中从中挑选出来难度比较大,利用概率论与数理统计相关技术应用,可以大大降低信息筛选的难度,更为有效的对经济数据进行处理。例如,在经济数据分析中可以利用正态概率分布方式进行收集处理分析,这种方式在金融与经济领域运用比较广泛。正态分布分析方式可以快速对经济信息进行收集与分析,并且结合数据分析结果对当前市场经济发展的具体情况进行调查,降低经济信息理解难度,增加民众理解深度,促进社会经济发展。另外,这些经济数据的处理结果,还可以为之后的经济发展战略制定提供一定参考,提升经济发展策略的科学性[5]。

其次,通过概率论与数理统计应用可以科学预测市场经济风险。市场经济发展过程中各种经济因素共同充斥,使得经济变幻莫测各种经济风险重重,通过科学概率论与数理统计对风险实现科学监控,并及时进行预防治理,确保经济发展环境的稳定与良好。相关部门通过概率论与数理统计应用对市场经济中各种因素数据进行分析处理,核算相应的风险发生概率,为风险预防提供依据[6]。

3.3商业数据分析中概率论与数理统计应用

在大数据环境下商业数据的分析也十分重要,对经济的影响比较大,相关技术人员及时进行科学的数据分析十分必要。商业数据与经济数据存在一定关系,所以,在相关商业数据的处理与分析上可以适当选择经济数据分析方式,但在具体数据分析上要根据具体的商业发展情况,制定科学的商业数据处理方案,为经济发展提供科学依据。首先,企业在发展中要充分利用概率论与数理统计。企业在发展中要充分运用概率论与数理统计与大数据技术,对自身相关商业信息进行分析,方便分析当前企业发展的情况,为企业发展策略制定提供可靠依据。企业在商业数据收集方面需要做到全面具体,从自身业务数据信息、交易信息、财务信息、客户信息等方面,全面收集自身发展数据,为之后发展策略制定提供更为全面具体的依据。

其次,企业在数据处理与分析上可以完善相应的数据模型。企业在商务数据处理模型设计方面要注重符合下述要求:第一,控制流失数据可以满足统一的函数;第二,流失数据要满足流失函数指数项,之后分析哪些因素导致客户信息流失,对数据具体情况进行分析,为企业相关策略制定提供保障;第三,计算走势图的相关函数,并利用函数对相关内容进行检验,确保商务数据处理的准确性;第四,通过相应的数据处理对客户情况进行追踪,第一时间掌握相关客户动向,以客户需求为导向,提升企业服务水准;第五,当相关数学模型建设完成后要选择科学的参数的协变量,然后通过相关概率论与数理统计,对其他商务因素进行分析,提升数学模型的精準性,促进企业的自身发展。

结束语

综上所述,概率论与数理统计在大数据分析中的应用比较广泛,在具体运用中可以从加强概率论与数理统计相关理论知识的理解、经济数据分析中概率论与数理统计应用、商业数据分析中概率论与数理统计应用等方面,全面提升应用水平,为社会发展贡献力量。

参考文献

[1]  曹显兵,熊令纯,施明存. 概率统计教学中的几个问题分析[J]. 数学的实践与认识,2018(21).

[2]  吴剑,钱进. R软件在工科概率论与数理统计教学中的应用[J]. 考试周刊,2019(29).

[3]  王丽琦. 如何提高大班授课的课堂效率——基于辽宁省跨校修读学分《概率论与数理统计》课程的思考[J]. 高考,2019(2):54-54.

[4]  张卯生,赵丽芬. 巧借信息技术优化“CAP概率论与数理统计”教学策略研究[C]// 2018.

[5]  杨洋. OBE教学模式下《概率论与数理统计》课程教学实践研究[J]. 时代教育,2017(11):5-5.

[6]  张旭清. 基于MOOC平台的概率论与数理统计课堂教学的几点思考[J]. 考试周刊,2018(93):3-4.

作者简介:冯凡,女,1992.05,汉,河北省衡水市,本科,职称:无,研究方向:概率论与数理统计。

猜你喜欢

数理统计概率大数据
大数据分析思维在数理统计教学中的应用
线上线下混合教学模式在概率论与数理统计课程中的应用
概率与统计(1)
概率与统计(2)
概率与统计解答题集锦
基于大数据背景下的智慧城市建设研究
概率统计教学中培养学生创新思维和实践能力的探索与实践