统计学理论在大数据分析中的应用
2023-02-22对外经济贸易大学
魏 斌 对外经济贸易大学
统计学是数据分析的灵魂,而大数据分析离不开统计学理论的支持,二者是相互关联、相互影响的关系。换句话来说,大数据告知信息但不解释信息,想要了解这些信息背后的内涵与规律,就需要进行数据分析,虽然借助计算机技术可以实现对海量数据的评估与推断,但没有系统的数据科学作为指导,也很难保证数据分析的全面性与准确性。而统计学理论无疑是数据学科中非常重要的一门,将其应用到大数据分析当中,不仅可以更好地从海量数据中提取规律、创造新价值,而且还能够量化数据中的不确定性,提高数据分析的准确率。由此可见,在当前时代背景下,加强对统计学理论在大数据分析中的应用研究,具有非常突出的现实意义。
一、大数据的基本概述
(一)什么是数据
数据在拉丁文里指“已知”,代表已经知道且存在的内容,在英文中指的是“一组事实的集合,通过对其的研究与分析,能够得出一定结论的,统称为数据”。在我国,数据指的就是数值,数字、文字、图像都可以是它的一种形式,具体来说就是指通过实验、计算得出的结果,可用于科学研究、设计和查证等当中。总的来说,凡是用某种载体记录下来的,并且可以反馈出一定信息量的,都可以称之为数据,比如在远古时期,人类记载信息的方式就是结绳,进入现代社会之后,人们获取信息的渠道逐渐增多,信息的种类与数量也愈发增多,使得数据的呈现形式也发生了巨大变化,数字、文字、图像、音频都可作为它的载体。
(二)什么是大数据
大数据与数据的本质区别就在于“大”,这里所说的“大”通常指量的增多,包括数量与种类。简而言之,大数据指的就是巨量资料,这些资料通常来自于不同渠道,并以多元形式产生和存储下来,具有实时性、复杂性、海量性等特征。我们的生活中处处有大数据,例如,神经科学领域中,精神分裂症、阿尔茨海默症等病症都被证明与大脑连接网络有关,而功能性核磁共振成像技术就是通过持续产生大量高分辨率的大脑图像,来帮助研究人员厘清大脑与潜在反应之间的联系。另外,在金融领域中,通过对大数据的收集、整理与分析,还能够帮助企业衡量风险,做出更好的经营决策。由此可以看出,大数据最核心的价值,不是体现在其大量、高速、实时等优势特征上,而是体现在对海量资料价值的挖掘和呈现上,这也是大数据分析的由来。
(三)大数据分析的意义
所谓的大数据分析,简单来说就是指通过对过去发生的现象进行大量的数据采集与分析,找到事物存在的原因,并形成有效结论,然后在此基础上给出科学合理的指导性建议。大数据分析的主要目的不仅是为了得出结论,更是为了挖掘一切有用的信息资源,生成更具有价值优势的数据库,为各行各业的发展提供指导。举例来说,通过大数据分析,可以帮助大型服务类企业更好地进行精准营销,提高市场占有率;也可以帮助中小微企业更快地进行服务转型,以免被市场所淘汰;同时还可以帮助传统企业更好地进行改革创新,探索出一条可行的发展之路。以上是从大方向来展现大数据分析的价值,从小方向上来看,大数据分析有着更为突出的优势作用,比如帮助企业降低成本、提高效率;及时解决各种问题和缺陷;开发新产品、做出正确决策;识别金牌客户、躲避欺诈行为等等。
二、统计学的基本概述
(一)什么是统计学
统计学是数学学科的分支,是指通过搜索、整理、分析等方式,来推理对象本质和预测对象未来的一门学科课程,通常会运用到除数学知识以外的其他学科知识,在众多领域中都有广泛应用。换言之,统计学是一门认识客观现象数量规律性的学科,具有客观、准确和可检验的特征,涉及到的变量有分类变量、顺序变量、数值型变量等,按照其统计方法的不同,可以将统计学理论划分为不同的类型,比如描述统计、推断统计等,不同的统计方法所起到的作用也是有所差异的,在具体应用过程中需结合实际情况进行合理选择。误用统计学所带来的影响非常大,轻则会导致描述面或推论面出错,造成最终结果的不准确,重则会导致应用领域出现重大变故,比如对医疗实践的影响、对核能发电计划结构可靠性的影响等等,因此,合理应用统计学非常关键。
(二)统计学的作用
统计学在我们的日常生活十分常见,对人们的生产生活起到了极大的促进作用,任何人都可以利用统计学实现想要达成的目标,比如学生可以用它估计自己是否被名校录取、商人可以用它来制定销售计划、Netflix通过数据预测观众接下来想看的节目、政府可以用它来判断是否要加强精神卫生服务建设等等。从某种程度上来说,统计学既是国家宏观调控的重要工具,同时也是企业管理与决策制定的重要依据,加强对其的有效应用与分析,对国家和企业的未来发展都有巨大的推动作用。
三、统计学理论与大数据分析的关联性
(一)内在逻辑关联
通过前文对统计学理论与大数据分析的相关研究可以看出,二者在本质上的内在逻辑是有一定关联性的。以数据分析为例,统计学理论通常是借助各种理论进行指导,并运用数理分析工具来挖掘出具背后的规律,而大数据分析采用的是先进技术手段,可以实现对海量数据的分析与推断,得出更为全面、具体的结论,充分挖掘出这些数据背后的规律。由此可见,传统的统计学理论在数据分析这一方面,优势并不突出,而且在分析过程中还有可能受人为因素的影响,导致数据出错或遗漏,进而造成分析结果出现较大误差,但是基于计算机技术的大数据分析则可以很好地规避这类问题的发生,在分析结果的准确性方面更具优势。总的来说,不管是统计学分析还是大数据分析,二者的基本思路、最终目标都是一致的,都是通过深入挖掘数据资料,来构建预测模型,并最终得出相应结论的过程,所以二者的内在逻辑存在较大的关联性。
(二)分析方式一致
在统计学分析中,为了更好地对数据信息进行挖掘,通常需要先进行数据的统计与整理,将原本杂乱无章的数据变得更加有序,以便为后续寻找数据之间的规律做好铺垫。同样的,在进行大数据分析时,也需要对各类数据进行有效整合,形成一种可制表的数据形式,这样才能更好地运用计算机技术进行数据规律的挖掘与探寻。所以,从一定程度上来说,统计学分析与大数据分析在分析方式上也存在关联性,因为二者的分析对象必须是定量数据形式,而想要达到这一点,就需要提前对原始信息形式进行转化,虽然转化的方式各不相同,但目的都是为了将这些数据变成可以制表的量化数据形式,所以总体上还是一致的。
四、统计学理论对大数据分析的意义以及面临的挑战
(一)统计学理论对大数据分析的意义
随着大数据、云计算等技术的不断发展,各行各业的信息化程度大幅提升,这也是使得每天所产生的数据信息量越来越多,如何从纷繁复杂的数据中提取有用的信息资源,成为企业领导者与管理者亟需解决的难题。而大数据分析技术的出现,不仅可以有效解决上述问题,而且还能发挥更大的作用与价值,充分挖掘到数据背后的规律,为企业及个人制定战略决策提供可靠依据。时代是不断向前发展的,数据变化速度也非常快,想要进一步提升大数据分析技术的优势价值,还必须要重视对统计学理论的充分应用,由于二者的内在逻辑是相互关联的,且分析方法存在一致性,因此,能更好地实现有效融合。从某种程度上来说,基于统计学理论的大数据分析,可以协助分析人员迅速搭建数据信息处理系统平台,减少量化分析时的难度以及偶然性误差,从而取得更好的数据量化效果。另外,在进行大数据分析过程中,数据资料的前期收集、挖掘与分析等环节都需要建立相应的数据模型,以免数据结果分析不符合要求,如果将统计学理论应用到数据分析当中,则可以实现对数据信息走向和波动情况的有效预测,从而更快地了解客户需求,为企业带来更大的效益。
(二)大数据分析面临的挑战
随着信息技术的持续发展,数据已成为一种新的资产类别,是企业和社会发展中非常重要的战略资源,是大家抢夺的新焦点。应用大数据力量可以帮助企业和机构获得更大的市场份额,提升自身的综合竞争力,从某种程度上来说,大数据成为新的战略制高点,而大数据分析同样占据着举足轻重的地位。在现阶段的大数据分析中,处理非结构化数据还没有非常好的举措,尤其是针对高维数据分析这一块,主要目标是通过开发有效方法来预测未来,如果样本容量大,探索数据中每个子群体的隐藏结构就变得非常困难;如果样本容量小,则会被看作是“离群值”,因而难以获取有效信息。此外,大样本和高纬度相结合,还会带来一系列问题,比如算法不稳定性、计算成本增加等等,而且由于异质性数据采用不同技术,拥有不同中心,所以还必须要开发更具适应性和稳健性的程序,才能保证数据提取的有效性,这对于当前的数据分析人员来说还是存在一定困难的。除此之外,处理适量样本与处理海量样本所采取的措施是无法共用的,对高维数据的统计方法,也不一定适用于低纬度数据分析,这就要求研究人员必须使用新的统计思维与计算方法,而统计学理论在这方面起到了至关重要的作用,加强对这一理论的应用研究与分析,可以更好地应对大数据的异质性、偶然内生性等问题,但如何实现二者的有效结合仍是当前的主要挑战。
五、统计学理论在大数据分析中的具体应用
(一)神经网络法
神经网络法是统计学理论应用大数据分析中非常重要的一项技术方法,其主要是通过模拟人的思维来实现对数据信息的动态推理,在模拟的过程中,通常需要先将数据信息进行转化,使其变成串行的指令,然后再遵循一定的规则逻辑进行信息推理,并将信息在神经元上的兴奋模式加以科学储存,最终实现对数据信息的准确推理。另外,考虑到数据信息的挖掘与处理会运用到非常多不同的学科类型以及技术方法,交叉性质的特征十分明显,因此,将统计学理论与大数据分析进行有效结合,也正好符合这种交叉学科类型,可以最大程度地发挥大数据分析的优势价值,实现对数据信息的动态处理。
(二)决策树分析法
决策分析法在经济统计中同样占据着不可替代的位置,其主要以经济统计理论为依据,在具体应用过程中,通过将多个事件或数据结果进行有规律的排布,使之形成一种向外延伸的分支图形,如同树干一样,以此来实现对数据的预测与分析。该方法相对于神经网络法而言,最突出的优势就在于其数据信息是自上而下的生成,也正因如此,使得这一方法在面对庞大的数据统计项目时,更能够彰显其优势特征。举例来说,某项工程需进行设计变更,为了保证全面性,设计师设计了多个方案,由于每个方案涉及到的内容都有所区别,影响因素也各不相同,想要从众多方案中选择最佳的变更决策就变得尤为困难,而采用决策树分析方法进行数据分析,就可以很好地实现对多个数据结果的预测分析,从而选出最为有效的变更方案,保障工程项目的利润收益。
(三)粗集理论法
虽然粗集理论法是统计学理论中的一种分析方法,但准确来说更接近于数学范畴,其主要是通过上下近似集形式进行数据分析,整个操作过程相对比较简单,不需要大量数据的支撑,因而更适用于一些不确定数据资料的统计项目。就目前实际情况来看,粗集理论法在大数据分析中还属于比较新型的思维分析模式,想要使其发挥更大的作用与价值,还必须要持续加强对该方法的应用研究,尤其是要提高其在不确定经济要素转化方面的优势,这样才能更好地提升数据分析的准确性与可靠性。
(四)遗传计算法
遗传算法是通过模拟达尔文的自然选择机制来实现对数据模型的构建,其最突出的特征就是依据自然界的生物进化过程来搭建模型,可以最大程度地挖掘隐含性的数据信息,并通过遗传算法使这些隐含信息得到延伸和优化,从而获取到更多的信息内容,为大数据分析提供更为精准有效的分析结果。从另一层面来看,该方法是将数据和计算机仿真进行了结合,因而在大数据分析中占据更大的优势,不仅可以从特定群体中获取数据信息,而且还能对这些信息进行拓展,得出优化后的数据结果,所以在预测数据信息走向和波动情况方面,具有非常突出的应用价值。
六、结语
综上所述,大数据时代是信息社会运作的必然结果,大数据分析也将成为各行业领域中最为重要的发展战略,想要充分发挥大数据分析的优势作用,就必须要重视对统计学理论的有效应用。因此,相关研究人员应当提高对统计学理论研究的重视程度,不断探究其在大数据分析中的应用方法与应用策略,以便更好地将数据中的信息和规律有效提取出来,助力各行业的发展。与此同时,还需要研究如何将数据中的不确定性量化出来,进一步提升数据分析的价值,这样才能为商业组织提供更好的数据信息服务,使信息社会更上一个台阶。■