APP下载

数据分析系统在技术方面的改进措施

2020-01-18王永恒

黑龙江科学 2020年2期
关键词:集市样本模块

王永恒

(北安市机构编制数据中心,黑龙江 北安 164000)

1 数据分析的常用方法

在数据分析工作中,如果能够选择恰当的方法、工具,往往能够在提升数据分析效率与提高数据利用价值方面取得更好的成效。现阶段常用的数据分析方法主要包括:(1)描述性统计。通过描述数据的分布特点,以点带面推算出数据背后的事物信息。具体来说又包含集中趋势分析、离散程度分析等几种分析方法。(2)方差分析。理论上来说,任何样本的分布规律都符合正态分布。方差分析就是通过选择样本中的中位数,以此为参照计算样本中其他数据与中位数的方差。具体包括多因素方差和单因素方差两种类型。(3)回归分析。将所有获得的数据作为一个总体样本,建立变量间的数值模型,并观察样本变化规律。一元线性回归和多元线性回归是常用的方法。

2 数据分析系统的基本组成和运作流程

2.1 系统组成框架

(1)采集模块。获取样本数据是该系统运作的首要环节,采集模块可以通过人为设定关键词或数据抓取标准的方式,对数据存储空间内的海量数据进行筛选、检索,将那些符合条件的数据采集起来,并单独存放在一个独立的存储空间内,方便下一步进行深入的分析处理。(2)处理模块。按照特定的应用软件或构建数学模型等方式,对符合标准的数据进行多样化的处理。处理模块主要是进行数据转化,将一堆杂乱的数据转化为清晰、直观的图表、数字,揭示数据演化的规律。(3)应用模块。将处理完毕的数据转化为结果导出,为决策提供参考。(4)存储模块。采用数据库或云服务器的形式,存储海量的数据。

2.2 数据分析流程

完整的运作流程既能够提高数据分析系统的工作效率,也能够确保分析结果的精度。结合数据分析系统的基本结构组成,数据分析流程主要包括:第一,建立分析模型,用于数据的获取、筛选和分析。数据分析模型的核心技术是大数据技术,可以实现海量数据的快速处理,提高整个数据分析系统的运行效率。第二,进行数据采集。工作人员设定数据抓取的关键词或相关标准,系统自动对样本进行快速检索,并识别数据中是否包含设定的关键词,如果识别成功则将该数据筛选出来单独保存。当样本数据检索结束后,就能够获得所有符合标准的数据。第三,进行数据转化。初步抓取的数据比较繁杂、无序,不能直接利用和分析,还需要使用数据转化模块,将这些复杂的数据整理成数字、文字、图表等形式,这样就可以更方便地展现出数据的内部规律。利用这些规律建立特定的数学模型,从而量化、直观地表达数据所传达出的信息,提高了数据的利用和参考价值。

3 数据分析系统在应用中存在的问题

3.1 数据指标选取不够科学

在大数据技术不断成熟的背景下,数据分析系统在各个领域都得到了广泛应用。但是在具体进行数据归类整理和价值分析时,仍然存在一些问题,其中比较突出的问题是数据选取指标不够细化、不够明确,导致数据分析系统无法将样本中所有符合要求的数据全部识别、筛选出来。由于样本数据不全,最终的分析结果与事实情况存在差异,数据分析工作的价值也就大打折扣,失去了参考价值。由于筛选标准不够细致,一些不符合需求的数据也会被误认为可用数据,这样就占用了更多的存储空间,后期在进行数据分析时也会浪费更多的时间和资源。

3.2 数据分析系统的兼容性不强

数据分析系统获取的数据对象是来自不同部门、不同系统的,相互之间遵循的格式、标准并不统一。数据采集模块抓取到的数据中,可能有电子表格,有文本文档,甚至可能还有其他的特殊格式。如果数据分析系统的兼容性不强,就有可能导致这些不同格式的数据无法得到整合利用,数据分析结果的全面性和可信度都会受到影响。兼容性不强还会导致系统运算中出现无法识别的情况,由于输入系统的数据繁多,有较大概率导致整个数据分析系统宕机。

4 数据分析系统技术改进措施

4.1 细化数据指标的选取标准

数据指标的设置是否科学、精确,直接决定了数据的可用性,并对数据分析系统的后期运行效率与输出结果产生影响。因此,在进行数据分析系统优化时,应当将改进数据分析指标作为一项重要任务。可以按照以下标准进行数据选取:第一是完整性。数据在收集与采集时,应当保证内容完整,避免出现数据割裂的情况,从而提高分析结果的客观性。第二是易读性。所得数据经过转化、处理后,应当方便人们直观地了解规律或特点,降低数据分析与利用的难。第三是比较性。数据与数据之间要体现出差异,方便进行对比,通过比较差异判断分析对象的走向、趋势。

在遵循上述数据选取标准的前提下,改进数据分析系统时还应当注意过滤虚假性数据。虚假性数据虽然表面上看来符合抓取标准,但是往往不具备实质性的分析与参考价值,反而会增加了系统的运行负担。在改进系统时,可以选择定性与定量分析相结合的方式,对这些虚假性数据进行过滤。定性分析可以根据数据使用需求,按照数据来源、存储载体等标准进行分类,将一部分虚假性数据筛除;定量分析对剩余的数据进行更深层次的判断,通过两者的有机结合,达到了选取标准数据的目的。

4.2 增强数据分析系统的兼容性

提高数据分析系统的兼容性,无论是从系统运行效率方面,还是从分析结果方面,都有显著的作用。当前各类数据越来越复杂,来源越来越多样,客观现状也决定了必须要对现行的系统进行兼容性优化。除了对常见的标准格式进行兼容外,还应当对一些非标准格式的数据也进行良好的兼容。在数据分析系统中要增加多个自定义扩展接口,管理员可以根据本部门的工作需求,添加一些常用的数据格式,在今后的系统运行时,就可以增强数据的识别能力和处理效率。计算机的软硬件系统也要不断地进行更新、升级,这也是提高数据兼容性的一种有效方法。

4.3 建立标准的数据集市

数据集市是将具有一定共同属性的数据选择一个独立的数据库存储起来。当数据分析系统需要调用某一类数据时,可以直接选择符合该类别的数据集市,从中选取目标数据。这样一来,就不需要数据分析系统重新检索海量数据了,能够在更短的时间内获得所需的数据。目前的数据集市存在分类不标准、不细化的问题,下一步要规范数据集市的建设标准,在数据集市内部划分出多个单元格,以提高响应速度,实现数据的高效、准确提取。

5 结语

在大数据时代,数据资源的价值愈发重要。通过改进数据分析系统,应用大数据技术,建立标准数据集市,提高系统兼容性,可以为人们更好地探究数据演变规律、做出科学决策提供帮助。

猜你喜欢

集市样本模块
28通道收发处理模块设计
“选修3—3”模块的复习备考
用样本估计总体复习点拨
热闹的集市
探访于山“相亲集市”
规划·样本
随机微分方程的样本Lyapunov二次型估计
热闹的集市
集成水空中冷器的进气模块
“官员写作”的四个样本