数据分析系统及其技术的改进措施
2018-04-21邹鹏
邹鹏
摘 要:随着社会经济的不断发展和计算与统计科学的不断进步,针对不同应用领域,出现了大量的专业数据分析系统。数据分析系统就是通过对生产活动中所出现的数据进行分析,发现其间的数值与逻辑规律,对分析对象的决策、改进提供参考。常见的数据分析系统至少包括配置、采集、处理和应用4个层级,并包含采集数据、分析整理、提出模型、分析检验等基本流程。针对现有的数据分析系统,要想更好地改进其性能,一方面要选取更适宜的数据分析指标,使数据分析更加具有可靠性;在软件编写时,建立标准代码库与数据集市,并改进其交互性、兼容性也显得格外重要。
关键词:数据分析系统;技术;改进
随着近年来大数据、云计算等新型计算机数据分析、存储、计算等技术的提出与应用,数据分析技术在各行各业中的重要性也越来越显著。结合数据分析系统,决策者可以通过数据的走势、结构、差异等指标,观察分析对象的现状,为未来的发展制定相应的策略。
1 数据分析系統的基本概念
1.1 数据分析的基本概念
数据就是在生产活动中所记录下来的,包含生产活动各类属性信息的可以识别的符号。常见的数据表现形式有数据表格、趋势图、结构图等。为了改进生产活动的不足,提高工作效率,因此有了数据分析工作。在数据分析的过程中,首先要根据实际问题确定分析目标;根据分析需求,采用科学合理的方法进行数据采集;采用适宜有效的方法整理并分析数据;最后出具分析结果,为决策提供参考。
1.2 数据分析的常用方法
在数据分析过程中,有一些常用的有效方法,可以提高数据分析的可靠性。描述性统计是一类最常用的统计方法,其可以较好地揭示数据的分布特性,例如数据的频数分析、集中趋势分析、离散程度分析以及分布分析等;回归分析是基于所观测数据来建立变量间的数值模型,并分析其间内在规律的方法,包括一元线性回归、多元线性回归和其他回归方法等;方差分析的样本来自正态分布的总体,并相互之间独立,包括单因素方差、多因素方差和协方差等类型;假设检验方法适用于顺序类型的数据资料,其分布形态未知(非正态分布),但总体仍然是连续的,有参数检验和非参数检验等。
1.3 数据分析系统的典型架构
所谓数据分析系统,就是在数据分析流程中,承担从外部众多系统采集相关业务数据,并储存到数据库中进行分析的功能单元。数据分析系统可以完成对原始数据的一系列处理转换,并存储到相应的数据库中,再根据生产活动的需要将数据转换成可利用的模型,并供其他专门的上层数据应用组件采集与分析。因此,根据数据被采集、转换、存储、分析、应用等角度,常见的数据分析系统可以被划分为配置层、采集层、处理层和应用层等4个逻辑层级。
1.4 数据分析系统的基本流程
在数据分析系统的整个流程中,要通过建立分析模型对数据进行识别和探索分析。典型的数据分析至少包含探索性数据分析、模型选定和推断分析三个过程。当数据刚刚采集后,其形式一般杂乱无章,难以发现其中的数值与逻辑联系,因此要通过作图、制表、参数拟合等方法探索数据的内在规律,一般可以通过拟合方程并取得典型的特征参数来揭示数据的内在规律;发现数据大致规律以后,就可以提出可能的数学模型,并根据进一步分析选定最适合的模型;最后通过数理方法对所选模型的精确度和可靠性进行分析。由此可以得出数据分析的主要步骤,即首先由需求方提出信息需求,系统通过对需求的分析,识别出需要进行采集的数据类型;根据需求识别的结构,有的放矢地进行数据采集,并采取有效的记录形式,便于后续的分析;选取合适的数据分析方法,将数据进行加工、整理、转化。
2 数据分析系统在技术方面的改进措施
2.1 数据分析指标选取方法的改进
数据指标是数据分析的有力手段。选取好的数据指标,不仅可以节省数据采集与分析的资源,更可以大大提高数据分析的可靠性。良好的数据指标应当具有以下特征:具有突出的比较性,即可以比较不同时段、不同用户之间的表现差异,通过比较差异来判断分析对象的走向趋势;易读性,即指标的定义与展现形式可以便于人们理解讨论;全面性,即通过更少的指标表现出更多的对象特征,并便于分析者作出更全面的判断。要想为数据分析系统设计更合适的数据指标,首先要对指标进行定性与量化,定性数据更能体现对象的主管因素,具有一定的判断性;而定量数据更能衡量客观特征,适合于回答“是什么”的问题。同时要滤除不具有代表性的虚假指标,尤其是一些具有欺骗意义的指标。例如在做网站分析时,“注册用户总量”就是一个意义不大的指标,其只能代表随着时间不但增长的累计注册用户数,却不能表征当前网站用户的实际状况,相比较而言,“当前活跃用户量”则更有分析意义。找出探索性与先见性指标,这类指标对分析对象的改进可未来问题的预测更有参考意义。
2.2 建立标准的代码库与数据集市
在编写数据分析系统时,为了避免时间的浪费,要习惯于建立标准点分分析代码库,并将代码库在不同项目、或同一个项目的不同部门之间进行共享。数据分析系统常常用到数据集市的概念,即在多个分析项目中,如果要用到同一批数据,就可以建立包含这些特定数据的数据集市。例如,在网站分析项目中,多个分析报告均要用到网站的访问量数据,虽然可以每次使用时再去网站进行采集,但更好的方法是,先将所有分析网站内的访问数据全部提取,建立数据集市,每次使用时直接到数据集市进行提取,可以大大提高分析效率。
2.3 数据分析系统的交互与兼容性改进
提高数据分析系统的交互与兼容性,也是保障数据分析效率的有效手段。数据分析系统(软件)一般是通过工业的标准格式进行数据检索的,例如文本文档、数据库、电子表格等文件格式,因此,良好的数据分析系统,应当尽可能多地兼容通用的数据格式,而非采用非标格式进行数据存储。当然,对于特殊的数据格式,即便不提供直接的识别方案,也应当留出为用户自定义格式的扩展接口;数据分析系统对载体的兼容性也十分重要,实际上,良好的数据软件可以更多地兼容不同的载体(计算机系统、硬件设备等),而花费更少的配置时间。在系统投入使用前,要接受更全面的使用测试,如创建大量数据或空数据等特殊格式,或进行超大量运算、错误运算等操作,以测试系统的容错性能,要求系统的运输、检测、显示等不出现问题。
3 结束语
总而言之,数据分析不仅是一项理论学科,在数据分析的实际应用过程中,更是要结合各行各业的实际情况,分析数据需求、改良系统结构、选取合理指标,为数据分析的准确性制定更良好的推进策略。本文仅根据典型数据分析系统的现状,结合数据分析科学的基本提点,提出了一些改进措施,对相关工作的落实具有一定的参考意义。
参考文献
[1]周文琼.大数据环境下的电力客户服务数据分析系统[J].计算机系统应用,2015,24(4):51-57.
[2]龙少杭.基于Storm的实时大数据分析系统的研究与实现[D].上海交通大学,2015.