大数据时代财务对数据的认知、处理及呈现
2022-08-10王静
王 静
(上海实业交通电器有限公司,上海 200030)
大数据是一个近年来十分热门的词汇,围绕它也存在很多误区。如果运用得当,大数据将为企业发展、改善运营提供机会,特别是在财务领域。因此,需要财务从业者能够清晰地把握大数据技术,从不同业务角度理解和运用大数据。
当前,大多数现代企业有许多的数据来源,例如,历年的账务记录、客户及供应商资料库数据、薪资数据库,此外还包括客服中心的数据、网站访客数据。虽然现代企业可以从各种来源获得大量信息,但关键的挑战是如何将这些数据结合起来以提供有意义的决策支撑。对此,企业可以使用大量可用数据来把握趋势,从而为业务发展提供有价值的帮助。
一、大数据的特征
大数据不仅涉及量化的大的数据集。它也包含更多特征,主要有五个特征:1.数据量Volume,数据有多少;2.数据实时性Velocity,数据的处理速度;3.数据多样性Variety, 数据的种类是什么;⒋数据准确性Veracity,数据的质量;⒌数据价值Value。其中,最重要的就是数据的价值。这些特征的多种组合意味着有多种描述大数据的方法。它并不仅仅是大量的数据,实际上可以指代具有大量来源和类型的少量非常复杂的数据。
在考虑和分析大数据及其各种来源时,需要确保我们的目标始终是将价值传递回企业。如果可以快速地处理数据集,但是数据的准确性或质量不可靠,那么数据集可以提供的价值就很低;相反,如果大量数据集非常准确,则所获得的见解将更有价值。使用和分析大数据使企业能够解决现有的业务问题,预测未来的趋势和问题,并对当前和未来的机会做出反应。例如,简化制造过程中的生产流程,根据客户的过往购买为他们提供相关报价。
二、数据的类型
结构化数据是高度组织化的数据,具有指定的长度和格式,可以轻松在记录或文件中查找。这类数据往往存储在数据库或电子表格中,在平时财务处理的数据大多为结构化数据。
非结构化数据没有规定的格式,并且更难以组织、存储和分析。非结构化的数据将不同的数据集捆绑在一起,使数据分析工作中对关键元素的分析和识别变得复杂。可以将工作中遇到文档或图像视为非结构化数据,因为此类信息没有固定的格式、长度或大小。对于这类数据可以使用“标签”用于添加结构形式以提供上下文和标签,例如,作者或所有者,创建日期或所包含主题的信息,标签能够在用关键字搜索数据集时更容易找到文档或图像,添加标签后的数据集可以称为半结构化数据。
三、数据分析策略
作为企业的财务人员,可以从大量来源收集和分析数据,包括销售数据、采购数据、成本分析数据、运营数据,以帮助企业做出更好的业务决策。此外,可以用更多的方式分析企业的数据,为企业创造价值。但是,在最终运用大数据创造价值之前,硬件设施、数据库及数据分析并形成相关报告是必要基础。制定完备、详细的数据分析策略也是必不可少的。分析策略应与公司的主要目标紧密结合,以确保所有见解都与组织的总体目标相关,从而提供价值。
对于序数类的数据,典型的是满意度的数据。序数数据最好用频率和比例表示,有时甚至用均值表示。序数数据最好用条形图或柱形图进行可视化展示。
名义类数据,例如,性别、年龄等。可以使用频率或百分比,因为一般情况下无法计算名义数据的平均值,名义数据通常使用饼图、柱状图、条形图做可视化展示。
在做出假设前首先对数据进行认知及理解,这可以为创建商业智能模型奠定坚实的基础。因为很多数字和表格缺乏可视化,更不用说从繁多的数字中提炼重要信息。探索性分析可以帮我们克服这些困难,它主要通过隐藏数据的某些方面而使其他方面更加清晰而起作用的。如果运用恰当,它可以发现错误或过滤不重要信息,绘制数据的基础结构,确定最重要的变量,凸显异常和异常值。
主要是找出相关的置信区间或误差范围。探索性数据分析通常以两种方式进行交叉分类。首先,每种方法既可以是非图形的,也可以是图形的;其次,既可以是单变量,也可以是多变量的(通常只是双变量)。非图形方法通常涉及汇总统计信息的计算,而图形方法显然以图表或图形方式汇总数据。单变量方法一次查看一个变量(数据列),而多变量方法一次查看两个或多个变量,以探索变量之间的关系。
描述性分析使用统计数据来描述和汇总数据。它使我们能够以更有意义的方式呈现数据。
通常有两种用于描述数据的统计信息:
(1)集中趋势分析:mean(平均)、median(中位数)、mode(模式)。集中趋势分析可以告诉我们数据集中的位置,识别大多数数据所在的位置,并使我们能够绘制分布图,以从数据中检测离群值。在数据展示方面,运用直方图可以告诉我们很多有关数据的信息,如果直方图是对称的,我们可以假设均值是中心的最近似值。
如果直方图不对称,数据在直方图上左偏则平均值通常小于中位数。如果数据在直方图上右偏则平均值通常大于中位数。
以图1数据为例,13家工厂销售利润率各不相同,看到图形应该就能理解,若图形重心靠左则利润处于低水平的工厂数量较多。同时,一般情况下中心偏左则平均值小于中位数;若重心偏右,则平均值应大于中位数。图中重心虽偏左但平均值依然高于中位数则可能存在高于平均值的数值离散性较高的可能。因此,对数据分布性进行分析也就必不可少。
图1 13家工厂销售利润率图
(2)数据分布的分析:方差(与均值的平方差的平均值)、标准差(与均值之差的单位)。数据分布的分析很重要,因为如果数据集中性小,分布区间大,则说明平均值缺少代表性。财务人员应该避免使用缺少代表性的数据进行财务分析。
根据过往的经济活动预测未来的经济效益是每个公司迫切需要的。预测性分析结合了数据挖掘、建模、统计对未来做出预测,并能对数据做出一定的可视化操作。尽管我们通常将“预测性”一词理解为“未来”,但预测性分析也可以用于分析过去和现在的行为。财务报表的使用者已经开始希望财务人员能够提供更多的有价值的信息。
因果分析可以很好地对已经发生的经济活动进行回顾复盘以找到发生的根本原因,发现不足之处,以避免一些错误的重复发生,尽早采取措施防范。
机制分析是试图去了解其中一个变量的精确变化对其他变量的影响。对机制分析的理解需要建立在理解相关性和回归分析的基础上。查找变量之间的关系为相关性,而回归分析在确定相关性后通过使用相关系数来计算相关的强度,确定一个变量将因另一变量的增加或减少而改变多少。
为了避免混淆,我把三项分析进行比较。从主动、被动、“如何”三个角度分别去理解回归分析、因果分析和机制分析。
回归分析是一个统计分析技巧,它的目的是用于预测一个目标变量,既通过一个变量来预测另一个变量。当“被动”的发生X时,我们期望的Y是什么。回归关注相关关系。我们始终可以在Y和X之间获得回归公式,即使它们绝不存在任何因果关系。相关并不代表因果。
因果分析则可以用来试图干预最后的效果。当我们主动的去发生X时,Y是什么。
机制分析用来回答“如何”(How)的问题。它假定可以通过验证各个部分的工作方式及他们的结合方式来理解一个复杂的系统。
因此,不同类型的数据可以通过多种策略进行分析。知道怎么对数据正确的提问是获得推动结果的信息的关键。
四、不同的分析工具
我们的企业已经不再局限于内部结构化数据,而是现在也能够从外部汇总数据。随着技术的进步,企业将更快、更准确地制定业务决策。过去几十年累计的数据是呈指数级增长的,企业需要专业的技能来处理大量不同形式的数据。
数据可以以不同的方式来分析,最简单的是把数据进行可视化或图形化来识别模型。这是一种集成方法,将数据分析与数据可视化和人机交互相结合。数据可视化可以把在文本环境下无法识别的趋势、环境通过图形或表格方式呈现出来,并揭示各数据之间的内在联系。
通过考虑各种可能的结果来分析对应的未来事件或方案,可以用EXCEL的方案管理器。例如,在图2和图3中,可以在设定数量和相应的利润情况下通过方案管理器预测各种可能的结果,使得在各种场景下的结果一目了然。
图2 EXCEL的方案管理器
图3 EXCEL的方案管理器
线性规划也称为线性优化,是一种使用线性数学模型基于一组约束条件确定最佳结果的方法。它能够解决涉及最小化和最大化条件的问题,例如,“如何在最小化成本的同时最大化利润”。如果我们有很多的限制,例如,时间、原材料等,并且想知道使它们协同工作的最佳方法,或者将资源定向到哪里以获得最大利润,线性规划将非常有用。EXCEL就配备了一个工具,这个工具任何人都可以进行这种分析,而不需要进行编程。该工具称为“规划求解”(Solver)。
如图4,若产品基本的售价、成本信息如下。若需要把利润扩大至88000元,且销售单价不高于11元(基于充分的市场竞争定价),成本可下探至3.2元,最后还需要确保销售数量为整数。则在Solver中设置后得出结果。
图4 产品销售利润表一
图5 规划求解参数图例
图6 产品销售利润表二
综上所述,我们可以通过运用多种方式来分析不同类型的数据。而了解这些数据,并对这些数据产生更多的疑问,或者说对这些数据提出正确问题是指导我们如何更好地选择不同的工具来进行分析并获取结果的关键因素。随着商业环境的变化及发展,我们的企业已经不再局限于内部结构化数据,现在也混合来自外部来源的数据。
五、数据的呈现
财会人员现在都可以使用以上这些工具快速轻松地分析,并从这些数据中获得对业务更深刻的见解,而这些有意义的见解最终目的是帮助决策。采用对决策更有利的方式来呈现数据是我们财务人员需要掌握的一项重要技能。
数据的呈现笔者觉得大致可分为三类:比较性数据、组成型数据、关系型数据。
静态时点的比较是指单个类别或少量类别在单个时点的比较。例如,2020年与2021年各大类销售额的比较。这类比较用柱状图呈现比较合适。
图7 2020与2021年各大类产品销售额
对于单个类别或少量类别,但每个类别却有很多项目,条形图是最佳选择。若上文的柱状图中每个工厂都包含这些类别则垂直柱状图就不是很适用。这些数据可视化更有效方法是在水平条形图中,Y 轴上列出工厂,X 轴上列出销售额。
图8 2020年各工厂各产品销售情况
而动态比较可以随着时间的推移在类别之间进行比较。对于涵盖大量周期或少量周期且类别众多的数据,折线图是更好的选择。
圆饼图是展现各部分相对组成的一个好方法。而瀑布图则可以解释每一个项目对总数增加或减少的金额。
而动态的组合可以使用堆积条形图显示数据的组合随时间的变化。当每个类别的绝对值及总额数据都是重要的情况下可以用堆积条形图。若组成部分及总额的绝对值并不重要而组成占比更重要时,可以使用百分比堆积图形。图10和图11是两种图形的示例。
图9 2018-2020年各大类销售额
图10 2018-2021年各产品占比销售情况
图11 2018-2021年各产品占比销售情况
散点图是非常适合呈现两个变量之间的关系并确定它们之间的潜在相关性。两个变量的每个观测值都绘制为一个点,x 轴上的位置代表一个变量的值,y 轴上的位置代表另一个变量的值。从以下的示例中可以明显感受到游戏销售数量与月份之间的关系。
图12 游戏销量数量图
以上是笔者在工作中积累并运用较便利的数据呈现选择的方法与工具。
六、结语
数据技术在不断地塑造商业模式,每个人的角色都受到一定的影响,而传统的财务人员更是受到更多的冲击。虽然当前正处于数字技术革命中,但作为会计师或财务专业人员,其实已经具备广泛的数据分析技能的基础,积极主动地尝试新技术,使用新技术解决问题、提高效率、提高数据处理及呈现的技能的人必定会进一步加深对数据的认知,在此基础上对业务问题进行更深刻的理解,形成有利于决策的参考数据,从而促进企业的健康、长远发展。