数据分析在财务领域的应用研究

2022-07-19陈虎杨利明

财会月刊·下半月 2022年7期

陈虎杨利明

【摘要】数字技术的快速发展赋予了财务新的职能，让财务基于数据、业务和技术深入分析数据信息、汲取数据价值，成为企业数字化经营的实践者与推动者。数据分析包含数据探索与数据算法，财务人员通过探索数据的特征与分布，开展对海量数据的处理与分析，挖掘出更多的潜在信息，释放数据的真正价值，从而驱动企业的科学高效决策，促进企业财务的数字化转型。本文基于数据探索与数据算法的原理，突出其在财务领域的应用，详细介绍了应收账款信用风险管理、销售量与订货量预测、潜在流失客户画像等场景内容，体现了数据分析对财务的重要价值在于提高财务管理的效率与质量、强化财务风险的评估与防范、全方位支撑业务的高效开展和精准驱动企业的经营管理决策。

【关键词】数据分析;数据探索;数据算法;财务领域

【中图分类号】F275 【文献标识码】A 【文章编号】1004-0994（2022）14-0122-5

一、引言

数字经济加速了行业的变革与创新，改变了企业传统的商业模式与运营需求，而面对企业经营者日益复杂、多维、多变的要求，财务人员却疲于应对，大量的手工业务、冗杂的数据处理工作更让财务人员深陷窘境。为了顺应时代发展变化，洞察企业经营状况与市场变化趋势，越来越多的企业希望通过数据分析技术降本增效，提升财务的数据信息挖掘能力，以数据驱动决策，提高财务管理水平，实现企业的精细管理与价值创造。

数据分析作为一门科学，最早由美国统计学家Tukey[1] 于1962年正式提出，他认为数据分析及其中的统计学知识必须具备科学特征而非数学特征，数据分析的本质是经验科学，即可以不断地通过实验以获得知识的过程。伴随着数据分析科学的不断发展，越来越多的研究聚焦于数据分析的应用价值。如Moll等[2] 研究发现，数据分析等技术可以显著提高财务的可见性，能够对财务管理起到及时干预的作用，极大地减少财务人员的任务数量，而财务人员需要尽快学习数据分析技术，及时跟上时代变化，为企业创造新的附加值。同时，数据分析也是众多企业和机构关注的焦点，麦肯锡全球研究院（McKinsey Global Institution， MGI）强调，数据本身的价值是有限的，而数据分析的价值将不断被放大，数据分析不止于分析结果，其将驱动企业实现新的商业模式的探索和突破[3] 。

本文认为，数据分析是利用数据分析技术对数据进行处理以获取有效信息，达到科学思考和决策的过程，包括数据探索和数据算法。数据探索是运用专业的统计方法对数据的特征与分布进行呈现，以基础分析方法获得对于数据的初步认识，帮助财务人员掌握数据的特征、关联性及分布规律; 数据算法是基于数据创建算法模型的计算过程，对海量数据开展深度信息挖掘，从而在经营管理中发挥数据的深度价值。因此，将数据分析应用于财务领域十分必要，用数据提炼企业管理思维，形成符合企业价值诉求的思路和方法，赋能企业的智慧成长。

二、数据探索与数据算法

（一）数据探索的原理与应用

数据探索是基于数据样本，对数据进行解释性的分析工作。数据探索旨在描述数据的形态特征并解释数据的相关性，帮助企业准确掌握数据的分布规律与发展趋势，洞察其中可能存在的问题。对数据进行统计与分析，不仅可以凸显数据的特征，逐步形象化数据的变化趋势，有效衡量指标水平，还能够发现存在的问题，并挖掘产生问题的原因及采取相应措施，为下一步的数据算法工作奠定良好的基础。当然，数据价值不全都深藏于数据之中，并非必须通过复杂的算法才能进行挖掘，一些情况下，以基础的统计学知识与工具也足以发现规律，获得洞见。数据探索具体包括以下三个方面：

1. 描述性统计。财务人员可以从集中趋势、离散趋势、分布形态三个方面对数据特征进行刻画：常见的衡量样本数据集中趋势的统计指标包括平均数、中位数和众数等，衡量离散趋势的指标包括极差、标准差及方差等，衡量分布形态的指标包括峰度和偏度。例如，在计算公司资产周转率时，会选择一定时期内的销售收入净额与平均资产总额（资产总额年初数与年末数的平均值）來计算，以衡量销售水平与资产投资规模之间的配比情况。

2. 推断性统计。财务人员通常无法收集到针对某一业务的所有数据，难以对该项业务的运营情况展开分析，推断性统计方法则能够有效解决这一问题。推断性统计通过抽取样本进行测量，并可以根据获得的样本数据对所研究对象的总体特征进行推断[4] 。该方法能够帮助财务人员利用样本数据来推断总体特征。基于研究对象的分布情况，可以采用推断统计的方法从总体中抽取样本数据进行分析，包括参数估计和假设检验。例如，企业的财务人员可利用假设检验的方法分析企业不良资产产生的原因。

3. 相关性统计。相关性分析是研究两个或两个以上随机变量之间相关关系的统计分析方法，主要包括绘制相关图表和计算相关系数。例如，财务人员可以利用Pearson相关系数判断总资产周转率、净资产收益率、流动资产周转率等多种财务指标对上市公司财务风险的影响方向与影响程度，以基于公司的实际经营状况及时防范和控制财务风险。

（二）数据算法的原理与应用

算法是指一切经过明确定义的计算过程，其将某个或者某组值作为输入内容，并产生某个或者某组值作为输出结果，其既包含一系列解决问题的清晰指令，也包含决定各项清晰指令背后的逻辑规则与方法[5] 。算法可以从数据中“学习”或对数据集进行“拟合”，不同的算法对应着企业不同的信息需求，数据算法是数据价值链中的核心环节，面向业务需求，对采集、清洗后的数据由浅入深地进行价值挖掘，发挥数据的作用，赋能企业财务的数字化转型。常见的算法包括：

1. 回归算法。每一件事情的发生都有一定的因果关系，回归的过程即是由因溯果的过程，最终得到因果关系。回归算法能够基于获取到的测试集数据建立模型，并得到自变量与因变量的关系。回归算法一般应用于预测分析，如财务人员通过今年的利润额，采用线性回归分析得出利润额与时间的关系模型，从而预测明年第一季度的利润额。常见的回归算法包括线性回归算法和非线性回归算法。

2. 分类算法。分类是人类认知事物最基本的方法，人类通过对复杂的事物进行分类，寻找规律，并根据每个类别的特征快速识别每个具体的事物，降低被分析问题的复杂程度，从而简化问题。分类不仅是认识事物的基本方法，也可以作为数据分析的重要方法。分类算法的基本功能是做预测。例如，商业银行会根据客户的基本信息情况，搭建贷款偿还的决策树，通过学习形成分类器，对客户未来贷款偿还能力进行预测，判断银行是否应该接受其贷款申请。常见的分类算法包括KNN算法、Logistic回归算法、决策树算法、BP神经网络算法等。

3. 聚类算法。聚类和分类都是把多个分散的事物归集为不同的类别，但聚类的目标只是把相似的东西聚到一起，并不需要明确类别信息。聚类算法可以对无标签样本进行分析，因此实际应用十分广泛。例如，保险公司可以对平均赔付率较高的人群进行聚类，研究相似特征，从而达到鉴别风险、个性化定价以及识别骗保行为的目的。常见的聚类算法包括K-means聚类算法、均值漂移聚类算法等。

4. 时间序列算法。时间序列分析能够在特定时间里对某区域进行连续观测形成图像，并分析其变化过程与发展规模[6] 。通过建立时间序列模型，可以根据已有的历史数据研究变量的自身发展规律，从而对未来的变化趋势进行预测，如预测利率波动、收益率变化、股市行情等。常见的时间序列模型有四种，包括AR模型（Autoregression Model，自回归模型）、MA模型（Moving Average Model，移动平均模型）、ARMA模型（Autoregression Moving Average Model，自回归移动平均模型）和ARIMA模型（Autoregressive Integrated Moving Average Model，自回归差分移动平均模型）。

5. 关联规则算法。关联规则分析也称为购物篮分析，是通过机器学习的方式寻找数据间的关联性并对数据进行转换，帮助企业通过销售找到具有关联关系的商品，并以此获得销售收益的增长。例如，通过对客户历史购买记录的数据进行深层分析，构建基于销售的主题数据仓库，得到有效、有价值的产品销售关联规则，挖掘出客户群体购买习惯背后的内在共性，以此调整营销手段或销售方式，指导企业制定科学的销售计划，实现销量的提高[7] 。常见的关联规则算法包含Apriori算法、FP-Tree算法、Eclat算法及灰色关联法等。

三、数据算法在财务领域的应用

（一）应收账款信用风险管理

某通信解决方案提供商为电信运营商、政企客户和消费者提供技术与产品解决方案。该企业面对客户的项目周期较长，应收账款的回款周期通常也较长，占用资金量较大，存在较高的信用风险，对方履行到期债务的不确定性增大。因此，财务部门根据客户资信情况，确定对其授信的额度，对于资信表现不佳的客户，降低授信额度，改善应收账款回收情况。为此，财务部门选择应用分类算法构建客户违约（不履行到期债务）概率模型，并在此基础上建立授信额度计算模型，如表1所示。

1. 建立违约概率模型。构建违约概率模型是为了计算出不同客户的违约概率p，以得到违约概率调整系数T1， T1是授信额度计算模型中调整财务授信额度的关键系数。首先，根据上述应用目标，选择运用Logistic回归算法来构建违约概率模型，并以企业历史客户数据为样本，其中70%为训练集、20%为测试集、剩余10%为验证集。其次，从区域经济环境、公司治理、财务风险三个维度出发，选择公司规模、运营实力、盈利能力、偿债能力、现金流、社会责任等作为影响客户违约概率的因素，形成模型训练参数。最后，利用训练集初步构建违约概率模型，通过测试集和驗证集反复测验模型的有效性并进行调整优化，以构建最终的违约概率模型。通过该模型，可计算得出违约概率p，从而得到T1。

2. 计算最终授信额度。除需得到T1之外，财务部门还需要设计信用与财务评级体系，并根据客户的资信情况进行信用评级、财务评级，从而得到信用评级调整系数（T2）、财务授信额度（X），最终通过授信额度计算模型（L=T1×T2×X）得出不同客户的授信额度，实现对应收账款信用风险的管理，以提升应收账款周转效率，改善经营现金流量。

（二）销售量与订货量预测

某餐饮企业通常依靠经验来决定每日食材订货量，然而，由于经验不足，总是无法保证精准订货，导致门店采购成本增加，每月利润难以保持稳定。实际上，每日食材的订货量取决于每日各菜品的销售量，因此，科学预测每日销售量是精准配备食材、降低门店运营成本及提高门店利润率的关键。

1. 模型选择。该餐饮企业希望根据旗下某门店各菜品的历史销售量，预测未来一周内的销售量。从历史数据来看，门店销售量受季节更替因素的影响，大致依照一个固定周期呈规律性变化，因此，该门店选择应用时间序列算法中的ARIMA模型（如图1所示），以设计构建销售量预测模型，并应用规则模型将一些非常规因素也考虑进预测中。

2. 基础预测。在正式构建模型之前，该门店收集了自开业以来各菜品的销售量历史数据，应用ARIMA模型，调整目标参数，不断修正优化，构建销售量的基础预测模型，基于历史数据推断未来各菜品的销量走势。

3. 调节预测。由于一些非常规的因素也会对门店销售量产生一定影响，如新菜品上市、促销活动、周边同类门店变动等，因此，在基础预测模型之上，还需要考虑这些非常规因素，以提高模型预测的准确性与合理性。为此，门店通过搜集、分析非常规因素，利用规则模型调节预测量，对基础预测模型进行校正，从而获得最终的销售量预测模型。

4. 自动预测，支持决策。根据最终调节校正后的销售量预测模型预测每日菜品銷售量，并基于菜品销售量与所需食材的数量关系，可以获得门店每日所需的食材量，为门店订购食材提供重要参考。

销售量预测模型可以帮助餐饮企业科学预测各菜品的销售量，从而合理地预订食材，促进以销定产、产销结合，降低企业的综合运营成本。同时，科学的销售量预测既避免了食材短缺又兼顾了食材新鲜，提高了门店的服务质量和顾客满意度，进一步降低门店运营成本、提升门店营业利润率。

（三）潜在流失客户画像

随着数据分析技术的快速发展与广泛应用，财务的职能范围不断扩大，财务不再局限于对账表的处理，还可以通过对数据的采集、处理和分析为企业提供更有价值的信息，参与到业务发展和经营决策的过程中。例如，商业银行之间的竞争主要集中于对客户资源的争夺，然而，许多商业银行在不断挖掘新客户的同时，往往忽略了存量客户的流失，而存量客户的营销成本远低于新开发客户的成本，因此，实现对客户流失率的精准测算并及时控制以减少客户流失，对于银行来说十分必要。某商业银行从二季度开始频繁出现存量客户理财资产减少、销户客户数量增加等问题，存量客户的流失率同比增长30%。该银行调研得知，产品利率降低、银行服务质量下降等是客户流失的主要原因。为此，该银行希望联合业务部门和财务部门，通过数据算法实现对客户特征的洞察与分析，预测潜在流失的客户群体，提供差异化的营销及管理方案。

1. 模型选择。历史流失客户数据和现有客户数据均呈现出维度多、目标类别未知及特征相似度高等特点，因此，该商业银行选择利用K-means算法（K均值，聚类算法）对潜在流失客户群体进行特征挖掘，根据客户的年龄、资产数额、消费偏好等数据将客户分群，从不同的维度对客户进行画像，预测未来一年内可能会流失的客户群体与客户数量。

2. 算法步骤。从该银行实体数据库中采集半年内的业务数据样本，从客户属性、资产、持仓产品、交易笔数、交易方式、投资偏好、投资收益、消费能力等多个维度进行描述，并对样本中多个异常数据进行清洗处理，使用K-means函数对样本数据进行聚类建模。先随机选择可以作为初始化的中心点，将数据点归集到距离其最近的中心点，所有数据点分配完成后，重新计算聚类的中心，且这个过程将不断重复直到每一个聚类中心的数据点不太变化为止，从而完成对样本数据的分类。

3. 客户画像。由K-means 算法建模可得到潜在流失客户数量，以及客户分布情况。通过总结可从潜在流失客户群体中划分出三类特征最为明显的群体，得到流失客户的特征规律。具体客户群体分类如图2所示。

依据三组客户群体的特征维度，以客户属性、投资偏好、发展空间、风险接受度等特征对各群组客户进行全方位刻画，完成对每一位客户的特征洞察和价值挖掘，及时预警客户的流失风险，并制定个性化、差异化的营销策略，从客户的需求出发，合理配置资源，帮助客户实现价值最大化，提高客户的满意度和忠诚度，延长客户的生命周期，从而实现对银行存量客户数量的维持。

通过以上应用场景的介绍可以看出，依托商业环境下数据的持续增值，算法作为深度挖掘数据价值的工具，在财务工作中的应用场景逐渐丰富，正在颠覆财务传统的工作模式及企业运营决策的方式，实现企业向洞察驱动型模式的转变。

四、数据分析常用工具

常见的数据分析工具包括Excel、SQL、SPSS、SAS、Python、R等。 Excel虽能满足日常办公的基本需求，但不能有效地处理大量数据，而SAS、Python、R这类传统的数据分析工具虽然功能强大，但具有一定的技术门槛，往往需要使用者具备相应的编程能力。随着企业对数据分析需求的不断增加，以算子平台为代表的面向财务人员的人工智能大数据平台应运而生。借助算子平台，财务人员即便不懂编程，也能得心应手地开展数据分析。

算子平台将独立的数据处理逻辑和建模计算能力抽象为一个个算子。简单来说，算法中的一个函数、几行可以重复使用的代码、一个数学中的平方操作都可以认为是“算子”，算子即进行某种“操作”。算子平台通过对算子的自由拖拽、编排和可视化配置，构建算子流，满足数据清洗、计算、分析、建模等需求。算子平台的主要功能特点包括：第一，算子平台对机器学习算法组件进行了封装，故使用者在进行数据分析时，无须编写代码，只需要将相应的算子拖拽至画布，进行连接，即可实现模型的快速搭建，且数据取用全链路、数据加工计算规则可视、可配置、可理解。算子平台这种自由拖拽式的可视化操作大大简化了大数据工具的使用流程，降低了数据加工、智能算法应用、可视化展示的技术门槛。第二，算子平台内置数理统计、机器学习、知识图谱、可视化分析等多种不同功能的算子，能帮助使用者挖掘数据深层规则与关联关系，并利用模型进行业务预测，实现对企业管理决策的指导。例如，利用算子平台，可以实现对支付异常数据的识别，以企业的燃料费用管理为例进行分析。算子平台支持多种导入方式，选择导入银行流水本地文件，同时，企业将单笔平均支付金额大于历史平均支付金额的15%设定为异常大额交易。通过筛选算子，在2020年流水中过滤出燃料费用交易数据，与对应的采购信息进行整合，通过简单配置能够识别出的异常燃料交易结果中存在11笔异常交易，分析人员可以基于此结果进一步分析业务信息，以提高企业的内控管理效率。

算子平台作为一种企业级的数据分析工具，集数据接入、数据处理、数据分析、数据可视化、数据应用、数据资产沉淀与共享于一体，助力企业深度挖掘数据价值，实现“从数据到模型，从模型到场景化应用”的全流程数据资产管理闭环。

五、数据分析对财务的价值

（一）提高财務分析的效率与质量

在传统的财务工作中，财务人员常常要面对大量的手工处理所带来的成本高、效率低、质量差等问题。因此，财务部门需要将数据分析技术应用于财务工作当中，降低数据处理工作的成本，提高财务分析的效率与质量，让财务对企业需求与外部市场变化做出快速响应，从而高效率、高质量地支撑企业的管理和发展。

（二）强化财务风险的评估与防范

面对各类风险的不可控问题，企业应增强财务预警与风险管控意识，利用数据分析技术，运用比对数据差值、筛查异常数据、分类统计、监督审查、指标预测等各类分析方法，建立并完善企业财务风险识别与预警系统，科学合理地评估财务数据信息与财务指标趋势，并及时采取相应的防范措施，从传统的事后反应转变为事前、事中的控制与追踪，迅速捕捉危机发生的先兆，增强企业抵御风险和防范风险的能力，以保障企业持续健康发展。

（三）全方位支撑业务的高效开展

数据来自于业务，最终也要回到业务中去。财务利用数据探索与数据算法深度挖掘数据，预测未来产品趋势、服务业务的开展方向与收益分布，提升企业在市场中的竞争力。同时，财务还可以及时识别业务风险、监督资金流向及预警财务风险，避免企业陷入财务危机。数据分析在财务领域的应用，进一步赋能企业业务的高效开展，加强财务管理对企业科学经营的支持。

（四）精准驱动企业经营管理决策

财务部门通过数据分析对多种数据资料进行深层次的研究，可提高数据的有效利用率，挖掘潜藏在数据中的信息，释放数据价值，完成企业从流程驱动到数据驱动的转变，赋能企业的智慧决策革命，缓解经营者的焦虑，消除财务人员的决策困境，增强运营的灵活性与敏捷性，实现科学决策与精准决策，为企业创造新的附加值，帮助企业在竞争激烈的市场中保持长久的竞争优势。

【主要参考文献】

[1] Tukey J. W.. The future of data analysis[ J].The Annals of Mathematical Statistics，1992（1）：1 ～ 67.

[2] Moll J.， Yigitbasioglu O.. The role of internet-related technologies in shaping the work of accountants： New directions for accounting research[ J].The British Accounting Review，2019（5）：1 ～ 20.

[3] MGI. The age of analytics： Competing in a data-driven world[R].New York： McKinsey & Company，2016.

[4] 贾俊平，何晓群，金勇进.统计学（第4版）[M].北京：中国人民大学出版社，2009.

[5] 李琳，刘凤委，李扣庆.会计演化逻辑与发展趋势探究——基于数据、算法与算力的解析[ J].会计研究，2021（7）：3 ～ 16.

[6] Philip Kotler， Gary Armstrong著.赵平，戴贤远，曹俊喜译. 市场营销原理（第七版）[M].北京：清华大学出版社，1997.

[7] 祖巧红，陈定方，李文锋.基于关联规则重要性的产品购买序列模式发现[ J].东南大学学报（自然科学版），2007（S2）：440 ～ 444.

【作者单位】深圳市中兴新云服务有限公司，深圳 518000