APP下载

基于财务共享模式的大数据智能分析模型的构建

2023-06-07朱碧琴

中国新技术新产品 2023年6期
关键词:爬虫分析模型财务数据

朱碧琴

(湖南环境生物职业技术学院,湖南 衡阳 421005)

0 引言

在数字化时代,数据已成为企业经营的核心资源[1]。大数据技术为企业提供了更强大的数据处理和分析工具,可以为企业提供更高效、精准和智能的决策依据[2]。然而,许多企业仍面临数据孤岛、数据孪生和数据共享等问题,这些问题极大地限制了企业的数据价值和业务效益。财务数据在企业运营中占据至关重要的地位,财务共享模式可以解决企业中数据孤岛和数据孪生的问题,能将各个部门的数据进行整合,形成一个全面的数据汇总,以实现数据共享。但是在实际操作中,企业在财务数据的共享和利用上仍存在数据安全、数据标准以及数据质量等问题,这些问题严重影响了企业财务数据的利用价值[3]。该文基于财务共享模式构建了一种大数据智能分析模型,以期解决企业在财务数据利用上的问题。通过采集与整理财务信息、确立财务数据操控权限和测算财务共享数据,来获取财务共享分析结果,构建完整的财务共享智能分析模型。测试试验表明,该文研究对解决企业在财务数据共享和利用方面的问题具有一定的实际意义和应用价值,构建的基于财务共享模式的大数据智能分析模型可以帮助企业实现财务数据的集成、共享和智能化分析,提高企业的经营效益和决策能力。

1 财务信息采集与整理

1.1 数据采集

数据采集是获取财务共享数据的第一步,它是财务数据分析的基础,并直接关系到后续数据分析的质量和精度。数据采集的目标是从数据源中获取原始数据,并将其存储到数据仓库或者数据库中,方便后续的数据分析和处理。该系统通过网络爬虫技术从互联网上获取数据,该方法可以获取大量的数据,但需要考虑反爬虫措施和数据来源的可靠性[4]。首先,根据需要分析的财务数据类型选择合适的数据源,例如公开的财务数据公告、公司的内部数据源和第三方数据提供商等。选择数据源时需要考虑数据来源的可靠性和数据的更新周期。编写爬虫程序是网络爬虫采集数据的关键步骤,需要有一定的编程能力,具体流程如图1 所示。

图1 数据采集流程

编写爬虫程序是网络爬虫采集数据的关键步骤,爬虫框架可以简化爬虫程序的编写过程。该系统用到的框架为BeautifulSoup,根据需要分析的财务数据类型,确定需要爬取的数据类型和格式,然后查看网页源代码,了解网页的结构和规律,确定需要抓取数据的所在位置[5]。根据爬取的数据类型和格式,使用爬虫框架编写爬虫程序,并设置抓取数据的规则和频率。网络爬虫采集的数据往往存在格式不一致、缺失值以及重复数据等问题,需要使用Python中的Pandas 库等工具进行数据清洗。完成数据清洗后,需要将数据存储到数据仓库或者SQL 数据库中,方便后续的数据分析和处理。

1.2 数据整理

基于大数据财务共享的数据整理方法主要流程如下:1)数据获取。获取需要整理的财务数据,包括会计凭证、科目余额表和现金流量表等数据。2)数据清洗。对获取的数据进行清洗,去除无效数据、异常数据和重复数据等,保证数据的准确性和一致性。3)数据预处理。对清洗后的数据进行预处理,包括数据归一化、缺失值填补和异常值处理等,以便后续进行数据分析和建模。4)特征提取。根据具体业务需求和分析目的,从预处理后的数据中提取有用的特征,如财务指标、资产负债表比率以及现金流量比率等。5)数据建模。基于提取的特征,使用机器学习算法或统计方法构建财务模型,包括财务预测模型、风险评估模型。6)模型评估。对构建的财务模型进行评估,包括模型精度、泛化能力和稳定性等指标评估,以确定模型的有效性和适用性。7)模型应用。将构建好的财务模型应用于实际业务中,进行系统预测财务业绩、风险预警。其中,特征提取和数据建模是整个流程中最关键的环节,需要根据具体业务场景和问题特点选择合适的算法和方法。设预测的财务指标为Y,已知的特征变量为X1、X2、X3……Xn,可建立公式如式(1)所示的线性回归模型用于预测财务算法。

式中:β0、β1、β2……βn为模型的系数;ε为误差项。

在模型训练过程中可以使用最小二乘法来确定模型的系数,使模型的预测值与真实值的平方差最小化。完成模型训练后,可以使用模型对企业未来的财务业绩进行预测。

2 构建财务共享智能分析模型

2.1 确立财务数据操控权限

基于财务共享模式的大数据智能分析模型需要对数据类型进行权限分配,以确保敏感数据的保密性和数据分析的准确性。首先,确定数据类型,分析数据敏感程度,即对每种数据类型进行敏感度分析,确定数据的敏感程度和需要保护的隐私信息,例如公司财务报表中的纳税人识别号、股东信息等[6]。其次,制定权限控制策略,这点极为重要,应根据敏感程度和隐私信息的不同制定不同的权限控制策略,例如对敏感数据实施访问限制、审计追踪等控制措施。最后,分配数据权限,根据制定的权限控制策略,将数据类型和相应的权限进行匹配,并将权限分配给不同的数据使用者,例如内部员工、外部合作伙伴等。在权限分配过程中,可以使用基于访问控制的RBAC 模型进行权限控制。RBAC 模型将用户、角色和权限之间的关系进行了明确的定义,用户通过角色访问权限,角色和权限之间也存在对应关系。RBAC 模型的具体算法如公式(2)所示。

式中:u为用户集合;r为角色集合;P为权限集合。

该文提出的多维权限管理模型是在RBAC 模型的基础上引入用户组,并对数据资源不同分类这一情况特别增加了客体维元素,从而形成新的数据资源权限管理模型,如图2 所示。

图2 数据资源权限管理模型

根据RBAC 模型,数据权限控制需要用户权限分配和角色权限分配2 个环节。通过制定适当的用户角色映射关系和角色权限映射关系,对数据类型的权限进行控制,以确保数据的安全性和合规性。

2.2 测算财务共享数据

在模型确立财务数据操控权限后,需要进一步对财务共享数据做出测算。先收集需要共享的财务数据,包括收入、支出和利润等,收集的方式可以是手动输入或者从系统中获取。将收集到的数据进行格式化和预处理,以便后续的计算[7]。可以对数据进行清洗、去重和转换格式等操作,确保数据的准确性和完整性。对处理后的数据进行加密,保证数据的安全性。为避免数据在传输和存储过程中发生泄露,可以采用对称加密算法或非对称加密算法进行数据加密[8]。可以通过网络传输或传输文件的方式将加密后的数据传输到目标端。然后采用相应的解密算法对数据进行解密,再根据数据源和目标,并通过算法或第三方软件进行计算,计算结果包括收入、支出和利润等,模型中用到的具体收入的计算如公式(3)所示。

式中:R为收入总和;X为销售数量;m为销售单价。

具体的支出如公式(4)所示。

式中:E为支出公式;c为材料费用;b为人力耗费;I为利息;T为税费;D为折旧费用。

利润P的具体计算如公式(5)所示。

计算后,将计算结果存储在数据库中,以备后续使用。可以使用关系型数据库或非关系型数据库进行存储,确保数据的可靠性和可访问性。

2.3 获取财务共享分析结果

可以使用数据可视化工具Power BI 获取财务共享分析结果,将财务数据可视化图表呈现在一个统一的平台中,可以方便地对财务数据进行交互和比较,帮助管理人员更好地做出决策。首先,需要从企业的数据仓库、数据库和Excel 文件等来源获取需要可视化的数据,如果数据集比较大,需要进行数据清理和预处理,例如去除重复值、填充缺失值和转换数据类型等。其次,使用数据可视化工具连接数据源,将数据源导入工具中。连接数据源时,需要指定数据源类型、数据源地址和认证方式等信息。连接数据源后,数据可视化工具将自动识别数据源中的数据结构和字段名。使用数据可视化工具创建可视化图表,以图表的形式呈现企业的各项财务比率,包括流动比率、资产负债率和净利率等指标,可用于评估企业的财务风险和健康度。将可视化图表发布到数据可视化工具的服务器或云端,或者导出为PDF、Excel等格式的文件。将可视化图表共享给内部的团队成员或外部的客户和供应商,方便其理解数据,共同制定业务决策。

3 测试试验

3.1 试验准备

为测试基于财务共享模式构建的大数据智能分析模型的各项性能,该文试验选择的试验环境如下:软件方面选择8.0 或以上版本MySQL 数据库软件,大数据平台为3.3或以上版本的Hadoop,数据可视化工具采用Tableau,测试系统采取TensorFlow 机器学习框架,编程语言为3.9 或以上版本的Python。硬件方面需要选择合适的数据存储设备,该文试验选取Intel DC S4500 系列SSD,英特尔酷睿i9 的数据处理器,大容量、高频率的Kingston Fury 系列内存,并采用Cisco Catalyst 系列交换机。

3.2 试验结果

试验过程中使用Python 编程语言和PySpark 计算框架,利用财务共享模式构建大数据智能分析模型,并对模拟数据集进行试验验证。该试验是基于财务共享模式构建的大数据智能分析模型,用于预测股票价格的走势。试验数据包括苹果公司(AAPL)、微软公司(MSFT)、亚马逊公司(AMZN)和谷歌公司(GOOG)的历史股价数据。模型采用神经网络算法进行训练和预测,使用Tableau 数据可视化工具来展示4 只股票2022 年10 月至2023 年2 月的历史走势折线图,最终得出分析结果,并与实际数据做对比,具体数据见表1。

表1 试验结果

从表1 可以看出,模型能够较好地预测股票价格走势,并与实际数据有较好的拟合度。MSFT 在2023 年1 月的预测与实际股票差距为1.3 元/股,已是最高模型预测偏差值。在大数据的冲击下,统计和预测是对产品、资源的最大化利用,是企业运行不可或缺的重要组成部分,精准可靠的预测对资源共享模式有较大帮助。预测依据是结果是否准确的关键,基于财务共享模式的大数据智能分析可以帮助企业预测财务经济风险。试验表明,以财务共享为依据的分析模型能够及时发现财务问题,使相关人员能及时调整对冲战略,更好地定制应对该风险的方案,以做到企业经济利益最大化和亏损最小化,因此精准预测可成为企业把控风险和规划战略的基石。

4 结语

综上所述,该文旨在探讨如何将大数据技术和财务共享模式相结合,构建一个高效、准确的财务数据分析模型。对财务信息进行采集与整理,确立财务数据操控权限,测算财务共享数据,以此获取财务共享分析结果,构建完整的财务共享智能分析模型。未来,随着大数据技术和人工智能技术的不断发展,模型还将得到进一步的完善和优化。同时,还需要注意数据隐私保护和信息安全等方面的问题,为企业提供更可靠和安全的数据服务。该研究成果有望为企业财务管理和决策提供新的思路和方法,促进企业的持续和创新发展。

猜你喜欢

爬虫分析模型财务数据
基于BERT-VGG16的多模态情感分析模型
利用网络爬虫技术验证房地产灰犀牛之说
基于Python的网络爬虫和反爬虫技术研究
2018上市公司中报主要财务数据(8)
2017上市公司年报主要财务数据(6)
2017年上市公司年报主要财务数据(1)
2018上市公司中报主要财务数据(3)
利用爬虫技术的Geo-Gnutel la VANET流量采集
大数据环境下基于python的网络爬虫技术
层次分析模型在结核疾病预防控制系统中的应用