企业财务大数据系统建设刍议
2023-06-07胡杨贾丽敏冉迅刘昌斯胡维亚中国航天系统科学与工程研究院
胡杨、贾丽敏、冉迅、刘昌斯、胡维亚 /中国航天系统科学与工程研究院
作为现代科学产生与处理信息能力飞速发展的产物,大数据影响了科学研究范式上的变革,同时在商业生产层面也有快速发展。图灵奖获得者、资讯工程学家格雷(James Gray)将迄今为止的科学研究范式分成了3 个阶段:从实验科学,到理论科学,再到计算科学;并大胆宣告第四范式:数据密集型科学的到来。数据密集型科学则是所谓大数据。一般认为,大数据的典型属性可以概括为“4V”,即数据体量大(volume)、数据产生速度快(velocity)、种类多样(variability)和价值密度低(value)。数据处理流程第一步是通过仪器收集数据,或通过模拟方法产生数据;第二步用数据处理软件进行处理后,将形成的信息和知识存储于数据库中;第三步才是科学家们上场,在工作流完成后进行数据分析。慕尼黑大学的科学哲学家皮茨奇(Wolfgang Pietsch)指出,数据密集型科学与仿真科学的差异除了规模和处理数据能力外,更关键的在于后者属于理论驱动型,主要是通过计算机模拟试验,从理论假设中演绎出结论;而前者属于数据归纳型,通过直接考察数据本身而不需要任何理论预设,是借助大量数据进行归纳的过程。大数据轻算法重数据,算法是选择、简化的过程。
大数据科学除了在研究范式上有了巨大变革,其在具体生产上的应用也在对整个社会和经济的发展产生着深刻的影响。从经济分析的角度看,国际上大数据的研究工作起步于行业研究、商务分析、企业应用等层面,并逐渐辐射到经济分析领域。对应大数据“4V”的特点,大数据条件下的经济分析与传统方法比有4 点显著不同:一是大数据处理的不再是抽出的样本而是数据本身;二是数据获得速度快甚至实时可得,相当程度上提高了数据分析的实效性;三是数据来源扩宽至互联网、物联网等不同领域,结构化、非结构化不同类型的数据都可以得到最大程度的使用;四是传统分析模型建立在因果关系之上,而这些因果关系又常常是难以检验、受到质疑的,而由样本走向数据本身的大数据研究不依赖赋予数据的特定含义,转而强调相关性,借助相关关系作出预测。在当前技术条件下,企业可以建立大数据集成系统,全面收集企业内外部数据并提升现有数据的利用效率,帮助企业更好地了解当前的管理情况,更深入地研究行业整体的发展趋势,辅助企业作出战略决策和部署。但是,想要充分利用信息科学发展的成果,兑现大数据的潜力,必须转变思维,构建符合上述大数据特点的数据系统,推动数据向资产化、智能化、移动化转变,真正实现理论驱动模式到数据驱动模式的提升。
一、目的导向的企业财务大数据系统
与旨在增进新知的科学研究活动不同,商业大数据系统有着明确的应用场景,因而在实际建设中也要坚持以目的为导向的建设方针。对于企业财务大数据系统建设,首先应该考虑财务数据的特点和企业经营需要,进而明确其预期功能。2015 年发布的《2015 中国财务共享服务中心调研报告》指出:目前我国建设了很多财务共享中心,但大多数实现的还是会计核算、资金管理、费用控制等财务会计职能;我国大数据的应用主要还是基于预算分析与财务预测、绩效分析、成本盈利分析等财务数据的整合与提取;面向未来,需要考虑如何利用好财务共享中心的大数据。结合大数据的特征和优势,笔者认为,大数据财务系统应当实现以下3 个目标。
一是打通内外部数据、构建一体化数据资源。大数据的优势之一在于扩宽了数据来源,实际设计的大数据财务系统就要利用这一优势,构建多种数据一体化:除传统、结构化的数据(报账、报表、资金、预算、税务等)外,还要吸收文本数据(财务分析报告等)、图像数据(如电子发票、发票扫描图像)等非结构化数据,并通过技术手段与工具对数据进行有效治理,实现汇聚式一体化数据库。
二是构建财务数据全景,支持智能化数据应用。借助整合后的大数据,企业能够对当前经营状况有全面了解,并增强对市场的预判能力。例如可以通过数据治理手段编制数据资源目录,构建财务数据全景视图,进而围绕业务流程和综合分析等应用需求,按不同侧重点建立流程应用和专题分析的数据应用资源库。从短期看,企业能够了解和跟踪产品(服务)的产量、价格走势,了解产品(服务)所对应的社会需求;从长期看,企业对产品(服务)的行业和业态前景也会有更深入认识。
三是实现全面财务数据共享,助力数据价值创造。信息是流通中不会磨损的财富,建立有效的数据互通机制,既能够扩大企业服务面,也可以进一步丰富自身数据库。因此,大数据系统要建立数据共享管理体系,设计清晰易用的标准化统一接口,规范数据生产、申请、审批、使用流程,为企业内各级用户甚至企业外部客户提供高性能、高可用的数据服务。还要设计支持数据资源快速检索、高并发的数据访问接口,以提高数据利用效率、提升用户体验,实现财务数据全面共享和价值释放。
二、系统总体规划
财务大数据系统创新首先要建设全口径、全要素、全贯通的数据平台,在数据输入端尽可能实现财务所有相关业务域数据的汇集、存储、计算输入,因此系统采集端应集成服务注册、采集任务管理、采集任务监控、采集质量管理等功能。在平台内,需要有效梳理、整合不同格式的输入数据,实现数据标准化治理,需要大数据平台提供数据标准、稽核数据质量、构建数据模型、提供数据分析挖掘等服务,细化功能主要包括数据体系、数据标准、数据清洗、数据体验等,同时应设计不同维度的设计区域,并留有数据调度、运行监控、系统监控功能,满足数据加工的需求。在输出端,打通与集团内部系统和客户方面的交流渠道,进而利用标准化数据实现数据资产化封装、数据共享和分析服务的输出,包括提供数据资源门户、数据目录管理、发布与订阅、数据报送。最后,需要有支撑层保证平台整体健康运作,包括数据标准管理、元数据管理、数据质量管理、数据安全管理和生命周期管理。
根据上述讨论,笔者提出,企业财务大数据平台具体可分为九大功能模块,按逻辑顺序依次是:数据集成、数据标准、数据质量、数据统计分析、数据资产、数据模型、数据共享服务、元数据以及数据安全等管理模块。
数据集成管理模块需要提供多种与各系统以及外部数据集成整合的方式。由于不同系统架构和获取方式不唯一,集成管理模块应具备常见的多种数据集成方式,包括API接口调用、数据库连接、系统操作日志等,并支持各种类型的数据文件。为简化用户操作,可通过可视化数据ETL工具帮助用户以简单的拖拽完成复杂的数据整合过程。集成管理模块还应提供数据同步功能。
三、系统功能实现
数据集成管理模块需要提供多种与各系统以及外部数据集成整合的方式。由于不同系统架构和获取方式不唯一,集成管理模块应具备常见的多种数据集成方式,包括API 接口调用、数据库连接、系统操作日志等,并支持各种类型的数据文件。为简化用户操作,可通过可视化数据ETL 工具帮助用户以简单的拖拽完成复杂的数据整合过程。集成管理模块还应提供数据同步功能。
数据标准管理模块应通过一整套的数据规范、管控流程和技术工具,确保企业重要信息如组织、人员、会计科目等信息在内外的使用和交换中保持一致,在业务方面体现为收集、整理、规范业务的定义、属性和规则,支持业务管理的规范化;在技术方面体现为统一数据定义,提高数据一致性,从而促进数据共享、提升数据质量。
数据质量管理模块应负责全数据链路数据质量管理,从数据完整性、一致性、唯一性等多个层面实现对数据的全面稽核和预警,提高数据使用质量。具体功能包括:质量需求管理,对数据使用过程中产生的问题进行收集、存储、分类并提供查询检索功能,为质量规则制定提供依据。一是规则设置,设置某类稽核规则设置应用于某类数据。规则校验,对所关注的数据执行质量规则的校验。二是任务管理,提供稽核任务调度功能,指定稽核任务周期执行。三是报告生成,记录校验中出现的质量问题,积累形成问题知识库并生成报告,在此基础上,针对校核结果生成质量提高建议。
数据统计分析模块应提供数据价值、重要性、实效性、储存周期等特征和关系的统计分析功能,应实现数据总览、数据条件查询和导出3 项功能。数据总览展示大数据平台元数据、数据标准、数据模型、数据资产、数据使用情况等主要数据信息的综合统计分析页面,能够实时准确地了解平台整体数据存储和运营情况。数据查询满足单表、多表级联等数据查询功能,支持多种数据筛选方式,同时支持构建数据查询模版。
考虑到企业实际使用中部分数据和项目可能有较严格的保密要求,财务大数据系统可以部署在不同网络中。财务大数据的数据全集和涉密项目相关处理部署在涉密局域网中,非涉密项目的相关处理则部署在互联网中,并定期将非密数据同步到涉密局域网的数据全集中,以满足保密标准和商用要求。
数据资产管理模块是对财务系统基础信息和业务信息等数据进行分析和规划后,根据数据的业务特性和分析的应用需求建立的,该模块的功能是保证数据资源的权威性、准确性和统一性,以确保数据共享交换按统一的语义和标准进行。资产管理模块应支持企业内外部数据的入库数据资产的统一管理,包括构建、编目、注册审核、资源浏览等,并能够根据数据特征和业务属性建立索引,提供数据资产查询、检索、定位、标签化等服务,支持数据资产内容的权限控制,为数据共享交换提供基础。
数据模型管理模块是数据治理的中心模块,需要完成财企业内外部数据的治理工作,提供统一数据标准、统一指标管理、数据规划、自定义主题数据模型、可视化数据建模等功能,促进数据规范性和质量的提高,有效支撑运营决策。数据模型的设计包括逻辑空间和物理空间的全局架构,逻辑空间基于业务特征划分命名空间及其核心对象,包括业务板块、数据域、公共定义等模块,物理空间则给予开发协作管理需求划分物理项目,包括项目管理、数据源管理等模块。通过逻辑空间和物理空间的划分和搭建,实现业务划分、资源管控、数据管理等目的。
数据共享服务模块提供数据共享服务API 的生成、注册、发现、访问申请和授权等功能,通过API 网关实现数据服务的统一授权访问、流量控制、监控统计,提供服务市场、支持智能化服务的发布、申请、审核和授权,实现服务市场的统一管理。具体而言,该模块应实现共享数据集的在线构建,并能够按照主题分类、管理数据共享权限以及订阅功能,实现用户自定义数据订阅、在线查看、下载等。
元数据管理模块应支持基于元数据的数据管理和数据服务,主要功能包括:元数据采集,能够适应异构环境,支持从传统关系型数据库和大数据平台(hbase、clickhouse 等)中采集从数据产生到加工处理再到应用报表全过程的系统元数据,例如过程中的数据实体和加工处理数据的逻辑;元数据展示,根据类别、类型等信息展示各个数据实体的信息及其分布情况,展示数据实体间的组合、依赖关系,以及数据实体加工处理上下游的逻辑关系;元数据应用,例如数据地图、数据血缘,影响分析等;元数据搜索,根据数据源库、类型等搜索元数据信息。
数据安全管理模块应依靠信息安全技术手段保证数据资产使用和交换、共享工程中的安全。该模块主要功能包括:数据获取安全,支持基于审批流程的数据获取方式,保障获取数据安全;数据脱敏,支持数据脱敏规则、脱敏算法级脱敏任务的管理和应用;角色授权,支持数据信息等级的划分,使用密级分类模式,对业务数据、分析数据集、数据资产进行分类;日志审计,审计数据安全,监控用户身份认证和数据访问行为,支持数据应用分析。
考虑到企业实际使用中部分数据和项目可能有较严格的保密要求,财务大数据系统可以部署在不同网络中。财务大数据的数据全集和涉密项目相关处理部署在涉密局域网中,非涉密项目的相关处理则部署在互联网中,并定期将非密数据同步到涉密局域网的数据全集中,以满足保密标准和商用要求。
企业可通过财务大数据系统建设,采用信息化手段实现数据权责管控,形成数据汇集融合、多方交互共享的财务数据管理及应用机制,完成财务数据的采、存、管、用全生命周期管理。支持场景化、即席化、可视化和智能化财务数据分析和挖掘,赋能财务金融管理,促使财务数据价值在使用中落地。通过不断迭代丰富和完善大数据应用场景、模型、工具,实现将财务数据转化为生产力的终极目标。▲