APP下载

财务数据源及数据采集研究

2022-06-25陈虎刘雅琼

财会月刊·下半月 2022年6期
关键词:数据源数据采集

陈虎 刘雅琼

【摘要】DT时代下, 数据成为企业实施高效与精准管理的有力证据与依据, 而科学全面地采集数据是驱动数据发挥作用的前提。 财务部门作为企业的数据管理中心, 财务采集数据的范围在DT时代进一步扩展, 包含结果、交易、过程、行为、环境五部分数据, 对应的财务数据源也发生了变化。 本文聚焦于DT时代下财务领域的数据采集, 研究财务采集数据以及财务数据源的范围, 并有针对性地分析不同情境下的数据采集方法与手段, 助力高效发挥数据价值, 推动财务向管理职能转变。

【关键词】数据源;财务数据源;数据采集;数据技术

【中图分类号】F275      【文献标识码】A      【文章编号】1004-0994(2022)12-0050-5

DT(Data Technology, 数据技术)时代下, 一方面, 由于面对海量、复杂的数据, 企业为了更长远的发展需要精进管理, 对财务部门提出了更高的发展要求, 财务部门的职能发生着变化, 已经由被动的事后核算型逐渐向主动的事前预测型与事中管理型转变; 另一方面, 随着“大智移云物区”新兴技术的蓬勃发展, 及时、广泛地采集数据已经得以实现。 财务部门需要重视数据采集, 准确、高效地采集内外部、多样化、多层次的数据, 把控数据质量, 发挥数据价值。

本文关注DT时代下财务对数据的采集范围及采集能力, 研究适宜的采集工具与技术, 推动财务应用数据发挥更大的价值, 为企业经营与战略决策提供支持, 助力企业财务转型。

一、数据源的分类

科学全面的数据采集工作能够驱动数据高效发挥价值, 为此, 数据源成为数据采集关注的核心。 数据源即数据的来源, 是指提供数据的原始器件或媒介。 梳理数据源是做好数据采集工作的前提。 对企业而言, 數据源可以按照分布的范围分类, 也可以按照数据的采集路径分类。

(一)以分布范围分类的数据源

数据源的分布范围按照企业信息体系的边界分为企业内部数据源和企业外部数据源。 对不同分布范围的数据源进行数据采集, 需要调用的资源是不一样的。

企业内部数据源主要包括企业的业务系统、财务管理系统、人力资源管理系统、日志采集系统、线下保存数据的办公软件以及企业生产环节的温度传感器等。 企业内部数据源承载并提供了绝大部分企业营运管理所需的数据。 通常, 这部分数据可通过数据库和系统日志等工具进行调取、采集, 或运用API(Application Program Interface, 应用程序接口)实现开放系统间集成及数据传输。 但由于大部分企业内部存在信息孤岛, 在面对更广泛的数据采集需求时, 建立数据仓库和数据中台则更能发挥优势。

企业外部数据源包括政府、高校、机构、行业协会的开放型数据库以及网页与应用程序等。 企业通过采集外部数据打通与客户、供应商、竞争对手、政府、相关机构等外部因素的联系, 增强了敏觉性。 相对于企业内部数据源, 外部数据源大多分布广泛且分散, 企业通常根据适配性对数据进行筛选, 并采用网络爬虫和API的方式采集, 从而提高采集的效率和质量。

(二)以采集路径分类的数据源

数据的采集路径可分为两类: 一类是将存在于物理世界的数据复刻至数字世界中; 另一类是将本身存在于数字世界的数据搬运至企业的数据仓库、数据平台或者数据中台。 据此, 可将数据源分为物理世界中的数据源和数字世界中的数据源。

物理世界中的数据源是以物理实体为载体, 借助物理设备进行数据采集, 实现从物理世界向数字世界的转化。 企业的经营环境中存在着大量物理世界中的数据源, 包括条形码、二维码、传感器、工控设备等。 针对物理世界中数据的不同形态, 有对应的采集方式及技术。 典型的采集技术包括OCR(Optical Character Recognition, 光学字符识别)以及ICR(Intelligent Character Recognition, 智能字符识别)技术、ASR(Automatic Speech Recognition, 自动语音识别)技术、RFID(Radio Frequency Identification, 无线射频识别)技术等。 这些技术可以帮助企业实现数据转换, 打造企业级的数字世界。

数字世界是通过对物理世界的感知, 借助数字技术、互联网、云技术等科技力量逐步构建起的对物理世界的映射[1] 。 数字世界中的数据源存在于各种软件、系统或程序中。 这些数据虽存在于数字世界, 但也并非是自然相通的, 需要借用技术与工具将数据采集、汇聚至企业的数据仓库、数据平台、数据中台中, 为下一步数据的抽取、清洗、装载做好准备。 常见的数据采集工具包括系统日志、数据库、网络爬虫、API等。

二、财务采集数据的范围及数据源的扩展

聚焦财务领域, 财务数据源也需要随着财务职能的转变进一步扩展。 传统财务部门围绕着九大业务流程(费用报销、采购付款、订单收款、存货成本、固定资产、总账报表、会计档案、资金管理、税务管理), 此时, “票账表钱税”背后的数据是财务人员关注的重点, 其实质可归类为结果数据。 结果数据是企业经营过程中, 处理交易时所产生、接收的凭证上承载的数据, 以及在会计科目体系下对这些数据进行的提炼, 包括发票金额、差旅行程、付款明细等数据。 与之相对应, 承载这些数据的发票、行程单、火车票、银行回执单、合同等都是传统财务数据源。

(一)财务采集数据范围的扩展

随着企业的转型发展和数字技术的赋能, 财务职能正向着支持企业经营管理转型变革, 财务所关注的数据不再仅局限于前文提到的结果数据, 财务数据源也因此得到扩展。 除了需要采集结果数据, 财务还需要采集交易数据、过程数据、行为数据、环境数据(见图1), 实现对这些数据全方位的采集汇聚, 支持和驱动财务发挥经营管理、价值创造的职能。

交易数据是在企业与外部利益相关者进行交易时产生的数据, 包括交付产品参数、客户评价、交易频率等数据, 其中交易对象、交易金额等这一类数据在交易完成后将转化为结果数据; 过程数据是企业与外部利益相关者在交互过程中产生或获取到的除交易数据外的其他数据, 包括项目进度、供应商工商信息等数据; 行为数据是企业经营过程中可通过观测工具获取到的观测对象行为的记录数据, 包括用户行为日志、物流追踪等数据; 环境数据是企业所处行业市场情况、国家宏观经济形势及全球经济变化等外部数据, 包括市场份额、价格指数、经济运行指标等数据。

在此基础上, 财务数据源得到了重新定义与扩展, 除了传统的账表、凭证, 企业内部各類业务系统、财务管理系统, 以及外部的网页、应用程序、开放型数据库、外部开放型平台等, 都成为全新的财务数据源。

(二)财务数据源的扩展

扩展后的财务数据源为财务更好地向管理职能转变奠定了更加全面的数据基础, 可以划分为三个层次(见图2)。 财务依此开展相应的数据采集工作, 从而进行核算、控制、预测、管理、决策等活动, 实现财务职能的转型变革。

1. 第一层: 财务数据载体及其结构化。 财务数据载体是承载业务处理过程中所形成的各结果数据的单据或票证等。 财务数据载体作为交易发生的“证据”, 是财务部门开展财务核算工作的重要依据, 按照来源可以划分为两类。 一是外部载体, 包括发票、行程单、火车票、汽车票、银行结算凭证、完税凭证等由外部开具的材料, 可直接作为账务处理的凭证; 二是内部载体, 包括业务、财务处理以及财务管理过程中生成的内部材料, 例如记账凭证、报账单、采购申请单、验收单、入库单、成本控制单等。

另外, 财务数据载体按照数据类型还可以划分为原始凭证、单据、凭证、账表四类载体(见表1)。

2. 第二层: 对内部信息系统的全面采集。 在第一层的基础上, 财务部门若想支持企业控制、预测、管理活动的开展, 需要对研发、采购、生产、销售等业务环节进行全景测绘, 不断扩展数据的采集触点。 为此, 企业需要实现销售、采购、人力资源等各类信息系统的广泛连通, 在线采集全系统中的结构化数据, 集成企业内部的数据资源, 在高效推进业务处理与财务管理的同时, 为企业沉淀数据基础。

3. 第三层: 对其他外部数据源的全面采集。 企业要想从数据中获得洞见支持决策, 就需要建立更为广泛的数据连接, 因此企业还需要面向外部数据源, 比如网页、应用程序、开放型数据库等, 采集企业信息体系范围外的其他数据, 包括客情、竞情、行情、国情等, 比如潜在客户与商机转化数据、客户画像数据、竞争对手最新产品数据、国家相关政策数据、国家GDP数据等。 内外部数据网络的建立可以置企业于实际的市场、行业、国情之中, 从微观视角看经营状况, 从宏观视角把握发展动向。

财务数据源及数据采集的“三大层次”逐步推动财务部门从小数据集向大数据转变, 最终发展成为覆盖企业内外部全数据采集情境下的数字神经网络, 包括物理世界及数字世界的数据采集、结构化与非结构化数据采集、内部与外部数据采集等多种不同情境。

三、财务采集数据的方法与工具

财务数据源分为三大层次, 各层次数据采集有针对性的采集工具与方法。 当财务部门面对不同数据的采集情境时, 数据源与数据采集要求都各不相同(见表2)。 根据不同情境选择适配度最高的采集工具和方法是提升数据采集效率和质量, 保障数据安全、有序的关键。

(一)情境一: 感知设备数据采集

描述客观事物的数据可使用感知工具与技术进行采集, 并且这种感知技术被广泛应用。 常见的感知工具与技术包括OCR技术、信息传感器、射频识别技术、全球定位系统、红外感应器、激光扫描器等。

在典型的财务工作中, 存在大量文本格式标准化程度高的财务数据载体, 包括银行结算单、行程单、发票、火车票等, 可借助于高效稳健的OCR技术, 运用光学设备(扫描仪、数码相机等)将纸质文档上的文字转化为图像, 再利用算法把图像信息翻译成可编辑的计算机文字。 其本质是利用光学设备去捕获图像并识别文字, 将人眼的能力延伸到机器上。

在智能采集方面, 基于切分分类引擎的OCR智能识别技术可以实现各类发票及通用票据的精准切分分类以及快速识别输出。 员工可以混拍多张纸质发票上传影像; 系统基于图像预处理技术与切分分类引擎进行校正去噪、智能切割, 按照发票类型提取字符图像的特征并进行智能分类, 支持电票、专票、普票、出租车票、定额发票等种类多样、版式不一的票据[2] ; 分类后, OCR技术根据发票类型识别并获取每张票据的结构化信息。 感知技术的应用极大限度地实现了从数据载体中采集结构化数据。

(二)情境二: 系统中结构化数据采集

以数据库形式存储的结构化数据几乎是所有企业都具备的数据资源, 这些数据往往涵盖了企业生产和经营各个环节的核心数据, 因为它们的数据源是承载企业业务处理、财务管理、人力管理等的各大信息系统, 且高度结构化, 可进行批量采集。

通过信息系统采集数据是常见的数据采集方式, 比如通过票联系统能够获取各类票据信息; 通过供应商智能结算系统能够智能连接所有供应商, 获取开票数据、发票查验、三单匹配、智能审核、采购结算、认证抵扣等数据; 通过营收稽核系统能够获取并匹配应收与实收数据, 实时显示自动稽核结果等。 这些信息系统可智能化采集前端业务信息并将其存储为标准的结构化数据, 打通业财数据线上通道。

事实上, 上述系统后台配置了数据库, 因此能够在系统中存储、搜索以及调用运行过程中产生、传输、交换的数据, 并实现对系统数据的采集。 如果需要采集、整合跨系统数据以实现多视角分析, 采用数据仓库是比较好的方法。 数据仓库能够将各类结构化数据转化成中间状态, 实现数据格式的统一, 并将数据在各类数据库与数据仓库之间进行批量同步[3] 。

(三)情境三: 日志文件数据采集

部分数据需要从系统日志、服务器日志中进行采集, 这部分数据主要用于监控系统运行情况和记录用户操作行为, 以满足系统运维或运营管理过程中数据需要实时关注的需求。 每个系统、服务器后台都有日志, 日志数据捕捉了大量用户行为, 蕴藏着巨大的开发价值。

用户行为分析帮助企业理解并分析用户行为, 是采集后台日志数据的典型应用。 埋点是目前较为常见和成熟的捕捉和记录用户行为的方式。 用户一旦发生特定行为就会触发被提前“埋下”的“数据记录器”, 将其行为过程进行记录并保存, 以采集日志数据。 在财务领域, 日志数据采集被广泛应用于财务作业平台、共享服务中心的运营管理中。 例如, 通过观测财务人员的单位审单时间、相同时间段审核单据数量以分析其审单效率, 定位各环节质量缺陷的主要表现以及质量差错的相关人员, 从而加强管理等。

(四)情境四: 非结构化数据采集

目前, 财务采集数据中非结构化数据仍然占较大比例, 非结构化数据能够提供多样化的信息, 帮助人们更全面地理解事物深层内涵。 非结构化数据包括非结构化文档、图像、音频以及视频等数据。 采集非结构化数据需要针对性的技术以及系统工具。

NLP(Natural Language Processing, 自然语言处理)技术是一种可以应用在非结构化文本数据采集领域的人工智能技术, 旨在利用计算机分析自然语言语句和文本, 抽取重要信息, 进行检索、问答、自动翻译和文本生成, 能够从非结构化数据中抽取有价值的数据。 在财务领域, 合同、内部公文制度等复杂的非结构化文档海量存在, NLP技术不仅实现了数据的自动采集, 更实现了语义的自动理解。 在合同智能审核情境中, 应用NLP技术可自动识别合同文本, 标注并抽取其中的关键信息如合同主体、专业术语、合同金额等, 形成结构化数据, 借助语言模型算法对获取的结构化信息进行模型判断, 对合同文本形式、合同主体合格性、合同实质等进行初步核查, 辅助人工进一步审核[4] 。

(五)情境五: 其他外部數据采集

财务采集数据还存在其他外部数据源, 而外部数据大多散落在互联网网页、各大机构的开放型数据库以及外部开放型平台中。 数据类型多样, 内容庞杂, 且其蕴含的价值不可小觑。 针对不同的外部数据源需要采取对应的高效智能的数据采集技术。 财务部门通过采集其他外部数据, 包括客商、政府、竞争对手等数据, 完善企业经营管理, 了解行业最新动向。

1. 互联网网页信息采集。 网络爬虫技术广泛应用于互联网数据的采集。 一般而言实现网络爬虫的途径包含两种: 编写代码脚本和使用爬虫软件。 相较于爬虫软件, 通过编写代码脚本可以开展个性化需求非常高的数据搜索及采集工作, 其实现流程主要是获取网页、解析关键数据以及存储数据[5] 。 Python(一种计算机编程语言)是目前较为常用的爬取网络数据的计算机语言。 网页数据爬取与人们的工作生活息息相关, 包括谷歌、百度、搜狗等常用的搜索引擎通过编写自动爬虫程序, 爬取、收录、整合以及利用互联网中的优质信息。 财务部门可以通过Python爬取竞争对手、行业标杆、客户、供应商等的经营数据, 为企业战略规划、经营计划的制定以及业务发展提供参考。

2. 各大机构开放型数据库数据采集。 在金融经济、生产制造等诸多领域都有政府部门或权威机构专门开放给公众使用的数据库。 例如, 国家数据(国家统计局开放的数据库)、中国统计信息网(国家统计局的官方网站)、CEIC数据库(China Entrepreneur Investment Club, 中国企业家投融资俱乐部, 香港环亚经济数据有限公司开放的数据库)等。 开放型数据库数据信息专业、权威, 可直接进行查阅下载或通过API批量获取。 财务部门通过采集机构数据库数据获取官方权威指标数据, 了解企业经营的社会环境。

3. 外部开放型平台数据采集。 随着互联网应用的不断普及, 越来越多的网络站点推出基于开放API标准的产品和服务, 将自身的资源开放给开发者来调用。 一个站点(Site)可以理解为一个存储区, 存储了一个网站包含的所有文件。 对外开放资源的站点提供开放统一的API接口环境帮助使用者访问、获取站点的功能和资源。 财务部门通过采集外部开放性平台数据, 了解行业最新动态数据, 掌握行业发展前沿, 助力企业长远发展。

四、财务采集数据的未来趋势

DT时代下, 数据随需获取, 越来越多的企业正在通过不断思考与创新突破传统财务采集数据的界限, 追求通过更高效、更低耗的方式实现更有效、全面、及时的数据采集, 由此财务采集数据将逐步实现无感触发、全量感知、实时汇聚。

(一)无感触发

DT时代下企业通过统筹利用软硬件资源, 发挥高可靠性、高通用性、高可扩展性的数据能力, 支持业务活动产生的数据“发生即采集”。 不同类型企业实现无感采集的难度与进度存在差异。 数字原生企业(互联网企业)能够实现业务全流程数据的自动留痕, 助力实现财务数据的无感采集。 而非数字原生企业的数据无感采集还只是“点状”的, 需要全面整合企业数据, 逐步实现企业全量级业财数据的无感采集。

(二)全量感知

“数据感知”是指敏锐觉察特定数据, 并在数字世界中真实、准确、及时地对其进行反映。 全量感知是数据深度认知的基础, DT时代下的“全量”并非特指企业从人、物到业务、作业等复杂环境的全覆盖、全感知, 而更强调有针对性地围绕数据深入分析目标, 将更具“智慧”。 财务部门要能够对具有潜在价值的数据做出快速反应, 合理配置资源, 提高资源利用率。

(三)实时汇聚

云计算、物联网、5G、边缘计算等技术的成熟应用推动了数据的高频传输、信息的高速互联, 全面加速着各大企业、产业以及全社会的发展。 全面加速意味着数据采集也应保持高级别的响应速度。 云计算、物联网、5G等各项新兴技术的不断突破及融合应用都在助力企业打造业财数据采集的实时汇聚能力。

DT时代下财务采集数据范围和特点的变化提升了基础财务工作效率和财务工作能力, 促进财务更多地投入到高价值工作中, 减少了与业务部门的低效沟通, 加速业财深度融合, 推动财务深入业务价值链, 并为管理层提供深度经营分析, 支撑企业管理决策, 进而拓展财务的职能边界, 促进财务创新与变革。

【 主 要 参 考 文 献 】

[1] 华为公司数据管理部.华为数据之道[M].北京:机械工业出版社,2020.

[2] 梁伟,郭奕.智慧费用报销的探索与实践——以高新技术企业Z公司为例[ J].财务与会计,2021(19):15 ~ 18.

[3] 阿里巴巴数据技术及产品部.大数据之路:阿里巴巴大数据实践[M].北京:电子工业出版社,2017.

[4] 蒋坚强,郭奕,黄仁芬.人工智能助力财务智能审核——以某通信运营公司A为例[ J].财务与会计,2021(19):19 ~ 22.

[5] 唐松.Python网络爬虫从入门到实践(第2版)[M].北京:机械工业出版社,2019.

(责任编辑·校对: 黄艳晶  许春玲)

猜你喜欢

数据源数据采集
图表中的交互 数据钻取还能这么用
CS5463在植栽用电子镇流器老化监控系统中的应用
大数据时代高校数据管理的思考
基于广播模式的数据实时采集与处理系统
通用Web表单数据采集系统的设计与实现
基于开源系统的综合业务数据采集系统的开发研究
Word邮件合并功能的高级应用
信息系统集成与数据集成策略研究
Word邮件合并应用浅析
数据有增加 图表自适应