企业审计大数据可视化建模分析系统设计与实现
2023-09-07吴琛华
吴琛华
[摘 要]当前,招标形式多样,招标风险存在于各个环节。为有效防范招标风险,企业需要提前识别各个阶段的风险因素,并采取有效的审计手段支持招标项目的开展。本文重点研究了企业审计大数据可视化建模分析系统,采用微服务容器化技术和大数据分析技术,通过将手写SQL才能进行的数据分析任务迁移到简单的可视化配置中,使得几乎没有任何开发经验的业务人员也能快速地进行审计风险分析。这种基于技术创新的方法为提高审计效率、确保招标项目顺利开展提供了有力支持。
[关键词]审计;招标;大数据;可视化建模;系统;设计;实现;风险管理
doi:10.3969/j.issn.1673-0194.2023.13.013
[中图分类号]F239;TP311 [文献标识码]A [文章编号]1673-0194(2023)13-0046-05
0 引 言
如今,我国招投标形式呈现多样化、标准化、国际化的趋势,招投标风险管理一直备受关注。由于招投标风险是客观存在的,有一定的必然性和可变性。例如在招投标的计划阶段、立项阶段、发标阶段、投标阶段、开标阶段、评标阶段、定标阶段、合同阶段等,存在着各式各样的法律风险、人员风险、经济风险与合同风险,这些风险随着招标项目的进行而呈现不同的特性。企业需要提前识别各个阶段的风险因子,然后采取行之有效的审计手段,如此才能确保招投标项目的顺利进行。本文旨在利用大量的招投标数据构建风险模型,以提高风险识别的准确度。我们实现了一套企业审计大数据可视化建模分析系统,该系统结合招投标行业的专业知识,充分挖掘数据价值,提升审计人员的工作效率,实现招投标全流程的智能化分析。
1 研究现状
传统的招投标风险分析主要依赖审计人员的自身经验或者他人提供的情报线索,对某个招标项目或者某个招标单位进行调查取证,缺乏风险审计的完整性、无法固化风险模型。目前大多数的招投标风险管理是基于某个阶段或者某个时间点进行风险管控,而将招投标理论应用到全量历史数据和项目全过程的研究却不多。当招投标系统不断更新迭代且数据量不断膨胀时,现有的工具无法适应系统变化而导致的数据结构的变更。另一方面,在不同的招标项目、不同的环境、不同的阶段,招投标风险因子并不是一成不变的。
为了应对上述动态且定制化的建模需求,本文基于领域知识的建模分析能力和可移植、可扩展的技术,旨在促进审计行业从传统的人工风险识别向数字化和智能化的方向转变,以实现企业资源的优化配置。
2 系統架构设计
下面我们将详细阐述本系统的架构设计及实现,图1展示了企业审计大数据可视化建模分析系统的总体架构设计,该架构分为三大功能:基础组件体系、数据体系、安全体系。为了处理海量的数据,本架构设计之初便考虑了高扩展性、高可用性。将执行功能剥离为智能调度,基于动态负载均衡算法避免造成任务堆积、服务崩溃。安全体系是为了确保系统安全、数据安全不可或缺的一部分。
在对本系统的架构有了初步的了解后,我们将重点介绍可视化建模中的几个关键步骤,即数据接入、数据探索、数据质量管理、数据标准化、交互界面设计、业务算子,他们是本系统的核心功能。
2.1 数据接入
数据接入,获取数据是数据建模的基础。不同的行业有着形式多样的数据源,只有探查出数据源的存储位置、结构信息、业务用途等信息,才能进行数据接入。通过对源数据进行全方位的探查来认识数据,根据探查的结果定义源数据到目标系统的读取策略,采用画板的形式动态读取路径。根据探查和读取定义的结果,对各种异构数据进行必要的解压、解密、字符集转换等操作,实现从源系统读取数据或接受读取源系统推送的数据并检查数据是否与数据定义一致,不一致则停止接入。对于RDBMS关系型数据库数据源,利用通用接口DatabaseMetaData获取数据库的元数据信息;对于Kafka等消息队列数据源,通过Consumer客户端获取队列的元数据信息;对于Http接口数据源,通过Http请求Response获取元数据信息。通过构造不同的数据源探查插件,动态高效地支撑大数据智能化的数据探查。
2.2 数据探索
由于原始数据是杂乱无章的,针对数据进行可视化的探索变得尤为重要。探索性的数据分析,侧重于原始数据本身的展示,因此与数据可视化具有相当紧密的联系,并且图形展示更直观且有利于发现有价值的信息。信息时代之下,数据爆发式增长,使得数据分析与可视化的需求不断增长。通过图形化的方式呈现数据,数据可视化可以帮助人们更快地理解数据中的模式、趋势、异常,从而提升数据分析的效率、把握数据的价值和内涵[1]。简而言之,描述趋势使用折线图,描述数量使用柱状图(且必须从 0 开始),描述关系使用散点图,描述比例使用饼状图。
2.3 数据质量管理
数据质量是数据分析结论有效性和准确性的基础也是最重要的前提和保障。然而数据却是把双刃剑,它能带来巨大价值的同时也是各行业领域最大的风险来源。
数据质量问题包括:①数据的完整性和准确性。数据明显缺失、空值和缺失值、关键字段或信息的缺失、多表字段统计值不一致。②数据的唯一性。不同来源的数据出现重复的情况、主键字段存在重复的情况。③数据的权威性。同一个指标出现多个来源的数据且数值不一样。④数据的合法性。获取的数据与常识不同、字段长度不满足预期、字段的值不满足正则校验(手机号、邮箱、时间、税号等)、字段的值不在枚举值的范围内。⑤数据一致性。所发生的数据格式或单位不一致。⑥数据的及时性。数据在预期时间内没有处理完成。
数据质量分析方法:①业务知识判断数据是否在合理范围;②总记录数;③0值数/0值占比;④唯一值的数量;⑤空值数/空值占比;⑥最小值、最大值、平均值、方差、中位数及各分位数(箱线图)、偏度、峰度、众数;⑦基本数据类型;⑧最小、最大和平均长度;⑨异常值分析;⑩数值的精度和范围;频次与直方图分析;数据分布是否对称、是否符合正态分布;3σ原则;重复记录的数量/占比。
2.4 数据标准化
数据标准管理主要目的在于规范产业数据的标准,如果待治理的产业数据之间属性信息一致,但定义与描述各不相同,那么将难以保障产业数据治理的准确性[2]。为了使用统一的规范来约束企业内外部的数据,数据标准用以描述企业的数据含义与业务规则。实现企业管理数据的规范性、完整性、共享性、有效性,為数据资产的管理提供参考依据。
标准元素:也称数据源,是数据标准的最小粒度,由一组属性规定其标识、名称、定义、类型、长度、允许值、质量规则的数据单元。一般定义需要参考国家标准、行业标准、企业标准,并经审核才能进行使用。
标准数据集:由一系列标准元素共同组成的集合。用以描述不同业务的业务规则、逻辑。
数据对标:通过自动对标或人工对标,将数据接入的外部数据集映射到标准数据集。
数据接入的数据格式是五花八门的,必须要经过标准化处理才能形成平台的标准数据。
2.5 交互界面设计
对于传统的大数据建模方式,一般是基于SQL引擎进行SQL脚本的开发。
本系统用户可实现全程可视化操作,通过简单的拖拉拽即可完成数据模型的搭建。交互界面主要包括模型的创建过程,定义模型的规则、风险主体、运行周期等信息。基于交互界面,用户只需要知道基础的模型定义过程,即可一站式地完成数据模型创建、模型分析、模型运行、模型上线,屏蔽了底层的模型解析、模型数据流。
首先对接标准化之后的数据集,对各个标准数据集进行关联映射。关联方式包括LEFT JOIN、RIGHT JOIN、INNER JOIN、FULL JOIN、SEMI JOIN。关联
的字段通过拖拉拽的方式进行左右关联。
模型的具体配置包括风险等级的定义、条件的定义、分类的选择、指标的确定、规则的设置。通过左侧的标准元素和右侧的各类算子控件进行各种自由组合以构建模型的业务逻辑。模型运行时将根据模型配置解析为一串工作流,方便对每一步模型运行进行调试。对于无法使用简单的拖拉拽方式配置的数据模型,平台提供了自定义SQL建模的方式。
预警配置支持对不同的风险主体设置自定义的预警推送。包括风险主体的选择、积分方式的定义、风险管理组的分配。
调度配置支持模型按规则运行,支持次、年、月、
日、周、小时方式运行。包括调度名称、预警选择、调度状态、调度周期。解决在大规模数据和大量工作流程下,对资源高效、合理利用的问题。
模型配置完成之后,可以通过测试、抽样来最终确认配置的正确与否。
2.6 业务算子
企业大数据可视化建模分析系统提供了丰富的算子资源供用户使用。根据用户建模的习惯以及建模的常用流程,提供了九类算子,包括统计算子、字符算子、算术算子、基础算子、日期算子、条件算子、逻辑算子、AI算子、文件算子,并支持动态增加算子类型。不同类型的算子可满足各种模型在任意阶段对数据处理、数据分析、数据挖掘的需求。类别可以按需进行自定义,自定义分类需要提供类别字段及训练数据集。
3 系统实现与效果评价
按照本文提出的设计方案,我们进行了编码实现。在开发运维一体化(DevOps)平台的基础上,搭建起K8S微服务环境、Hadoop大数据环境和知识图谱构建环境,实现了快速构建和部署定制化的大数据处理分析微服务组件。这使得我们形成了一个可扩展、可移植的应用框架,适用于多系统、多平台环境下进行可视化建模分析。
在微服务架构下,我们按照最佳实践原则,以适当的力度对系统功能进行拆分,形成一系列可复用的可视化建模分析微服务组件库。这些组件库包括以下几种组件,如基础服务模块,包括身份认证、权限管理、系统日志、用户中心、多语言、日志审计等功能;数据接入模块,包括数据源管理,数据文件,数据集市,任务配置,调度执行,资源中心;数据标准模块,包括元素标准、字典标准、数据集标准;数据建模模块,包括模型列表、预警列表、调度列表、风险管理组;预警分析模块,包括风险预警统计、风险库汇总、处置列表展示,主要分为风险地图、风险库、处置列表。
该系统数据模型基于Hadoop的数据仓库工具Hive,方便用来查询和分析大规模的分布式数据。通过可视化界面,初步建立了抽象的流程模型,底层经过进一步的算子解析、优化和精简得到可执行的DAG业务链。然后,我们提取出业务链与数据链中的关键属性,自动构建出HSQL语句,而无须编写复 杂的MapReduce代码。最后驱动程序将Stage发送到集群中执行,任务调度器负责资源协调并处理依赖关系,最终形成基于某类风险主体的全面数据。
下面我们根据数据建模的目标,选择合适的分析方法或算法。
3.1 实验1——数据离散度建模
在招投标过程中,专家评标分析阶段可能会产生投标企业与评标专家串通投标的行为。通过利益输送,评标专家对投标企业的评分远远高于标段内的评标平均分。可以通过专家倾向性和专家打分偏差度进行建模分析,对超过一定倾向性比例和偏差度的投标企业预警。
在招投标过程中,投标报价阶段投标企业会串通其他投标企业以高价或者低价投标,使标段内的所有投标企业的投标均价与自身的投标报价相近,以此来提高中标概率。通过对投标报价数据离散度建模分析,对报价超过一定偏离度的投标企业进行预警。
3.2 实验2——异常行为建模
投标企业中标率偏高或偏低都属于异常行为。通过分析单个投标企业所有投标记录和所有中标记录,得出投标企业的中标率。中标率偏低可能存在陪标的风险,中标率偏高可能存在串标的风险。对接招投标公开数据,如果发现中标率偏低的单位在投标单位注册地中标率偏高,则有很大的概率说明这些投标企业存在借壳投标的行为。
3.3 实验3——技术指标雷同建模
通过提取投标企业电子标书的电子信息。例如电子文件创建用户、文件创建/修改时间戳、电子文件制作機器码、电子文件创建标识码。对同一标段下电子标书的隐藏信息进行分析比对,找出异常数据。
3.4 实验4——供应商同源建模
关系图谱是在大量数据集合中,按照一定的规则或规律,通过特定的算法对数据进行分析,从而发现不同事物中蕴含的关系,并将事物进行关联,最终形成的数据网络[3]。借助关系图谱对招投标数据进行建模分析及可视化展示,从不同的维度,挖掘出隐含在不同数据中的关联关系。我们要构建的关系图谱包含的企业名称、地址等信息通常不是精确的值。比如:北京市西直门外大街112号和北京市西城区西直门外大街112号,如果将这两个地址映射为两个实体的话,这两个实体是没有任何关联关系的。为了消除实体歧义,就需要对歧义实体进行相似度计算,利用TF-IDF算法进行处理。
投标企业法人、投标企业负责人、投标企业负责人联系电话、投标企业注册地址、投标企业统一社会信用代码等一般归属于某家投标企业,如果出现在不同的投标企业中,很大程度上反映出企业之间的关联密切,同时结合企业历史投标记录,分析投标企业在不同项目或者不同标段下的投标信息,挖掘出两两企业的潜在联系,即投标企业存在同源关系或者说存在围串标风险。
综合以上的实验来看,该企业审计大数据可视化建模分析系统凭借其多元需求场景考虑、强大的功能以及易用性,足以满足大多数场景下的建模需求。
4 结束语
本文基于大数据技术,设计并实现了一套企业审计大数据可视化建模分析系统,包括了数据接入、数据清洗、数据转换、数值质量检查、数据标准、数据建模、数据可视化等模块。自该系统上线以来,已成功建设了上百个模型,节省了大量的开发人力成本。同时,业务专家直接参与算法和指标定义,使得模型的开发迭代周期大大缩短。该系统有效解决了招投标过程中各类违规风险的识别问题,大大节省了审计人员的时间成本。系统采用多维的数据处理与分析技术,构建了全方位的审计防护,确保招投标项目工作顺利执行。未来我们将聚焦于优化系统的可扩展性、易用性,扩展跨行业应用,提升建模效率,实现更广泛、更高效、更安全的应用,从而成为数据建模和可视化数据分析的首选工具。
主要参考文献
[1]蓝星宇,王嘉喆.数据可视化设计的类型学实践[J].美术大观,2022(3):149-152.
[2]安平.数据中台视角下产业数据治理系统的设计研究[J].网格安全和信息化,2023(6):94-96.
[3]张寒烁,杨冬菊.基于关系图谱的科技数据分析算法[J].计算机科学,2021,48(3):174-179.