基于关联分析FP-Tree算法的企业风险信息数据在线挖掘方法
2024-07-10庞泰翁巍孟灿赵蕾牛红伟
庞泰 翁巍 孟灿 赵蕾 牛红伟
摘要:现阶段的数据挖掘方法缺少对数据关联分析的过程,挖掘效果较差,故文章提出基于关联分析频繁模式树(FrequentPattern Tree,FP-Tree)算法的企业风险信息数据在线挖掘方法。选取与企业风险相关的信息指标,收集有关数据并进行预处理操作后,设计一种考虑关联分析的FP-Tree算法,生成FP-Tree节点的条件模式树挖掘频繁项集,计算满足最小置信度的频繁项集,实现企业风险信息数据在线挖掘。实验结果表明,所用方法挖掘量和挖掘效率较高。
关键词:关联分析FP-Tree算法;企业风险信息数据;在线挖掘方法;数据挖掘
中图分类号:TP391 文献标志码:A
0 引言
小微企业在我国经济中占据重要地位,近年来其抗风险能力有所下降,资金需求变得更为迫切,且融资成本容忍度更低。深入挖掘企业风险信息,可整合分析大量数据,揭示数据背后的规律。多位专家对此展开研究。
徐静等[1]采用卡方自动交叉检验算法设计风险数据挖掘方法,基于现代风险导向审计理论,结合数据挖掘算法实现风险挖掘。此法虽可避免错误财报导致的决策失误,但因指标范围狭窄,关联性低,挖掘风险数据量较少。刘柯倩[2]提出基于云计算的财务风险数据挖掘方法,降低了挖掘深度和量,但可能泄露用户隐私。司桥林[3]则设计财务信息管理系统风险数据挖掘方法,结合技术实现风险信息挖掘,但结果存在偏差。
本文设计了关联规则频繁模式树算法,利用此树挖掘频繁项集和生成关联规则,实现数据挖掘。
1 企业风险信息数据在线挖掘方法设计
1.1 企业风险信息数据采集
在进行企业风险信息数据在线挖掘前,数据准备是关键。需根据企业运营情况,采集与风险信息相关的多项指标数据。这些风险数据涉及财务、市场、技术和运营等多个方面。财务风险关注盈利能力、偿债能力和运营效率等,可通过财务报表和财务比率来评估;市场风险关注竞争地位、市场份额和客户需求变化,需结合市场调研和消费者行为分析;技术风险涉及技术研发、创新速度和专利申请,与研发投入和技术人员相关;运营风险则关注生产流程、供应链和人力资源,需防范生产事故、供应链中断和员工流失等风险。为应对这些挑战,企业需建立风险管理体系,利用大数据和人工智能提高管理效率,确保稳健运营。本文选取盈利能力、偿债能力、经营能力、发展能力、现金流、流动比率及非财务指标等作为关键风险信息指标[4]。
1.2 企业风险信息数据预处理
在企业风险管理中,数据清洗是核心环节。原始风险数据常含控制与冗余值,这些无助于风险分析,还可能干扰结果准确性。因此,清洗这些不必要数据至关重要,可净化数据集[5]。同时,异常值亦需特别关注,可能源于录入错误或系统故障,它们会扭曲数据分布。若未剔除,将导致分析失真,无法真实反映企业风险。故需专门检测并剔除异常值。此外,数据转换也必不可少,主要涉及正向化与标准化。正向化主要调整指标意义和处理负值,确保符合分析模型要求。某些风险指标可能低值表示低风险,高值表示高风险,但模型可能要求相反。因此,需进行调整,使指标与模型匹配。同时,负值处理也是关键,需通过平移、缩放等方法转为正数,以满足模型要求。标准化旨在消除量纲差异,使各指标在分析中地位平等。常用方法是基于均值和标准差进行标准化处理,将数据转为均值为0、标准差为1的标准正态分布。这样,数据点差异更多取决于相对位置而非绝对值,便于更精确比较和分析不同风险指标间的关系与影响力,为企业制定有效风险管理策略提供有力支持。
由于企业风险信息相关的指标数据大多为适度财务指标,具有一定特殊性,所以需要对其做正向化处理。假设第i个企业风险信息数据指标为xi,正向化计算如公式(1)所示。
x′i=11+|x0-xi|×φ(1)
式(1)中,x′i为正向化处理后的企业风险信息指标数据;x0为适度财务指标数据的最优值。同时,为消除指标量纲、数值大小等差异,本文采用下式对原始企业风险信息指标数据做标准化处理。
x″i=x′i-minx′imaxx′i-minx′i(2)
式(2)中,x″i为标准化处理后的企业风险信息指标数据;minx′i、maxx′i分别为标准化处理前的企业风险信息指标数据x′i的最小值和最大值。
1.3 基于关联分析FP-Tree算法设计与应用
本文利用关联分析FP-Tree算法进行且与风险信息数据在线挖掘时,主要分为2个环节:构建FP-Tree;利用FP-Tree挖掘数据对象关联规则。构建FP-Tree是关联分析过程中的核心环节,其目的在于建立一个能够高效存储和查询频繁项集的数据结构。为了实现这一目标,首先需要对收集到的企业风险信息相关指标数据进行预处理,包括数据清洗和转换,以确保数据的质量和一致性。随后,对预处理后的数据进行扫描,记录每个数据项的支持度计数,即它们在数据集中出现的频次,反映数据项的普遍性。基于这些支持度计数,按照降序依次插入数据项来构建FP-Tree,如式(3)所示。
m=σ(X)M(x″i)(3)
式(3)中,m为企业风险信息数据项X的支持度计数;σ(X)为数据项X出现的次数;M为记录次数。利用上述构建的FP-Tree进行企业风险信息数据关联规则的挖掘是一个系统性的过程。首先从最低支持度计数的数据项开始,遍历整个企业风险信息数据的FP-Tree。在遍历过程中,为每个FP-Tree节点生成条件模式树。条件模式树是基于当前节点的所有路径集合构建的,它反映了该节点与其他节点之间的关联关系。通过构建条件模式树,能够更深入地探索不同风险指标之间的潜在联系。接下来,根据条件模式树,对最低支持度计数节点进行剔除。这一步是为了确保挖掘出的关联规则是基于足够数量的数据支持,从而避免产生误导性的结论。通过剔除不满足最低支持度要求的节点,可以得到一个更加精炼和可靠的频繁项集,然后对频繁项集进行置信度计算。
δ=P(1-P)N(m)(4)
式(4)中,δ为频繁项集的置信度;P为事件发生概率;N为频繁项集的数据项容量。对企业风险信息数据进行FP-Tree关联规则的挖掘后,通过公式(5)的挖掘计算,实现企业风险信息数据在线挖掘。计算公式如下。
θ=1N×∑niP(1-P)×δ(m)(5)
式(5)中,θ为挖掘得出的企业风险信息数据,即挖掘结果。
2 实验分析
2.1 实验设置
本次实验采用了青海省小微企业信用融资服务中心平台的企业风险数据集,选取了其中的5000个事务样本。每个事务包含2~8个项,最长事务序列有17个不同项。
实验对比了徐静等[1]基于CHAID算法、司桥林[3]基于灰色模型和BP神经网络的数据挖掘方法以及本文提出的基于关联分析FP-Tree算法的企业风险信息数据在线挖掘方法。
为评估各方法的性能,实验以企业风险信息挖掘量为主要指标,同时考虑挖掘时间和最低支持度作为实验变量。通过统计不同变量下各方法挖掘的事务数量,对比了它们在企业风险信息数据挖掘方面的效率。
2.2 结果分析
2.2.1 不同挖掘时间下企业风险信息挖掘量
在上述实验条件下,首先进行不同挖掘时间下企业风险信息挖掘量的对比,将数据最低支持度设置为20%,统计各方法实际挖掘的事务数量如图1所示。
由图1可知,挖掘时间在5000 ms时,不同数据挖掘方法展现出了不同的性能表现。具体而言,徐静等[1]提出的基于CHAID算法的数据挖掘方法挖掘出的事务数量达到2625个,司桥林[3]提出的基于灰色模型和BP神经网络的数据挖掘方法挖掘出的事务数量达到3749个,这2种方法在挖掘企业风险信息数据时,其事务数量均未能超过本文提出的设计方法。而采用本文设计方法挖掘企业风险信息数据时,挖掘出的事务数量达到了4138个,挖掘的事务数量均高于另2种方法,效率更高。
2.2.2 不同最低支持度下企业风险信息挖掘量
本文将最低支持度作为实验变量,对比不同方法在最低支持度下企业风险信息挖掘量。将数据挖掘时间设置为5000 ms,统计各方法实际挖掘的事务数量如图2所示。
由图2可知,当数据挖掘时间等其他约束条件固定时,3种不同数据挖掘方法下的数据挖掘量均随着最低支持度的增加而降低,但本文设计方法下挖掘出 的事务个数一直大于对照组方法,当支持度增大到80%,本文设计方法实际挖掘出的事务数量仍有1624个;而徐静等[1]方法挖掘出的事务数量仅为812个,司桥林[3]方法挖掘出的事务数量为1189个。由此可以说明,本文所提方法在支持度不断增加的情况下,依旧能够保持较高的挖掘量,挖掘能力较好。
3 结语
本文所提基于关联分析FP-Tree算法的企业风险信息数据在线挖掘方法是一种有效且正确的数据挖掘方法,该方法可以从海量数据中提取出对企业运营风险有重要影响的信息,能对企业风险信息数据进行有效的挖掘; 不受时间与支持度的影响,能够保持较好的挖掘能力,从而能够更好地辅助企业进行风险识别。
参考文献
[1]徐静,李俊林.基于数据挖掘的重大错报风险识别和评估研究[J].财经理论与实践,2022(6):79-85.
[2]刘柯倩.基于云计算的企业财务数据挖掘方法[J].信息与电脑,2023(14):203-205.
[3]司桥林.基于数据挖掘的财务信息管理系统风险识别[J].微型电脑应用,2021(6):132-135.
[4]金恒,过文俊.基于数据挖掘的异常财务数据识别方法研究[J].电子设计工程,2021(21):43-46,52.
[5]侯旭华,蒋昕.互联网保险公司审计风险及其防范方法[J].财务与会计,2021(17):52-55.
(编辑 沈 强)
Online mining method of enterprise risk information data based on association analysis FP-Tree algorithm
PANG Tai, WENG Wei, MENG Can, ZHAO Lei, NIU Hongwei
(Qinghai Provincial Center For Public Credit Information, Xining 810001, China)
Abstract: The current data mining methods lack the process of data association analysis, and the mining effect is poor, so the online mining method of enterprise risk information data based on the FrequentPattern Tree (FP-Tree) algorithm is proposed. After selecting information indicators related to enterprise risk, collecting relevant data and conducting pre-processing operations, an FP-Tree algorithm considering association analysis is designed to generate the conditional pattern tree of FP-Tree nodes to mine frequent item sets, calculate frequent item sets meeting the minimum confidence, and realize online mining of enterprise risk information data. The experimental results show that the method has higher excavation capacity and efficiency.
Key words: correlation analysis FP-Tree algorithm; enterprise risk information data; online mining method; data mining