基于数据挖掘与特征识别的数据信息分析算法
2023-03-10郭宁龚致富
郭宁,龚致富
(河北北方学院附属第一医院,河北张家口 075000)
随着我国医疗行业的不断改革,医疗资源的有效整合得到了国家的高度重视。占据资源较多的医院机构,由于各类数据的规模过于庞大,出现了不同程度的财务信息管理问题,已无法满足行业发展的需求。
随着加密货币技术在供应链、医疗保健与数字身份等不同领域的大规模部署,区块链和分布式账本技术近年来呈现出了快速发展的趋势,其是一种安全、有效的数据存储方式。文中提出了一种基于区块链特征识别的框架与OpenAPI 的标准程序接口,允许基于不同策略的数据进行并行管理,从而实现对医院财务数据的时效性检测。为了对财务数据进行快速、准确的分析,该文引入了数据挖掘算法,同时设计检测模型,以实现对异常财务数据的高效检测。
1 基于区块链的财务数据建模
为了实现对财务数据的准确分析,文中设计了基于区块链的财务模型,并建立了财务模型的特征识别方法。
1.1 区块链模型框架
图1 为所设计模型框架的总体结构,该模型框架基于公证互操作性方法的服务器端组件,支持区块链的客户端向框架发送交易,并支持将交易转换为所需的区块链[1]。
图1 模型框架
在图1 所示的框架中,API 接口是与框架交互的入口点,其为去中心化应用程序提供一个接口以连接一个或多个链[2];区块成本监控模块对选定的区块链执行定期查询,以检索交易费用和费率等数据[3];分析求解器根据预定义的成本阈值、预选链和受监控的区块链数据定期计算使用场景[4]。
该框架的一个重要特点就是OpenAPI 模块,其可将一个或多个事务输入创建到目标区块链上的可读事务中[5]。基于策略的管理模块包括PDP 与PEP算法,此模块负责根据预定义的参数决定操作,并强制执行到OpenAPI 调用中。
框架实际运营时,第一步涉及到的是用户信息、支持的区块链和策略的配置。一个用户可以有1~N个与其区块链账户相关联的账户,能预先定义策略以优化成本或性能,策略定义的表达式如下所示:
其中,b是区块链,c是与交易费用相关的成本[6]。
若需要优化成本,即最小化与交易费用相关的成本数据,则需该系统决定如何采用不同的区块链来存储优化成本数据,或者通过设定阈值以限制相应的最大成本[7]。文中使用MAX_COST 阈值来定义目标金额,MAX_TIME 定义所有交易挖掘的最大等待时间。若优先考虑数据处理的性能,则应将该框架配置为尽快存储交易,且允许增加交易费用。
为了保证财务数据分析框架的稳定性,此次所设计的安全策略优先于成本和性能策略[8]。保持数据机密性可以防止医院将特定数据存储在公共区块链上,该模型通过为特定操作声明私有区块链来实现。具体实现方法为:在可修改区块链集相关联的数据类型上定义允许的操作(例如写入、读取、迁移、估计),以表示每个操作的一组允许链ID。根据策略定义,PDP 算法将决定不同的策略,以实现针对OpenAPI请求的不同区块链和操作类型的正常运行。
一旦系统配置了策略,区块链成本监控器就会自动计算来自可用区块链的成本和等待时间信息,从而实现以历史交易数据作为OpenAPI 的调用响应来获取平均交易成本,进一步估计出单个交易的平均等待时间成本。公共API 用于查询费用信息,一旦收集到有关成本和时间的信息,PEP 算法会根据当前策略将操作请求转发到OpenAPI 模块。
1.2 OpenAPI工作流设计
根据定义的用户策略,系统会选择最合适的区块链来实现存储和检索数据。
OpenAPI 执行存储函数的工作流程如图2 所示。API 是OpenAPI 的入口点,一旦其接收到store(·)函数,便会根据选择的区块链将请求委托给相应的适配器使用BC_ID 值。因此每个区块链均需要一个区块链适配器,实现创建、签名和发送交易(TX)的特定方法,而每个区块链适配器的核心是存储和检索方法。区块链适配器存储基于正确的区块链模板创建交易并对输入数据进行编码,使用私钥(从凭证数据库中检索)签署此交易,并将其作为原始交易广播到区块链中的多个节点。广播是通过定义区块链远程过程来调用(RPC)服务器执行的,且在交易哈希返回给用户之前会将交易存储在TX 数据库中。区块链适配器的检索模块使用交易哈希作为搜索参数在区块链中搜索交易信息,从交易信息中提取数据并将恢复的文本消息返回给用户。
图2 OpenAPI工作流程
2 基于数据挖掘的财务数据检测
为了保证此次数据挖掘的真实有效性,文中使用了真实的大型数据集特征参数进行数据挖掘平台的设计。分析的主要目的为从给定的数据集中过滤属性,以便为高效的数据分析选择最相关的属性[9]。
首先对数据库进行预处理,此次使用两种方法来执行数据增强以避免在训练模型期间过度拟合[10]。当卷积网络提取特征时,使用Dropout技术;其次,使用滑动窗口将传感器数据分解为各种子序列;然后将其用作输入数据,其特征随后由CNN 提取[11]。
定义数据X是一个包含M个相关机构、K个财务记录和时间的三维数据矩阵,其第q个财务记录的子矩阵形式如下所示:
其中,np是财务记录数据长度。当使用滑动窗口w获取第q个财务记录Xq的子序列时,首先选择np-w+1 个子序列si(i=1,…,np-w+1),再通过滑动窗口从长度为np的传感器数据Xq中完成获取。滑窗函数如下所示:
经过预处理后,异常数据检测诊断层在两个堆叠的卷积池化层之后构建[12]。所设计的数据挖掘平台包含一个全连接的神经网络,在第二个池化层后分配了一个扁平层、一个隐藏层和一个神经元节点[13]。激活函数用于判定财务记录故障,以筛选整个数据集的重要信息。
在诊断层,使用MTS-CNN 模型训练得到一组最优权重。该权重表示传感器之间的关系,并与激活层结合使用[14]。基于激活层的特征,系统可以识别并筛除具有负权重的财务记录,同时设置其为零输出。通过进一步观察正常和异常财务记录的输出值,可以设置一个阈值来确定出数据X的某个属性所表征的异常数据最多[15]。在诊断层之后,架构了两个具有全连接网络的隐藏层用于预测输出状态(即故障或正常)[16]。在输出层,使用Softmax 函数进行分类预测,其表达式如下:
其中,C是输出层中考虑类的数量。
训练神经网络需要使用前向传播和反向传播,最终通过前向传播生成输出值。异常检测的本质是一个分类问题,若使用平方误差函数作为损失函数来调整每个神经元的权重可能会过于平滑,导致网络的收敛性变差,文中设计使用交叉熵函数(CE)作为损失函数:
其中,CEp是第p个数据的交叉熵值,Lr是二进制值。网络在训练时,只有正常数据的Softmax 函数值会被计算。
数据挖掘模型的权重可以基于损失函数CE 进行调整,此次使用反向传播算法和随机梯度下降(SGD)算法作为优化器来调整整个模型的权重,直到误差达到最小值并收敛。在使用反向传播训练神经网络时,该系统应用了多种模型训练技术,以提高神经网络的收敛速度并找到最优参数。
由于财务数据量非常大,整批学习方法难以在模型中找到一个理想的权重组合,导致训练时间过长和计算机内存需求较大。因此,使用小批次方法来训练模型的权重。小批次方法在每个训练时期仅使用一批数据,并通过在每个时期之后找到平均值来更新权重,其可以在相同的训练时间内对网络进行更有效的权重更新。
整个数据挖掘框架中包含了大量的参数,为了避免出现过拟合,在训练网络时,模型的诊断层中使用了Dropout 技术。该技术随机允许隐藏层中的神经元在指定概率p下消失,这一概率由用户在每个训练时期校正权重时设置。因此,在权重更新过程中不会对所有神经元进行更新,从而防止过拟合的发生。
3 实验验证
为了验证文中所提出财务数据分析算法的综合性能,实验所使用的数据集为某医疗机构提供的真实财务数据,共有87 531 条记录,涵盖了包括操作人员信息在内的30 余种数据属性。同时,也包含一些与操作人员信用历史相关的附加信息。
在数据分析模型构建之前,需要对所有财务数据进行标准化操作,并通过移动窗口选择原始时间序列数据。财务数据经过预处理后,使用特征提取的方法提取相应特征。特征提取网络由两个卷积-激活-池化层组成。为了提取每个财务子序列的细微变化,设置卷积核大小为5,第一层卷积层的特征数量为16,第二层卷积层的特征数量为64。为了表征出每个财务数据子序列的趋势,此次使用了平均池化法,设定池化层的核大小为2,步幅参数为2。为了确定数据挖掘模型训练中的超参数,模型设置神经元之间连接权重的学习率为0.01;优化器使用随机梯度下降,动量值为0.9,批量大小为128。
考虑到财务数据异常检测是一个二元分类问题,因此文中使用精度、召回率和F1 分数来衡量模型的性能。经过5 次交叉验证后,表1 总结了1NNDTW 算法、SAX-VSM 算法、FDC-CNN 与所提算法的精度、召回率、F1 和准确度的区别。在准确度方面,FDC-CNN 和SAX-VSM 均大于0.9,在所有方法中1NN-DTW 算法的性能最差。尽管SAX-VSM 算法的精度(0.932 0)优于1NN-DTW 算法,但SAX-VSM算法的召回率仍然较低,仅为0.394 4。在精度和召回率方面,FDC-CNN 算法与所提算法具有更优的实现效果,尤其是所提算法在表1 所比对的4 项性能指标上均优于对比方法。
表1 性能比较实验
为了可视化本算法提取的每个子时间序列特征的效果,文中使用t-SNE 算法执行二维数据可视化,结果如图3 所示。从图3 中可以看出,正常数据紧密地聚集在一起;而异常数据则分散成了几组,且大多数正常数据与异常数据均可分离。因此,可以通过该模型的输出值来监控和实时识别异常数据。
图3 财务数据分类可视化
系统检测到异常后,会根据现有数据分析数据异常的可能原因,这些信息在系统诊断层的权重中被捕获。此信息可以帮助管理者识别关键数据并快速处理,该文使用真实数据进行验证,结果如表2 所示。
表2 数据验证实验结果
每个数据场景均结合了公共与私有区块链,数据参数各不相同,这些参数会触发不同的数据分析模型。
如表2 所示,对于不同时间跨度的财务数据,该系统均能给出相应的判定结果。尽管私有区块链不像公共区块链那样需要交易费用,但仍会产生其他的计算成本开销,例如硬件消耗等。因此,表中计算成本的数值单位记为焦耳。从表中可以看出,所提算法对于数据分析所产生的成本与时间跨度之间并未呈现出明显的线性关系,证明了所提算法对于大量数据有良好的分析能力。
4 结束语
文中针对财务数据的分析检测问题,使用特征识别方法建立了数据挖掘算法,并通过数值实验对与数据分析的精度、准确度、召回率以及成本消耗等进行了分析,取得了相对理想的效果。在未来的研究中,如何提高数据分析的实时性,设计更加广泛的人机交互接口将是下一步研究的重点。