APP下载

融合专家综合知识的贝叶斯网络参数学习方法

2021-08-20张鸿洲宿亚杰石晶莹

科学技术与工程 2021年21期
关键词:先验数据量贝叶斯

鹿 浩,张鸿洲,2*,钟 寒,宿亚杰,石晶莹

(1.中国人民公安大学信息网络安全学院,北京 100038;2.中国人民公安大学公共安全风险防控教育部工程研究中心,北京 100038; 3.大连市公安局中山分局,大连 116001)

近年来,贝叶斯网络模型已经成为不确定知识推理的重要工具[1],由于贝叶斯网络模型具有表达能力强、可读性强等特点,目前广泛应用于态势感知[2-3]、犯罪分析[4]、意图识别[5]、故障诊断[6]、决策支持[7]、风险分析[8]等多个领域中。贝叶斯网络参数学习是模型构建的重要环节,实质上就是确定给定结构贝叶斯网络的条件概率表(conditional probability table, CPT)[9]。

目前应用较为广泛的参数学习方法有最大似然估计法(maximum likelihood estimation, MLE)、最大期望法(expectation maximization, EM)、最大后验概率法(maximum a posterior, MAP)、贝叶斯估计法等[10]。上述方法是基于观测数据学习获取参数的方法,在数据量充足情况下可以得到较为准确的参数,但是在实际情况中大多数领域往往无法获取大量高质量数据,当数据集较小的情况下,所得参数与实际存在较大误差。

为解决上述问题,大量研究在小数据集的参数学习过程中引入专家先验知识。专家先验知识是经过大量实践所得到的经验,是人对某个特定领域相关问题学习的结果。文献[11]提出在贝叶斯网络参数学习的过程中根据领域知识确定各个节点在其父节点取值确定时的参数单调性,并将单调性约束转化为虚拟样本结合数据进行参数学习。文献[12]提出将专家对节点间条件概率看作正态分布,然后采用贝叶斯最大后验概率方法进行参数学习。文献[13]对专家知识进行蒙特卡洛抽样转化为样本结合数据集进行贝叶斯网络参数学习中。文献[14]将参数学习转化为似然函数优化问题并采用凸约束方法进行求解。文献[15]针对连续节点离散化的问题,使用云模型将定量样本转化为定性样本用于参数学习,为定量样本参数学习提出新的学习方法。文献[16]针对不完整数据集的贝叶斯网络参数学习,在对相关参数的范围进行了约束,提高了参数学习的精度。文献[17]将专家先验和单调性约束进行融合进行参数学习,提高了专家知识的利用率。

综合上述文献,大量研究已经注意到在使用现有数据学习的同时,需要结合领域内专家的相关知识,专家知识的表示方法可以呈现为多种形式。在构建贝叶斯网络模型的过程中专家知识的表示方法包括正态分布[12]、单调性约束[16]和蒙特卡洛采样[13]等方法,但是领域内单一专家的知识由于专家掌握程度不同,存在片面性和主观性强的问题。

在解决复杂问题求解过程中知识片面问题中,主要方法有群体研讨和D-S证据理论等。群体研讨[18-20]是解决复杂问题求解过程的重要方法之一,在问题讨论的过程中需要将复杂问题分解为多个子问题分阶段进行讨论,研究的过程需要设计研究规则和安排研讨协调员,且专家在研讨的过程中需要同时在线,无法分开采集专家知识。D-S证据理论[21-22]在解决争议问题中具有较强的优势,能够对已有证据进行合成,综合考虑来自多源的不确定信息。

为了解决贝叶斯网络参数学习过程中采用单一专家知识主观性较强的问题,提升领域专家知识利用率。现提出基于D-S证据理论的专家综合知识进行融合,将融合得到的先验知识转化为狄利克雷分布的超参数,最后采用最大后验概率法进行参数学习。在该方法中,采用D-S证据理论将多专家知识进行融合能够降低单一专家对知识片面性理解造成的误差,并且能够一定程度上克服数据量小、学习参数不精确等问题。

1 相关理论基础

1.1 贝叶斯网络

贝叶斯网络又称信念网络、因果网络,最早于18世纪由贝叶斯提出,20世纪Pearl将其引入人工智能领域。贝叶斯网络结合了图论与概率论的特点,能够表达不确定知识进行推理并可视化展示。

贝叶斯网络模型的核心是贝叶斯网络结构和各节点之间的条件概率。一般情况下可将贝叶斯网络模型记作N=

贝叶斯网络结构是一个有向无环图(directed acyclic graph,DAG),节点位置以及节点之间的关联关系记作G,各节点的参数表示节点之间的依赖程度记作θ,学习参数θ的过程称作参数学习。

贝叶斯网络参数学习是在贝叶斯网络模型结构确定的情况下,通过观测数据通过计算获取各节点条件概率的过程。设一个包含n个节点的贝叶斯网络模型X。对于其中任一节点Xi,该节点状态数为ri,其父节点状态数为qi。则节点Xi的参数表示为

θijk=P[Xi=k|π(Xi)=j]

(1)

1.2 D-S证据理论

定义1(识别框架) 给定一问题域Q,设非空集合Θ={θ1,θ2,…,θN},对于问题域中任一命题A,其基本概率分配均属于幂集2Θ。

定义2(基本概率分配) 给定识别框架Θ,概率质量(mass)函数满足以下条件:

m(∅)=0

(2)

(3)

定义3(信任函数) 给定识别框架Θ,mass函数的信任函数定义为

(4)

定义4(似然函数) 给定识别框架Θ,mass函数的似然函数定义为

(5)

定义5(证据合成规则) Dempster合成规则(dempster’s combinational rule)也称证据合成公式。对于∀A⊆Θ,Θ上的两个mass函数m1、m2的合成规则为

(6)

定义6(归一化常数) 定义为

(7)

2 融合专家综合知识的贝叶斯网络参数学习方法

提出一种融合专家综合知识的参数学习方法,将来自领域内多位专家的知识进行融合,采用正态分布表示合成后的专家知识,并结合数据集进行参数学习获取贝叶斯网络模型参数,流程图如图1所示。

2.1 专家知识收集与综合

贝叶斯网络模型中任意一组节点之间均存在条件概率,将一组节点的条件概率取值视为一个问题域Q,对于问题域Q中节点取值的每种情况构建一个识别框架Θ。

针对给定的问题域Q,收集相关领域内n位专家先验知识,专家根据其对问题域Q的了解情况,个性化确定其识别框架Θi,并给出相关知识,每位专家的知识用一个mass函数表示,收集并形成专家知识集,记作

M={m1(Θ1),m2(Θ2),…,mn(Θn)}

(8)

在式(6)和式(7)的基础上将证据合成公式进行推广,得到多个mass函数合成规则,即

(9)

(10)

将专家综合知识使用证据合成公式进行合成,获得专家综合先验知识m。

2.2 专家综合知识表示

将问题域Q中识别框架Θ对应的专家综合知识表示为正态分布[12],记作

(11)

式(11)中:m为合成后的专家综合先验知识,为正态分布的期望;σ为正态分布的均方差。

将专家知识正态分布转化成为狄利克雷分布的超参数用于参数学习,使用狄利克雷分布的边缘分布Beta分布逼近正态分布。采用期望相等、方差和位置差值最小的方式进行逼近。

(12)

min{[(DB-DM)2+(LB-LM)2]}

(13)

式中:α、β为Beta分布的参数;EB、EM、LB、LM、DB、DM分别为Beta分布和正态分布的期望、位置和方差。求解式(12)、式(13)获得Beta分布的参数。

2.3 融合专家综合知识参数学习

将所得Beta分布的参数值作为贝叶斯最大后验估计方法中的专家先验知识,结合已有样本数据进行贝叶斯网络参数学习,如式(14)所示。

(14)

式(14)中:Nijk为样本中节点i取值为k且父节点取值为j的统计值;αijk为求解获得的Beta分布超参数。

3 仿真分析

以贝叶斯网络参数学习常用数据集草坪湿润模型为例,对本文算法进行仿真实验。由于草坪湿润模型中各节点之间关系为常识,仿真过程中所采用的专家知识为3名对相关情况具有丰富经验的专家实际指定,正态分布方差为σ2=0.155。

3.1 仿真内容

选择经典草坪湿润模型作为目标模型进行贝叶斯网络参数学习。草坪湿润模型包含4个节点和4条边(图2)。模型中各个节点均有TRUE和FALSE两种取值,采用1代表TRUE,0代表FALSE,网络模型的真实参数如表1所示。

图2 草坪湿润贝叶斯网络模型

表1 草坪湿润模型真实参数表

3.2 结果分析

分别使用最大似然估计法、贝叶斯估计法、一致先验最大后验概率法和本文所述方法在10数据、20数据、30数据、40数据和50数据的情况下进行参数学习。通过比较各种方法在不同小数据集的情况下的K-L散度和欧式距离验证本文方法的性能。

K-L散度(Kullback-Leibler divergence)又称相对熵,在人工智能领域常用于衡量两种概率分布之间的差异情况。欧式距离是进行相似性度量的一种常见衡量指标,表示二者在欧式空间中的距离。K-L散度值和欧式距离越小,证明学习所用方法与实际参数之间的差距越小,准确度越高。

为了降低实验过程产生的误差,4种方法在不同数据量的情况下分别重复测试10次,并取结果的平均值进行分析。由图3和图4可以看出,本文方法在10、20、30、50数据量的情况下参数学习精度明显优于最大似然估计法、贝叶斯估计法和一致先验最大后验概率法。在40数据量的情况下,本文方法与贝叶斯估计法和一致先验最大似然估计法学习所得参数精度稍高。

图4 不同数据量下草坪湿润模型K-L散度

为了进一步分析本文方法的参数学习精度,将4种方法在50数据量下各个节点的条件概率值与真实值之间的K-L散度和欧式距离进行分析,如图5所示。

图5 50数据量下草坪湿润模型参数学习结果

由图5可以看出,4种方法进行参数学习所得结果中,本文方法与其他方法相比,欧式距离明显减小,学习所得参数与实际情况的欧式距离的接近0。通过上述实验结果表明,本文方法相较其他方法能够在贝叶斯参数学习结合专家综合知识的前提下通过已有数据进行补正,并且参数学习结果的准确度有明显提升。

3.3 实例验证

以典型刑事案件盗窃案件作为研究对象,依靠公安刑侦专家和一线民警经验确定节点及节点间关系构建线索研判贝叶斯网络模型结构,并采用本文方法进行参数学习。通过构建所得线索研判模型进行分析,并与真实案件相关线索比较,验证本文方法的合理性和有效性。

在刑事案件侦查过程中,公安机关通过现场勘验检查、相关人员走访、受害者询问等方法获取与案件有关线索。以犯罪嫌疑人的相关特征作为推理目标构建贝叶斯网络模型模型,将受害人的经济状况、现场翻动痕迹、现场伪造痕迹作为证据节点,构建线索研判贝叶斯网络,采用GeNIe进行仿真,如图6所示。

图6 线索研判贝叶斯网络模型

线索研判贝叶斯网络模型中,通过犯罪现场的犯罪痕迹和受害人的经济状况推测犯罪嫌疑人的犯罪动机。并通过犯罪现场痕迹、受害人的经济状况结合犯罪动机推测犯罪嫌疑人的相关特征。按照上述节点间关系,收集来自公安机关侦查部门的3位具有丰富侦查经验的专家先验知识并使用D-S证据理论进行合成作为专家综合先验知识,如表2所示。

表2 专家综合先验知识(犯罪嫌疑人经济状况)

通过对现有相关的100件刑事案件的现场勘验检查笔录、询问笔录等案件有关材料进行分析,获得线索研判贝叶斯网络的参数学习样本,如表3所示。

表3 刑事案件参数学习样本

将专家知识结合数据集学习后所得参数输入线索研判贝叶斯网络模型结构中,获得完整的贝叶斯网络模型,如图7所示。以公安机关实际刑事案件对构建所得模型进行验证,某一盗窃案件在前期侦查过程中通过群众走访、现场勘查和被害人询问等方法已知被害人经济状况好且现场具有翻动痕迹。将上述证据输入贝叶斯网络模型中进行推理,获得推理结果为作案动机为图财、犯罪嫌疑人与被害人不认识、犯罪嫌疑人有前科的可能性较高,如图8所示。对比破案后的犯罪嫌疑人的实际情况,与推理所得结果相符,验证了方法的有效性。

图7 线索研判贝叶斯网络模型

图8 线索研判推理结果

4 总结

在结合专家知识的贝叶斯网络参数学习方法的基础上,为了解决单一专家知识结合小数据集进行参数学习可能产生的误差大的问题,提出了融合专家综合知识的参数学习方法。通过实验,证明了本文方法相较于最大似然估计法、贝叶斯估计法和一致先验最大后验概率法学习精度具有明显提升。在部分领域中,数据获取的成本较高,可以利用领域内丰富的专家知识综合后辅助进行参数学习。将专家综合知识进行融合用于构建贝叶斯网络,能够克服数据量少和单一专家知识主观性强造成的参数学习准确性差的问题。将本文方法应用于公安机关刑事侦查线索研判贝叶斯网络参数学习,模型推理结果与实际情况相符,验证了本文方法的有效性。研究在专家知识的利用上首先对多个专家知识进行了综合,但是专家知识的收集方法较为单一,知识的表示形式较为简单,下一步工作的重点是考虑采用经验函数对专家知识进行采集和表示,并将专家知识综合后用于贝叶斯网络参数学习。

猜你喜欢

先验数据量贝叶斯
基于暗通道先验的单幅图像去雾算法研究与实现
基于大数据量的初至层析成像算法优化
基于贝叶斯定理的证据推理研究
基于贝叶斯解释回应被告人讲述的故事
先验想象力在范畴先验演绎中的定位研究
高刷新率不容易显示器需求与接口标准带宽
一种考虑先验信息可靠性的新算法
宽带信号采集与大数据量传输系统设计与研究
租赁房地产的多主体贝叶斯博弈研究
租赁房地产的多主体贝叶斯博弈研究