模糊综合评判方法在风险分析中的应用
2014-10-23王倩
摘要:在商业医疗保险领域中,如何有效地判别投保人的患病风险,一直是一个至关重要的问题。文章先采用马氏距离和神经网络中的BP算法建立模型,对待测样本进行判别,然后采用模糊综合评判的方法,从保险公司角度出发,针对吻合率、模型建立所需时间、样本判别所需时间、程序的可移植性和程序出错处理这些方面来比较它们的差异,最终选出最佳风险判别模型。
关键词:模糊综合评判方法;马氏距离判别法;神经网络BP算法
中图分类号:F2文献标识码:A文章编号:16723198(2014)19002104
0引言
国民经济的快速发展,使得人民的生活水平有了根本的改善并且这种改善将继续不断的提高。同时其膳食结构也相应发生了显著的变化,由此而引起的富裕性疾病的患病率亦日益提高。目前我国高血压的患病率为18.8%,患者已经超过1.6亿,每年因高血压死亡的人数超过20万。其中35岁以上人口为高血压病高发人群。由高血压等引起的心血管疾病已经成为我国居民第一位的致死原因。高血压严重影响居民的生命健康和生活质量。
基于上述原因,上海市某街道在1997开始对该社区16周岁以上的常住居民进行了逐户整群调查,实际调查555666人,占应调查人数的84.2%。与国外同类型的调查相比,这一比例属于相当高的。其调查内容包括肥胖症、糖尿病、高血压病、高血脂症和冠心病等富裕性疾病的患病情况、治疗情况、以及居民的性别、年龄、职业、文化程度、身高、体重等基本情况,家族病史、治疗情况、吸烟史、饮酒史、户外活动、饮食习惯等各相关因素。本文以富裕病之一高血压为例,并根据相关分析得到其相关因素有家族史、年龄、BMI、高血脂糖尿病程度以及冠心病程度等六个因素。本文首先采用马氏距离和神经网络中的BP算法建立模型,对待测样本进行判别。然后采用模糊综合评判的方法从保险公司角度出发,针对吻合率、模型建立所需时间、样本判别所需时间、程序的可移植性和程序出错处理这些方面来比较它们的差异,最终选出最佳风险判别模型。
1数学模型
1.1马氏距离判别法
距离判别最简单的想法就是计算样本到第i类总体的平均数的距离,哪个距离最小就将它判归哪个总体,所以,我们首先考虑的是是否能够构造一个恰当的距离函数,通过样本与某类别之间距离的大小,判别其所属类别。
1.2BP算法
BP神经网络(Back-Propagation networks)包括三个层次:输入层、隐含层、输出层。它的本质是误差反向传输的多层前馈网络,BP算法的基本思想是,学习过程由信号的正向传播与误差的反向传播两个过程组成。正向传播时,先自行对权重进行初始化,输入样本从输入层传入,经各隐层逐层处理后,传向输出层,如图1所示。若输出层的实际输出与期望的输出(理想输出)不符,则转入误差的反向传播阶段。
图解:从左向右依次为输入层、隐层、输出层。交叉线条代表权值。误差反传是将输出误差以某种形式通过隐层向输入层逐层反传、并将误差分摊给各层的所有单元,从而获得各层单元的误差信号,此误差信号即作为修正各单元权值的依据。这种信号正向传播与误差反向传播的各层权值调整过程,是周而复始地进行的。权值不断调整的过程,也就是网络的学习训练过程。此过程一直进行到网络输出的误差减少到可接受的程度,或进行到预先设定的学习次数为止,或者超过预先设定的训练时间。
总结一下就是,BP模型的学习过程主要由四部分构成:
(1)输入数据的正向传播;
(2)输出误差的反向传播;
(3)循环记忆训练;
(4)学习结果的判别。
1.3模糊综合评价方法
2项目研究
2.1相关性分析
利用SPSS软件,我们对数据库中的16的变量进行相关分析检验,并计算Pearson统计量。根据相关医学知识,我们选取Pearson统计量大于0.1的前六个变量作为与高血压患病程度关系最密切的因素,它们分别是冠心病患病水平,高血压家族史,年龄,BMI,糖尿病患病水平和高血脂患病水平。
2.3BP算法判别法结果
根据前面相关分析的结果,我们选择冠心病患病水平,高血压家族史,年龄,BMI,糖尿病患病水平和高血脂患病水平六个变量作为高血压疾病的风险因素。下面的模型就这六个变量的相关数据来建立。由此神经网络输入层会有6个结点,隐含层含有13个结点,最后一层输出层有1个结点。输出层表示的是结果,即是否患有高血压疾病。当输出值为1时,此时高血压患病程度可能为1、2或3,即此人患有高血压疾病;当输出值为0时,此时高血压患病程度为0,即此人没有高血压疾病。
首先,我们将数据进行出错处理得到的18000条数据分成两部分。其中17000条数据作为训练集,其余1000条数据作为待测样本。对17000条训练样本,我将六个高血压患病风险因素冠心病患病水平,高血压家族史,年龄,BMI,糖尿病患病水平和高血脂患病水平作为输入神经元,而它们所对应的高血压患病水平作为输出值来对神经网络进行训练。我们不断改变训练样本的大小,从5000个样本开始,一直增长到17000个训练样本结束,我们建立了四个模型,最后用1000个待测样本对这四个模型检验BP算法的神经网络模型对高血压疾病患病程度的预测准确程度,结果如下:
2.4模糊综合评判
前面我们分别以马氏距离和神经网络中的BP算法建立了模型,并对待测样本进行了判别。这两种方法各有其特点,对实际问题的适应性也不相同。我们从保险公司的角度出发,针对吻合率、模型建立所需时间、样本判别所需时间、程序的可移植性和程序出错处理这些方面来比较它们的差异,为选择最佳风险判别模型提供依据。通过下表我们可以较为直观地进行分析,其中建立模型时采用的样本数为17000条,待测样本数为1000条,执行的软件为MATLAB 6.5。endprint
模型71.4%16较好简单BP算法模型81.4%1953较困难困难从上表可以看出,在两种种风险分析模型中同实际问题吻合率最高的是BP算法模型,达到了81.4%,结果比较令人满意。然而模型建立所需时间BP算法模型最长,这是由于它在模型建立的时候会不断返回、修改权值,直到误差小于预设值为止。马氏距离模型判别待测样本的时间比BP算法模型稍长。两种模型中BP算法神经网络模型的程序相对复杂,由此在程序的出错处理和可移植性方面显得不占优势;而马氏距离模型的程序较为简单,由此程度出错处理也相对容易,并且更方便的转化为其它语言。
通过比较,我们可以发现两种风险分析模型各有优势与不足,如果单纯从一个方面来选取最优模型是比较片面的,而且对于实际问题应用的效果也不好,必须全面考虑吻合率、模型建立所需时间、样本判别所需时间、程序的可移植性以及程序出错处理这五方面因素,这些因素有的是测度变量,有的是模糊变量,因此我们采用模糊综合评判的方法,结合五方面因素来选取最佳的风险分析模型。
模糊综合评判主要分为两步:第一步先按每个因素单独评判;第二步再按所有因素综合评判,其基本方法与步骤如下:
2.4.1建立因素集
因素集是影响判断对象的各种因素组成的一个普通集合,常用大写字母U表示,即,U={u1,u2,…,um},其中ui代表各种影响因素。这些因素一般来说都是不确定的。根据我们模型的具体情况,本文所建立的因素集为:U={吻合率,模型建立所需时间,样本判别所需时间,程序的可移植性,程序出错处理}
2.4.2建立权重集
一般来说,各个因素对判断对象影响的程度都是不一样的,因此为了反映各个因素的重要程度,对各因素ui应赋予一相应的权数ai(i=1,2,…,m),由各权重所组成的集合A={a1,a2,…,am},称为因素权重集,简称权重集。通常,各权重数ai应满足归一性和非负条件:∑mi=1ai=1,ai0(i=1,2,…,m),ai可视为各因素ui对“重要”的隶属度。至于权重的取值,一般由人们对于实际问题的主观经验来决定,也可以按照隶属度的方法进行确定。同样的因素,评判结果会随着所附的权重不同而有所不同。
从保险公司的角度出发,风险分析模型中最重要的因素为样本判别的吻合率,因为它对于风险控制的影响最大,模型建立所需时间和样本判别所需时间这两个因素同工作效率直接相关,因此也较为重要,程序的可移植性和程序出错处理这两个因素对于保险公司的重要程度则相对次之。我们建立如下的权重集:A=(0.5,0.15,0.15,0.1,0.1)。
2.4.3建立评价集
评价集是判断者对判断对象可能做出的所有判断结果构成的集合,通常采用大写字母V来表示,即V={v1,v2,…,vn},其中vi表示所有各种可能的判断结果。模糊综合评判的目的就是经过全面考虑所有的影响因素之后,在评价集中选出最有的判断结果。
我们评判的目的是为了比较风险判别模型对于实际问题的适应性,因此对于吻合率、模型建立所需时间和样本判别所需时间、程序的可移植性和程序出错处理这五个因素建立如下的评价集:V={比较理想,普通,不理想}。
2.4.4单因素模糊评判
单因素模糊评判是指从一个因素出发进行判断,从而来确定判断对象对评价集元素的隶属程度。
设评判对象按因素集中第i个因素进行评判,对ui评价集中第j个元素vj的隶属程度为rij,则按第i个因素ui评判的结果,可用模糊集合:
3结论
从单因素评判矩阵R可以看出,R中不同的行反映了某个被评价事物从不同的单指标来看对各等级模糊子集的隶属程度。而R的不同列则反映了全部因素影响被评价事物取第j个评价元素的程度。由此,用每列元素之和
来反映全部因素的对被评价事物的综合影响。然而这样并未考虑到各因素对被评价事物的影响的重要程度有所不同。由此用模糊权向量A将不同的行进行综合,就可得到该被评价事物从总体上来看对各等级模糊子集的隶属程度,即模糊综合评价结果向量。引入V上的一个模糊子集B,称之为模糊评价集,又称决策集。B=(b1,b2,…,bn),一般的,令B=A·R,即:
参考文献
[1]孙山泽.非参数统计讲义[M].北京:北京大学出版社,2000.
[2]田芳.模糊综合评判法在风险分析中的应用[J].系统工程与电子技术,2003,(2).
[3]王倩.基于反向传播(BP)算法的核保风险分析模型初探[J].现代商贸工业,2001,(3).
[4]王倩.基于马氏距离的核保风险分析模型探讨[J].现代商贸工业,2001,(20).
[5]荣梅.模糊综合评价方法在营销风险评估中的作用[J].统计与决策,2001,(7).endprint
模型71.4%16较好简单BP算法模型81.4%1953较困难困难从上表可以看出,在两种种风险分析模型中同实际问题吻合率最高的是BP算法模型,达到了81.4%,结果比较令人满意。然而模型建立所需时间BP算法模型最长,这是由于它在模型建立的时候会不断返回、修改权值,直到误差小于预设值为止。马氏距离模型判别待测样本的时间比BP算法模型稍长。两种模型中BP算法神经网络模型的程序相对复杂,由此在程序的出错处理和可移植性方面显得不占优势;而马氏距离模型的程序较为简单,由此程度出错处理也相对容易,并且更方便的转化为其它语言。
通过比较,我们可以发现两种风险分析模型各有优势与不足,如果单纯从一个方面来选取最优模型是比较片面的,而且对于实际问题应用的效果也不好,必须全面考虑吻合率、模型建立所需时间、样本判别所需时间、程序的可移植性以及程序出错处理这五方面因素,这些因素有的是测度变量,有的是模糊变量,因此我们采用模糊综合评判的方法,结合五方面因素来选取最佳的风险分析模型。
模糊综合评判主要分为两步:第一步先按每个因素单独评判;第二步再按所有因素综合评判,其基本方法与步骤如下:
2.4.1建立因素集
因素集是影响判断对象的各种因素组成的一个普通集合,常用大写字母U表示,即,U={u1,u2,…,um},其中ui代表各种影响因素。这些因素一般来说都是不确定的。根据我们模型的具体情况,本文所建立的因素集为:U={吻合率,模型建立所需时间,样本判别所需时间,程序的可移植性,程序出错处理}
2.4.2建立权重集
一般来说,各个因素对判断对象影响的程度都是不一样的,因此为了反映各个因素的重要程度,对各因素ui应赋予一相应的权数ai(i=1,2,…,m),由各权重所组成的集合A={a1,a2,…,am},称为因素权重集,简称权重集。通常,各权重数ai应满足归一性和非负条件:∑mi=1ai=1,ai0(i=1,2,…,m),ai可视为各因素ui对“重要”的隶属度。至于权重的取值,一般由人们对于实际问题的主观经验来决定,也可以按照隶属度的方法进行确定。同样的因素,评判结果会随着所附的权重不同而有所不同。
从保险公司的角度出发,风险分析模型中最重要的因素为样本判别的吻合率,因为它对于风险控制的影响最大,模型建立所需时间和样本判别所需时间这两个因素同工作效率直接相关,因此也较为重要,程序的可移植性和程序出错处理这两个因素对于保险公司的重要程度则相对次之。我们建立如下的权重集:A=(0.5,0.15,0.15,0.1,0.1)。
2.4.3建立评价集
评价集是判断者对判断对象可能做出的所有判断结果构成的集合,通常采用大写字母V来表示,即V={v1,v2,…,vn},其中vi表示所有各种可能的判断结果。模糊综合评判的目的就是经过全面考虑所有的影响因素之后,在评价集中选出最有的判断结果。
我们评判的目的是为了比较风险判别模型对于实际问题的适应性,因此对于吻合率、模型建立所需时间和样本判别所需时间、程序的可移植性和程序出错处理这五个因素建立如下的评价集:V={比较理想,普通,不理想}。
2.4.4单因素模糊评判
单因素模糊评判是指从一个因素出发进行判断,从而来确定判断对象对评价集元素的隶属程度。
设评判对象按因素集中第i个因素进行评判,对ui评价集中第j个元素vj的隶属程度为rij,则按第i个因素ui评判的结果,可用模糊集合:
3结论
从单因素评判矩阵R可以看出,R中不同的行反映了某个被评价事物从不同的单指标来看对各等级模糊子集的隶属程度。而R的不同列则反映了全部因素影响被评价事物取第j个评价元素的程度。由此,用每列元素之和
来反映全部因素的对被评价事物的综合影响。然而这样并未考虑到各因素对被评价事物的影响的重要程度有所不同。由此用模糊权向量A将不同的行进行综合,就可得到该被评价事物从总体上来看对各等级模糊子集的隶属程度,即模糊综合评价结果向量。引入V上的一个模糊子集B,称之为模糊评价集,又称决策集。B=(b1,b2,…,bn),一般的,令B=A·R,即:
参考文献
[1]孙山泽.非参数统计讲义[M].北京:北京大学出版社,2000.
[2]田芳.模糊综合评判法在风险分析中的应用[J].系统工程与电子技术,2003,(2).
[3]王倩.基于反向传播(BP)算法的核保风险分析模型初探[J].现代商贸工业,2001,(3).
[4]王倩.基于马氏距离的核保风险分析模型探讨[J].现代商贸工业,2001,(20).
[5]荣梅.模糊综合评价方法在营销风险评估中的作用[J].统计与决策,2001,(7).endprint
模型71.4%16较好简单BP算法模型81.4%1953较困难困难从上表可以看出,在两种种风险分析模型中同实际问题吻合率最高的是BP算法模型,达到了81.4%,结果比较令人满意。然而模型建立所需时间BP算法模型最长,这是由于它在模型建立的时候会不断返回、修改权值,直到误差小于预设值为止。马氏距离模型判别待测样本的时间比BP算法模型稍长。两种模型中BP算法神经网络模型的程序相对复杂,由此在程序的出错处理和可移植性方面显得不占优势;而马氏距离模型的程序较为简单,由此程度出错处理也相对容易,并且更方便的转化为其它语言。
通过比较,我们可以发现两种风险分析模型各有优势与不足,如果单纯从一个方面来选取最优模型是比较片面的,而且对于实际问题应用的效果也不好,必须全面考虑吻合率、模型建立所需时间、样本判别所需时间、程序的可移植性以及程序出错处理这五方面因素,这些因素有的是测度变量,有的是模糊变量,因此我们采用模糊综合评判的方法,结合五方面因素来选取最佳的风险分析模型。
模糊综合评判主要分为两步:第一步先按每个因素单独评判;第二步再按所有因素综合评判,其基本方法与步骤如下:
2.4.1建立因素集
因素集是影响判断对象的各种因素组成的一个普通集合,常用大写字母U表示,即,U={u1,u2,…,um},其中ui代表各种影响因素。这些因素一般来说都是不确定的。根据我们模型的具体情况,本文所建立的因素集为:U={吻合率,模型建立所需时间,样本判别所需时间,程序的可移植性,程序出错处理}
2.4.2建立权重集
一般来说,各个因素对判断对象影响的程度都是不一样的,因此为了反映各个因素的重要程度,对各因素ui应赋予一相应的权数ai(i=1,2,…,m),由各权重所组成的集合A={a1,a2,…,am},称为因素权重集,简称权重集。通常,各权重数ai应满足归一性和非负条件:∑mi=1ai=1,ai0(i=1,2,…,m),ai可视为各因素ui对“重要”的隶属度。至于权重的取值,一般由人们对于实际问题的主观经验来决定,也可以按照隶属度的方法进行确定。同样的因素,评判结果会随着所附的权重不同而有所不同。
从保险公司的角度出发,风险分析模型中最重要的因素为样本判别的吻合率,因为它对于风险控制的影响最大,模型建立所需时间和样本判别所需时间这两个因素同工作效率直接相关,因此也较为重要,程序的可移植性和程序出错处理这两个因素对于保险公司的重要程度则相对次之。我们建立如下的权重集:A=(0.5,0.15,0.15,0.1,0.1)。
2.4.3建立评价集
评价集是判断者对判断对象可能做出的所有判断结果构成的集合,通常采用大写字母V来表示,即V={v1,v2,…,vn},其中vi表示所有各种可能的判断结果。模糊综合评判的目的就是经过全面考虑所有的影响因素之后,在评价集中选出最有的判断结果。
我们评判的目的是为了比较风险判别模型对于实际问题的适应性,因此对于吻合率、模型建立所需时间和样本判别所需时间、程序的可移植性和程序出错处理这五个因素建立如下的评价集:V={比较理想,普通,不理想}。
2.4.4单因素模糊评判
单因素模糊评判是指从一个因素出发进行判断,从而来确定判断对象对评价集元素的隶属程度。
设评判对象按因素集中第i个因素进行评判,对ui评价集中第j个元素vj的隶属程度为rij,则按第i个因素ui评判的结果,可用模糊集合:
3结论
从单因素评判矩阵R可以看出,R中不同的行反映了某个被评价事物从不同的单指标来看对各等级模糊子集的隶属程度。而R的不同列则反映了全部因素影响被评价事物取第j个评价元素的程度。由此,用每列元素之和
来反映全部因素的对被评价事物的综合影响。然而这样并未考虑到各因素对被评价事物的影响的重要程度有所不同。由此用模糊权向量A将不同的行进行综合,就可得到该被评价事物从总体上来看对各等级模糊子集的隶属程度,即模糊综合评价结果向量。引入V上的一个模糊子集B,称之为模糊评价集,又称决策集。B=(b1,b2,…,bn),一般的,令B=A·R,即:
参考文献
[1]孙山泽.非参数统计讲义[M].北京:北京大学出版社,2000.
[2]田芳.模糊综合评判法在风险分析中的应用[J].系统工程与电子技术,2003,(2).
[3]王倩.基于反向传播(BP)算法的核保风险分析模型初探[J].现代商贸工业,2001,(3).
[4]王倩.基于马氏距离的核保风险分析模型探讨[J].现代商贸工业,2001,(20).
[5]荣梅.模糊综合评价方法在营销风险评估中的作用[J].统计与决策,2001,(7).endprint