基于联系数的车站环境和站卖食品卫生情况聚类分析
2015-12-27谷玉祥孙齐蕊孙爱峰
谷玉祥孙齐蕊孙爱峰
1.吉林铁路疾病预防控制所,吉林白城137000;2.吉林大学公共卫生学院,吉林长春130021;3.白城卫生职工中等专业学校,吉林白城137000
基于联系数的车站环境和站卖食品卫生情况聚类分析
谷玉祥1孙齐蕊2孙爱峰3
1.吉林铁路疾病预防控制所,吉林白城137000;2.吉林大学公共卫生学院,吉林长春130021;3.白城卫生职工中等专业学校,吉林白城137000
目的探讨联系数对车站环境和站卖食品卫生情况的聚类分析。方法应用均匀分布法确定给定车站各评价指标观测值的等级区间值,根据集对分析的原理构造三元联系数并计算中间有效值,有效值最大者对应的等级即为该车站类别。结果南宁站、凭祥站和湛江站的环境和站卖食品卫生情况属于Ⅰ类,黎塘站、贵港站、玉林站、茂名站和北海站属于Ⅱ类,防城港站属于Ⅲ类。结论联系数用于聚类分析原理自明,计算简明,操作简单,值得推广应用。
火车站;环境卫生;食品卫生;卫生检测;聚类分析
车站环境卫生和站卖食品卫生情况的监督和检测,是铁路系统疾病预防和控制的主要措施和手段,对维护广大旅客和车站工作人员的身心健康具有重要作用。为客观评价车站环境卫生和站卖食品卫生情况,该研究应用联系数学的方法对文献[1]提供的车站环境卫生和站卖食品卫生检测值进行聚类分析,为铁路疾病预防控制机构开展车站环境卫生和站卖食品卫生检测工作提供科学的依据。现将结果报道如下。
1 资料与方法
1.1 一般资料
以9个二等以上的车站为研究对象,以X1-公共场所监督合格率(%)、X2-饮食监督合格率(%)、X3-公共场所体检率(%)、X4-饮食体检率(%)、X5-公共场所五病检出率(%)、X6-饮食五病检出率(%)、X7-餐饮具监测合格率(%)、X8-食品监测合格率(%)、X9-微小气候监测合格率(%)、X10-空气质量监测合格率(%)、X11-水质监测合格率(%)、X12-鼠密度阳性率(%)和X13-传染病发病率(1/10万)为研究指标,其中X5、X6、X12和X13为低优指标,其余为高优指标。根据2012年开展的各车站环境和站卖食品卫生检测结果,计算得到的各研究指标值见表1[1]。
1.2 统计方法
应用联系数[2]对表1中的各车站环境卫生和站卖食品卫生情况进行聚类分析。
2 结果
2.1 划定各指标类别区间值并标记
考虑到各指标值并不都呈正态分布,采用均匀分布法划定各指标类别区间值。该文采用三个等级,以三元联系数描述各车站各等级环境卫生和站卖食品卫生情况。以R表示同一指标观测值极差,低优指标三个等级区间值范围分别为[Xmin,Xmin+R/3)、[Xmin+R/3,Xmin+2R/3)和[Xmin+2R/3,Xmax],高优指标与此相反。如对于X1等级Ⅰ、Ⅱ和Ⅲ对应的区间值分别为(94.72,96.14)、(93.30,94.72)和(91.88,93.30),其他类推。对照各车站相应指标值和各等级区间值,标记等级罗马数字于表1各指标观测值后。
表1 各车站环境和站卖食品卫生检测指标值及其对应等级
2.2 构建三元联系数
对同一车站不同指标对应的等级分别与三个等级进行序数比较,数值相差为零者作为同部A,相差为1者为异部B,相差为两者为反部C,得到同一车站不同等级对应的联系数Um=Am+ Bmi+Cmj(m表示等级),见表2。
表2 车站环境和站卖食品卫生等级联系数及其有效值和等级判定
2.3 计算联系数有效值并判定等级
基于既往研究[2-5],以中间有效值判定类别和排序较为可靠。因此,令i=0,j=-1计算得到各车站各类别的中间有效值(表2联系数后的数字),依据同一车站有效值最大者对应的等级即为该车站类别为判定规则,所得各车站类别结果见表2第5列。可见,南宁站、凭祥站和湛江站的环境和站卖食品卫生质量最高,属于Ⅰ类,黎塘站、贵港站、玉林站、茂名站和北海站属于Ⅱ类,防城港站属于Ⅲ类。
3 讨论
聚类分析可将一些观察对象依据某些数量特征加以归类,是研究“物以类聚”的一种数理统计方法,有系统聚类法和快速聚类法之分[6]。将数量观测值按照一定的法则转换为等级类别(或各指标为分类资料),各比较组各指标等级和设定的等级序数分别构成了一个集合,即为集对。这样,可以按照集对分析的基本原理构造相应类别的联系数,依据计算得到的中间有效联系值大小关系或其他判定准则,即可完成聚类分析。可见,基于联系数的聚类分析的原理不同于传统意义上的聚类分析。
聚类与排序是综合评价的两个组成部分。资料来源之文献属于排序分析,而该文属于聚类分析,所得结论是对原文献的有力补充和佐证。在疾病预防控制过程中,往往无须排序,只需依据评价指标的观测值对不同比较组进行聚类分析,该文所述方法可满足这种需求,且可避免人为确定各类别数量的缺陷,为一种客观科学进行聚类分析的一种新统计方法。由该文分析过程可看出,该方法原理自明,计算简明,操作简单,值得推广应用。
对表1不同车站环境和站卖食品卫生检测资料应用基于联系数的聚类分析表明,南宁站、凭祥站和湛江站属于Ⅰ类,黎塘站、贵港站、玉林站、茂名站和北海站属于Ⅱ类,防城港站属于Ⅲ类。应用该方法时,应注意:①对数值变量资料划分类别数量的多少应依据比较组数的不同而合理设定;②应根据观测指标值的分布类型,选择确定不同类别区间值的方法[7];③确定个比较组类别时,应综合进行分析。如三元联系数的异部系数i∈[-1,1]取不同数值时,可能出现判定类别不同的现象,如i=1时所有车站均应判定为Ⅱ类。可见当不确定度取不同数值时,同一比较组类别可能出现“倒转”。这可区分异部不确定性的不同,对比较组的类别进行动态聚类分析,为铁路疾病预防控制机构有的放矢地进行定期和不定期的卫生检测工作提供了客观而科学的依据。
[1]张东生.密切值法在车站卫生综合评价中的应用[J].中国卫生统计,2001,18(4):236-237.
[2]邱昭君,孙爱峰.联系数在不同地区卫生监督质量聚类分析中的应用[J].中国医药指南,2011,9(36):490-492.
[3]吴莹,孙爱峰,孙齐蕊.集对分析在食品卫生监督工作质量分类和排序中的应用[J].中国卫生产业,2014,11(21):61,63.
[4]刘秀梅,赵克勤.区间数决策集对分析[M].北京:科学出版社,2014.
[5]张绍林,孙爱峰.联系数有效值在抗菌药物配伍治疗布鲁菌病效果排序中的应用[J].中国医药指南,2012,10(31):373-374.
[6]方积乾.医学统计学与电脑实验[M].4版.上海:上海科学技术出版社,2012.
[7]王文圣,李跃清,金菊良,等.水文水资源集对分析[M].北京:科学出版社,2010.
R197.1
A
1672-5654(2015)01(a)-0014-02
2014-09-02)
谷玉祥(1970-),男,内蒙古喜桂图旗人,专科,中级职称,主要从事疾病预防和控制工作。