三来源捕获-再捕获方法分层三阶段抽样下女性性工作者人群基数估计的统计方法及效度信度评价*
2022-09-14靳宗达耿国柱杨少春范玉波
靳宗达 耿国柱 傅 颖,3 杨少春 范玉波 高 歌△
【提 要】 目的 应用计算机随机模拟技术,评价三来源捕获-再捕获(C-R)方法下分层三阶段抽样调查方法及统计公式的效度和信度,为估计艾滋病高危人群基数提供准确可靠的复杂抽样调查方法及统计公式,为艾滋病防控策略的制定、防治资源的合理分配提供参考依据。方法 运用数理统计方法推导统计公式;在广西壮族自治区分层三阶段抽样调查女性性工作者(female sex workers,FSW)人群,通过三来源C-R方法估算广西FSW人群基数;以实例调查结果作为模拟总体,应用SAS语言,进行三来源C-R方法复杂抽样下计算机随机模拟调查1000次,评价本研究调查方法及统计公式的效度和信度。结果 推导出总体基数的估计量及其估计方差的统计公式;估算出获取时间段为三个月的广西FSW人群基数及标准误。计算机随机模拟调查估算出的1000个总体基数95%置信区间基本上都包含模拟总体的基数。结论 本文研究的调查方法及统计公式具有良好的效度和信度,可用于艾滋病高危人群、敏感人群或特殊人群的基数估计。FSW高危人群基数提示卫生部门应加强对FSW人群精准监测,对艾滋病精准防控。
艾滋病是严重威胁公众健康的重要公共卫生问题和社会问题[1]。2018年前3个季度全国新发现HIV感染者/AIDS病人中,性接触传染占92%[2]。女性性工作者(female sex workers,FSW)、男同性恋等HIV感染风险高,是我国艾滋病高危群体。高危人群规模是艾滋病流行形势分析与趋势预测的重要依据,同时也是艾滋病防治策略制定的科学依据[3]。
艾滋病高危人群基数估计的方法包括普查法、人群调查法、捕获-再捕获(capture-recapture,C-R)方法、乘数法[4]、网络扩展法[5-6]等,其中C-R方法在国内外有较多的应用[7-10]。流行病学研究中应用较广泛的是多来源C-R方法[11-12],其具备以下特点:(1)允许各来源间存在相关;(2)能提高样本的代表性;(3)依据相互重叠信息和不完整数据估算目标群体的数量;(4)可进行统计推断,提高估计的科学性[13]。
本文基于三来源C-R方法的分层三阶段复杂抽样,推导出总体基数的估计量及其估计方差的统计公式;并应用本研究调查方法和统计公式调查估计广西FSW艾滋病高危人群的基数;将实例调查的样本统计量作为模拟总体参数,采用计算机随机模拟评价本研究调查方法和统计公式的效度与信度。
三来源C-R方法下分层三阶段随机抽样调查的统计方法
1.分层三阶段随机抽样设计
2.三来源C-R方法
表1 h层第i个初级单元第j个二级单元内三来源C-R方法调查频数表
3.基数估计的统计公式
(1)
(2)
(3)
(4)
4.基数估计值的方差
(5)
其中,
(6)
(7)
(8)
(9)
(10)
其中,
(11)
(12)
(13)
应用实例
1.调查设计
(1)调查对象
2015年8月至10月对广西各类娱乐场所从事商业性交易的FSW人群进行问卷调查。共发放问卷4267份,有效问卷回收4118份,问卷有效率96.5%。以4118名广西FSW作为此次调查的研究总体。
(2)抽样方法
(3)调查内容
本次调查通过问卷形式,收集FSW对象最近三个月是否接受过艾滋病行为干预服务,是否在正规医疗卫生机构进行过性病艾滋病检测,是否在洗浴中心/夜总会/酒吧、宾馆、酒店、招待所、民宅等场所发生性交易。上述三类场所作为本次基数调查估计的三个来源。
2.调查结果
效度信度评价
1.模拟调查分析步骤
(1)模拟总体建立
根据实例调查中各抽中县(区)三来源C-R方法调查频数表7个类别的频数,利用SAS语言有放回随机抽样,模拟出每层每个初级单元内所有二级单元的各类别观察数及总人数,对二级单元求和,模拟出每层每个初级单元的各类别观察数及总人数。合并初级单元,进一步模拟出每一层的各类别观察数及总人数。合并两层,计算各类别观察数、总人数以及各类别的背景概率。SAS语言根据各类别的概率生成多项分布随机整数,为虚拟FSW调查对象赋值,不同的随机数字表示虚拟FSW调查对象的不同类别。以前述实例调查结果计算出的总体基数的样本估计值作为模拟总体的总体基数。
(2)模拟抽样调查
对建立的模拟总体,按每层的各类别观察数进行单纯随机抽样,重复1000次。根据每层1000次模拟的三来源C-R方法调查表7个类别的频数,分层计算1000次模拟的总体基数的估计值与估计方差。将两层合并,计算1000个样本的总体基数估计值及其估计方差和95%置信区间。
2.模拟调查分析结果
经过1000次计算机模拟,1000个样本的总体基数估计值最小值是93270,最大值是97280。以前述实例调查结果的总体基数估计值95662(模拟总体基数)为参考值,以模拟次数为横坐标,以计算机模拟产生的1000个总体基数估计值95%置信区间为纵坐标进行制图(图1~4)。根据图1~4可知,获取时间段为最近三个月三来源C-R方法分层三阶段抽样调查估计中,1000次模拟中只有15个样本的总体基数估计值95%置信区间不包含模拟总体基数(第2、25、42、78、241、383、472、572、574、580、606、681、687、728、752次模拟)。1000次模拟的总体基数估计值几乎均接近于模拟总体基数(调查真实值),说明以最近三个月为获取时间段三来源C-R方法下分层三阶段抽样调查方法及其统计公式具有较高效度;同时这1000次模拟的总体基数估计值均接近于模拟总体基数,说明此调查方法及其统计公式具有较高信度。
讨 论
本团队对三来源C-R方法下简单随机抽样、分层随机抽样与五来源C-R方法下分层随机抽样的统计公式进行过研究[16-18]。在此研究基础上,本文设计出三来源C-R方法下分层三阶段复杂抽样调查方法,建立数学模型,推导出总体基数的估计量及估计方差的统计公式,具有统计学理论意义。
图1 获取时间段为最近三个月三来源C-R方法分层三阶段抽样下计算机模拟第1~250次结果
图2 获取时间段为最近三个月三来源C-R方法分层三阶段抽样下计算机模拟第251~500次结果
图3 获取时间段为最近三个月三来源C-R方法分层三阶段抽样下计算机模拟第501~750次结果
本研究在调查广西FSW人群时采用分层三阶段随机抽样。按照FSW年龄分层,不同年龄段内样本同质性增加,变异减少,抽样误差降低。每层内,首先随机抽取地级市,接着从地级市随机抽取县(区),最后在每个被抽中的县(区)中调查随机抽取的FSW。将现有的行政单位划分为各阶段抽样单元,便于研究方案的执行,使研究具有更高的效率[19-20]。以上两方面使得高危人群基数的估计更加精确可靠。
评价调查方法及统计公式的效度与信度,需要进行重复调查或研究。当实际研究涉及敏感问题或针对敏感人群时,重复调查难以得到一致性的结果[21-22]。计算机随机模拟通过使用无相关随机数序列,对具有概率特征的实际问题,进行直接的抽样试验,通过模拟试验值估计统计量或者参数的值,最终给出实际问题的数值解[23-24];随着模拟次数的增加,得到趋于稳定的结论[25-26]。
图4 获取时间段为最近三个月三来源C-R方法分层三阶段抽样下计算机模拟第751~1000次结果
本文基于SAS程序建立模拟总体,进行大数量(1000次模拟)的模拟试验,实现了对同一总体的重复抽样调查与统计计算[27]。本文研究的三来源C-R方法下分层三阶段抽样调查方法及其统计公式,具有较高的效度和信度,说明本文研究的调查方法及统计公式准确可靠。
本研究为艾滋病高危人群的基数估计提供了科学可行的调查方法、统计公式及效度信度评价方法。采用本研究设计的调查方法及统计公式,估计广西FSW人群基数,对掌握艾滋病流行现状、预测流行趋势有重要意义,为艾滋病防制规划的制定、资源的合理分配及防制效果的评估提供科学依据。