网络规模迭加法及其在敏感人群规模估计中的应用*
2014-04-03黄晓娟王秀彬翁昊艺
郭 静 郭 巍 黄晓娟 王秀彬 翁昊艺
网络规模迭加法(network scale-up method)[1-6]是一种在国外已经被广泛应用的人群规模估计方法,这种方法只需要针对全人群代表性抽样,数据的收集可以嵌入一项针对一般人群的调查或对全人群代表性抽样进行调查。相对于需要针对目标人群进行抽样调查的传统方法,网络规模迭加法更易于获得数据,花费低且不易被察觉,近年来在敏感人群的规模估计中得到了较好的实践应用。
本研究旨在对网络规模叠加法进行综合介绍,并以大学生中发生过异性性行为的人群为例,对其规模进行估计,并为该方法的进一步推广应用提供理论和科学依据。
对象与方法
1.资料
采用分层整群随机抽样,从北京市88所高校中随机抽取5所高校,在每所高校随机抽取2个系,每个系二年级及以上随机抽取2个班级(30人为一个班级),抽中班级中的所有学生均作为调查对象,共2005人。剔除没有完整回答7个已知人群的记录,剔除性别缺失的记录,剔除年级缺失的记录,剔除没有完整回答对7种已知人群态度的记录,并利用对数转换和箱式图对社交网络规模C的异常值进行剔除,剩余1761条记录,即最后分析的数据库。
2.概念界定
(1)敏感人群:一般是指社会上的一些具有某种敏感特征的人群组合,本研究中设置了两个敏感人群,即:“发生过异性性行为的男生”和“发生过异性性行为的女生”。
(2)已知人群:已知其规模大小的人群,本次研究选取了在校大学生中的少数民族、来自港澳台地区、来自山东省、来自河南省、留学生、中共党员和过去1年发生意外事故(车祸,溺水等)的人数,共7个已知人群。已知人群规模数据来自北京市教委。
(3)认识:本研究中的认识界定为北京市的在校大学生,看到对方或对方的名字或绰号时能认出对方,最近两年内与其有过接触(包括见面、聚会、通过电话网络等方式联系既往已经见过面的人,不包括素未谋面的网友)。
3.分析方法
网络规模迭加法估计人群规模步骤可分为两步:第一步是通过调查数据估计社交网络规模C值;第二步是通过已得到的C值估算目标(未知)人群规模。
(1)社交网络规模C值的估计和校正:采用反向预测法对C进行估计,依次从已知人群中剔除一个已知人群,利用其他已知人群估计得到C值,反推被剔除的已知人群的规模。保留反向预测值与实际值的比值在0.2~6.0之间的已知人群作为计算C值的人群;并利用大学生人口学特征对C值进行校正。
(2)敏感人群规模校正:调查对象对敏感问题的接受程度会对其认识敏感人群的规模造成影响,以不同认可度水平调查对象社交网络规模平均值除以中等认可度水平社交网络规模平均值所得到的权重对数据进行校正。权重较正系数的公式如下所示:
(3)本研究利用EpiData建立数据库,采用SAS统计软件进行分析,不同特征大学生社交网络规模比较采用秩和检验。
结 果
1.一般情况
最终纳入分析的1761名调查者中(初始纳入1776人,经过一系列检验后最终纳入1761人进行分析,具体过程见后“社交网络规模的估计和校正”部分),男生有764名,占总体的43.38%,女生有997名,所占比例为56.62%。从年级来看,大二学生所占比例最大,共有668个样本,占总体的37.93%;大三学生642个,占总体36.46%,大四学生所占比例最小,共有451个样本,占总体的25.61%。从专业特色来看,医学类院校和理工类院校的样本量相对较大,分别占总体21.35%和21.24%;艺术类院校的323个样本相对较小,占总体18.34%;其余为文科类院校338个,占19.19%;体育类院校350个,占19.88%。
2.社交网络规模的估计和校正
本研究选取了在校大学生中的少数民族、来自港澳台地区、来自山东省、来自河南省、留学生、中共党员(包括预备党员)和过去1年发生意外事故(车祸,溺水等)共7个已知人群,并从北京市教委获取以上人群的规模数据。
(1)粗估计值:以7个已知人群估计的个人社交网络规模的均值为98人,中位数为57人。
(2)C值的校正:利用反向预测的方法评价C值估计结果的稳定性,以反向预测值和实际数据的比值在0.2~6.0之间作为标准,确定用于最终分析的已知人群。各人群反向预测结果见表1。
表1 反向预测的已知人群规模
第7个已知人群“过去1年发生意外事故”的预测规模与实际规模的比值97.97超出标准,故将其剔除。
剩余6个已知人群,再次利用其他5个已知人群估计剩余的第6个已知人群的规模。结果显示,反向预测值与实际数据的比值在0.21~5.76之间,说明剩下的6个已知人群基本符合已知人群的筛选标准,该6个人群作为最终计算社交网络规模的已知人群。
(3)C值的分布、异常值处理:根据筛选出的6个已知人群,重新计算社交网络规模,结果显示C值呈右偏态分布,对C值进行对数转换并利用箱式图进行异常点诊断,删除异常值,最终确定纳入分析的调查对象为1761人。利用6个人群1761名调查对象计算大学生的社交网络规模,并根据北京市大学生的人口学特征(专业、年级)对其社交网络规模进行校正,经过逐步校正后的社交网络规模C的均值97人,中位数55人,标准差109。利用上述方法对C值进行逐步调整的结果如表2。
表2 社交网络规模C逐步校正结果
(4)大学生社交网络规模比较:不同性别大学生社交网络规模差异无统计学意义;不同年级大学生社交网络规模差异有统计学意义,大三学生的社交网络规模最大,大四及以上学生社交网络规模最小。不同专业大学生社交网络规模差异有统计学意义,其中艺术类大学生社交网络规模最大,医学类大学生社交网络规模最小,其余三类大学生社交网络规模居中(见表3)。
3.敏感人群规模和校正:
(1)人群规模初步估计:利用6个已知人群计算得到大学生社交网络规模C的均值为97人,并计算北京市在校大学生有异性性伴的学生规模和比例(见表5)。
(2)人群规模校正: 调查对象对待每个已知人群都有5种态度:非常愿意、比较愿意、像一般同学一样对待、不太愿意、非常不愿意。以态度作为分组标志,采用秩和检验比较不同态度学生的社交网络规模,结果显示不同态度学生的网络规模差异有统计学意义(P<0.01)。因此在初步估计北京市在校大学生性行为发生规模和比例后,计算其校正系数(见表4),在此系数基础上重新估计北京市在校大学生性行为发生规模和比例(见表5)。
表3 不同特征大学生社交网络规模及比较
表4 已知人群和未知人群的态度1校正系数
表5 校正前后人群规模比较
结果显示,北京市在校大学生中有异性性伴的大学生占总体比例为13.74%(2011年北京市在校大学生共819368人,其中女生409048人,男生410320人),其中男生比例为13.84%,女生比例为13.62%。
讨 论
本次研究证明,运用反向预测法得到的已知人群规模与运用网络规模迭加法得到的规模大体一致,并且计算得到的敏感人群规模与已有相关研究结果相似[7-8],说明了运用网络规模迭加法计算社交网络规模和敏感人群规模的可信性。
研究结果显示北京市在校大学生的社交网络规模C值呈偏态分布,与国内外研究中C值的分布情况一致[9-11]。关于社交网络规模的描述是用均数还是中位数,目前没有确定性的建议,本研究给出了两个参数的估计值。不同性别、学校和年级学生的社交网络规模存在差异,其分布差异可以从他们的身份特点上得到合理的解释。本研究样本理科和医学生比例较高,而其社交网络规模C值较低,为了排除样本构成对结果的影响,用北京市大学生的人口学特征进行了校正,结果更为准确和可信。
已知人群的选择将对网络规模迭加法的运用产生极大的影响,继而影响社交网络规模和未知人群规模的计算。所以,在网络规模迭加法的运用中,要慎重选择已知人群。一般,至少需要6个已知人群,同时不能选择规模太大或太小的人群,反向预测值与官方数据的比值在0.2~6.0之间较合适。
(同时感谢中国疾病预防控制中心性艾中心对于本次研究的项目资金支持。)
参 考 文 献
1.Bernard HR,Hallett T,Iovita A,et al.Counting hard-to-count populations: the network scale-up method for public health.Sex Transm Infect,2010,86(supply 2):11-15.
2.Johnsen EC,Bernard HR,Killworth PD,et al.A social network approach to corroborating the number of AIDS/HIV+victims in the U.S.Social Networks,1995,17(3):167-187.
3.Bernard HR,Johnsen EC,Killworth PD,et al.Estimating the size of an average personal network and of an event subpopulation: some empirical results,1991,20(2):109-121.
4.Bernard HR,Killworth PD,Johnsen EC,et al.Mccarty C.Estimating the Ripple Effect of a Disaster.Connections,2001,24(2):18-22.
5.Bernard HR,Mccarty C.Scale-up method theory and history with notes,2009.
6.Killworth PD,Mccarty C,Johnscn EC,et al.Investigating the variation of personal network size under unknown error Conditions.Socio-logical Methods & Research,2006,35(1):84-112.
7.张丝艳,徐震雷.北京市四所高校大学生性行为现状及相关因素调查.中国性科学,2010,9(2):3-6.
8.彭彧华,沈莉.当代大学生性行为和性态度,性知识的特点及关系.人口研究,2009,33(6):85-93.
9.惠珊,王璐,郭巍.网络规模迭加法及其在男男性接触者人群规模估计中的应用.国际流行病学传染病学杂志,2010,37(6):405-407.
10.包水莲,吴国辉,张维,等.利用网络规模迭加法估计重庆市男男性行为人群规模的研究.中华流行病学杂志,2012,33(010):1036-1039.
11.还锡萍,包水莲,等.利用网络规模迭加法估计泰州市暗娼和嫖客人群规模.中华预防医学杂志,2013,47(3):19-21.