APP下载

统计数据收集艺术情操例解

2021-01-15邹文慧

合作经济与科技 2021年2期
关键词:脊髓灰质炎疫苗科学

□文/邹文慧

(山东经贸职业学院 山东·潍坊)

[提要] 数据收集过程是统计分析的基础环节,为保证统计分析结论的准确性,首先要做好数据准备。数据收集方法作为科学技术无可厚非,同时也具有艺术性。本文通过统计分析中的三则典型案例,从抽样的设计、数据的数量和质量以及试验设计角度,说明数据收集的艺术情操所在。

一、引言

正所谓“巧妇难为无米之炊”,数据收集在整个统计分析过程中扮演着重要的角色,要想获得精确的统计分析结论,首先要从收集高质量的数据开始。如何获得一套高质量的统计数据不但要讲究科学性还应把握艺术性。统计学是收集数据、整理数据以及从数据中获得相关有用信息的方法论科学,那么数据收集技术作为科学毋庸置疑,又为何是一门艺术呢?艺术一词常被用在文学领域,指的是审美的意识形态,用来描述现实和寄托情感。当科学与美感相遇时,便擦出了艺术的火花。笔者通过几则典型案例,试图说明这一点。

二、典型案例分析

(一)国民诚实情况调查。抽样是数据收集的常用方法之一,具有调查费用低、效率高和时间短等优势,为使样本尽可能真实地反映总体的特征,要进行合理的抽样设计。为了解15个国家的国民诚实情况,即哪些国家国民更倾向于撒谎,哪些国家的国民更诚实,现进行抽样设计:先从每个国家找1,000人,15个国家总共有1.5万人参加此次测验,采用互联网调查。细思之,如果直接去问对方是否撒过谎或者你是一个诚实的人吗,往往很难获得真实的回答,所以该调查存在的主要困难是如何获得贴近现实的高质量调查数据。

鉴于此,下面进行试验设计,第一组试验要求被调查者在家里抛硬币,要求参与人只需在互联网上告知调查结果,且不需提供任何过程性证据。试验开始之前,网络规定如果被调查者投掷结果是正面向上,将获得10元奖励,反之不获得任何奖励。实际上该试验是有理论参照的,历史上皮尔逊等著名统计学家做了大量硬币投掷试验,以此说明频率稳定性,也就是说无论试验次数为多少,硬币出现正反两面的结果均为0.5左右。假想之,若某个国家参加试验的1,000人中,参与人受奖励所带来的利益驱使,导致900人甚至1,000人声称自己投掷的结果是正面,就有很大的概率认为其中有人撒谎了。

第二组试验是被调查者回答五道题目,要求被调查者提前承诺在不查阅任何资料的情况下进行作答,题目难易程度设置为三道相当容易,其余两道难度较大,在不查阅任何资料的情况下几乎不能正确作答。该试验也给予一定的奖励,若被调查者答对4个及以上将获得10元奖励,三个及以下不奖励。同样的,这个试验的参照正确率为0.6,如果试验结果显示正确率远远超过这一界限,则可能出现所谓的“撒谎”或者说“不诚实”。

然后,统计人员对这两组试验结果进行相互验证,最终得到国民诚实情况的测度结果。以上两组数据收集过程都非常恰当地体现了统计学在收集数据方面的艺术。因此,在大数据时代,即使有了传感器等先进数据采集设备,亦或者像网络爬虫等数据采集技术,调查者也很难获得适合研究目的的所有真实数据。所以说,统计分析过程中收集数据是一门艺术,针对特定的研究目的和特征,结合科学性与美感设计完善的数据采集方案,就是非常艺术的数据收集过程了。

(二)1936年美国总统大选。1932年的时候,富兰克林·罗斯福第一次当选总统,当时美国和许多国家正遭受严重的经济危机,罗斯福的压力很大。因此,到1936年罗斯福想要竞选连任的时候,美国很多人预测他将被对手兰登打败。当时就有两家机构在预测总统选举结果,其中一个是《文学文摘》,在当时非常有影响力,其对此前几次总统选举结果的预测都成功了。《文学文摘》采用的民意调查方法是:在杂志里面夹上关于总统选举的调查问卷,总共收回有效问卷240万份,经分析得出结论兰登将获得总统大选;而另外一个叫盖洛普的年轻人,却采用定额抽样方法,即按各类人群在全国总人口中的比例发放问卷,共调查了5万人,问卷收回后预测罗斯福将获得总统大选。众所周知,1936年罗斯福成功连任,年轻人盖洛普预测成功,《文学文摘》在此后倒闭。

不禁反思,为什么调查了5万人要比240万人的分析结果更精确呢?因为《文学文摘》发放的240万份有效问卷,实际面对的都是订阅这份期刊的用户,是当时美国国内相对而言有钱的那部分人,也就是说民意调查并没有覆盖到穷人群体的意见。所以,数据收集的量多不一定就代表结论更准确,符合实际的分析结论应该建立在有高质量的数据源和有代表性的样本基础之上。

(三)脊髓灰质炎疫苗有效性分析。通过试验采集有统计分析功能的试验数据是数据采集的另一主要途径,为采集有利用价值的试验数据,往往要进行合理的试验设计。历史上,脊髓灰质炎曾经是一个让人闻风丧胆的疾病。在20世纪50年代,当时美国一所大学的实验室做出了针对这一疾病的疫苗,并且已经证明它在实验室条件下能够产生有效的抗体,但是医生们不确定疫苗如果应用到实际生活中是否依然有效,所以美国政府部门决定要做试验。那么,怎么设计试验才能够真正说明疫苗有效呢?在1954年,试验针对小学一、二、三年级的学生,共拟定了五种试验方案,但前四种均有弊端:方案一按年份设置对照组,即今年注射而明年不注射。因为之前每一年的脊髓灰质炎发病率差别比较大,很难判断发病率的差异是随机变化还是疫苗发生了作用;方案二按地区设置对照组,即部分地区进行疫苗注射而其他地区不注射。由于脊髓灰质炎本身就是传染病,一个地区可能流行这个疾病,而另外一个地区可能就没流行,即这两个地区的数据本身就会有差异,但是这还不是疫苗的效果,因而不具有可比性;方案三让学生自愿选择是否注射疫苗。但考虑到经济条件较差的家庭可能在幼年时,因为种种原因已经感染过该种疾病,进而产生了相应抗体,所以很难判断疫苗效果的差异是由于经济原因还是疫苗本身;方案四是按年级设置对照组,即有的年级注射该种疫苗而有的年级不注射。但该方案也无法避免贫富差距造成的患病概率的差异,以及因年龄原因造成的患病概率的差异,此外对医生造成心理上的诱导,即未注射过疫苗的年级学生若发生类似症状时,医生会考虑到学生未注射疫苗的原因直接将其确诊为脊髓灰质炎。

以上四种方案因其存在的缺陷都被一一否定,最后确定的是方案五:在征得家长同意之后,仍会告诉家长,你即使同意接种疫苗,我给你家孩子接种的也不一定是疫苗,有可能是一种没有任何副作用也没有什么效果、类似于疫苗的安慰剂。所以,医生和家长、学生都不知道自己接种的是疫苗还是普通的安慰剂,但疫苗提供方是知道的,因为给每一只疫苗都添加了编号。通过这种方式,实验室实现了以随机的方式接种疫苗,而且无论所属年级、地区还是经济条件好坏,接种疫苗都是随机的,有效规避了前四种方案中各种因素的干扰,有助于确定脊髓灰质炎与疫苗真正的因果关系。最后在参与试验的74万名小学生中,如果接种疫苗,孩子罹患脊髓灰质炎的概率约为十万分之二十八;如果不接种疫苗,患病概率约为十万分之七十七,两者相差一倍多,在实验室之外证明了脊髓灰质炎疫苗的有效性。

在因果关系分析基础上进行合理的试验设计,进而能采集到适于分析研究的试验数据,恰如其分地体现了数据收集的艺术性。在许多科学问题的研究过程中,关键性的因果关系不能简单的建立在定量分析基础之上,仍需辅助运用定性分析的方法去发现事物之间的关联,这正是数据收集的艺术魅力所在。

三、小结

作为统计分析基础环节的数据收集过程,既是科学的又是艺术的。艺术不是科学的对立面,而是科学的有力补充,正如人们在说话时要添加表情、姿态等,才会使得描述过程更加丰富和生动。大数据时代,数据规模大且复杂,不仅要把握统计学作为科学的理论立场,还要掌握统计学的艺术情操。与科学相比,艺术离不开情感的表达,统计学作为科学承袭了先辈们智慧的结晶,它又作为艺术吸收了当代统计学大师们的前沿思想,科学与艺术的结合,使得统计知识不断丰盈,学科不断蓬勃发展。

猜你喜欢

脊髓灰质炎疫苗科学
HPV疫苗,打不打,怎么打
世卫组织宣布非洲根除脊髓灰质炎病毒
我是疫苗,认识一下呗!
我是疫苗,认识一下呗!
我是疫苗,认识一下呗!
科学大爆炸
2017年北京市海淀区270名健康者Ⅰ型和Ⅲ型脊髓灰质炎中和抗体监测
脊髓灰质炎
科学
全球首个Sabin 株脊髓灰质炎灭活疫苗获批上市