数据分析与数据挖掘
2020-06-12邱元阳
邱元阳
作为信息的具体表现形式,数据的重要性显而易见,各种数据的获取和利用,一直贯穿在各行各业。在大数据时代,数据的获取已经不是问题,但如何对得到的数据进行分析,却往往千差万别。
数据分析(Data Analysis)就是用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。但同样的数据,不同人分析的结果,却可能大相径庭。
武漢市新冠病毒核酸筛查“十天大会战”结束,这几天,无数武汉人的朋友圈被阴性检测结果刷屏。出乎很多人的意料,这10天检测出来的无症状感染者仅有218人,只占检测人数的0.0035%。而在此之前,很多人不相信国内的数据,根据国外发病情形和数据,以及无症状感染者与确诊人数的比例,来预测武汉新冠肺炎感染人数,多数人分析的结果是,武汉感染的人数可能超过50万人!
这种巨大的预测偏差显然是数据分析和利用过程不正确造成的。但有人却要回头质疑武汉检测结果的准确性和检测能力。对于10天完成近千万人的全民核酸筛查,这样的速度和检测能力,要超过医疗条件和检测能力都非常强的美国若干倍。从会战开始前几天的日检测数量来看,7万,11万,22万,虽然速度在不断上升,但距离日均百万的预期还是相差较远,但当高峰期达到日检测147万时,有人又不相信了。
小时候很多人都做过类似这样的智力题:一堆看起来完全一样的乒乓球,其中有一个质量稍轻的次品,如何利用天平用最少次数的称量来找出这个次品。大家都会想到分组称量,天平两端平衡时,两组乒乓球应该都是正常的。在计算机程序设计中,类似的方法已发展为各种查找算法。用到武汉核酸筛查方法上,就是“混样检测”,10个样本混到一起检测一次,如果是阴性则全部是阴性,如果是阳性再分别检测。在预估阳性率很低的前提下,混样检测极大地减少了检测次数,而混样造成病毒浓度的稀释在30个以内的样本混合时不会影响检出。
数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。从这里来看,外行进行数据分析和预测,往往会忽视很多专业上的可能,得出完全错误的结果。
从已有的各种数据中,找到不容易看出的内在关联,有时还能够挖掘出另外的丰富信息。这就是数据挖掘,经典的例子有大家非常熟悉的“啤酒与尿布”,甚至一些杜撰的商业营销案例。
数据挖掘(Data Mining)是指从大量的数据中通过算法搜索隐藏于其中信息的过程,它能够从大量数据中揭示出隐含的、先前未知的并有潜在价值的信息。这一非凡过程通过分析每个数据,从大量数据中寻找出规律。同样,错误的分析和挖掘,找出的规律也可能是错的。
在欧洲疫情暴发初期,德国的病死率仅有0.59%,跟伊朗接近20%的病死率简直是天壤之别。于是有人得出结论:德国先进的医疗条件和技术,保证了极低的病死率,而伊朗正好相反。如果我们重新审视这个看似非常科学的结论,会发现还是有问题。现在再看,二者的病死率都在5%上下,也就是说,自身免疫能力而非医疗水平才是关键。
表面上看,病死率应该是病死人数除以发病人数,但是发病人数一直在变化,感染者人数未知,分子与分母都不是最终数据。美国天普大学数学教授约翰·艾伦保罗称此为“分母之谜”,简单的除法得到的并不是最终病死率。
另外,调查数据的可靠性,幸存者偏差,遗漏和错误关联,都会使严肃的数据分析变得没有参考价值,差之毫厘,谬以千里。