“数据分析”能力——必备的内在素养
2018-03-16陆峰王爱军
陆峰 王爱军
我们正处于一个信息爆炸的时代,每天都会被各种各样的“大数据”包围着.面对着纷繁冗杂的各种数据,具备“数据分析”能力就显得尤为重要.“数据分析”是指从研究对象获得相关数据,运用统计分析等数学方法对数据中的有用信息进行分析和推断,形成知识的过程.主要包括:收集数据,整理数据,提取信息,构建模型对信息进行分析、推断,获得结论.数据分析是大数据时代数学应用的主要方法,已经深入到现代社会生活和科学研究的各个方面.在数据分析核心素养的形成过程中,要求我们要提升数据处理的能力,增强基于数据表达现实问题的意识,养成通过数据思考问题的习惯,积累依托数据探索事物本质、关联和规律的活动经验,
一、直观感知数据,“初加工”后尝试进行“毛估”
毛估是一种快速的近似估算,它的基本特点是对数值作扩大或缩小,从而对运算结果确定出一个范围或做出一个估计.更本质地看毛估,它应该是直觉基础上的一种数学意识,是在蜂拥而来的众多信息面前,迅速捕捉一批有用或关键信息的那种数学素质.
二、慧眼看待数据,勿让数据蒙
蔽了我们的双眼
对于同一个数据,不同的人往往有不同的解读,这是由于为了论述自己的论点是正确的,不少人总喜欢从自己的角度带有感情色彩地看待手中的数据.这时你怎么办?是人云亦云、鹦鹉学舌吗?当然不能!借用那英的歌词:给我给我一双慧眼吧,让我把这纷扰看个清清楚楚明明白白真真切切.
例3 (2016年第1 9届北京高中数学知识应用竞赛第3题)201 5年11月4日,某媒体北京报道:在2013年3月13日曾经报道过京城“菜篮子”,记者在一个菜市场调查,用10元钱可以买3.3斤油麦菜,或者10斤胡萝卜,或者4根大葱;现在记者又来到菜市场调查,用10元钱买同样的三种蔬菜,可以买3.3斤油麦菜,或者5斤胡萝卜,或者10根大葱.记者由此给出结论:现在京城“菜篮子”物价水平与两年前变化不大.
严同学看到上述信息,指出:这样的结论不可靠.(1)你同意严同学的观点吗?为什么?(2)如果同意严同学的观点,请你为“某媒体”做出2015年11月4日报道新方案,并对“菜篮子”物价水平做出可靠分析.
(注:“斤”为旧的市制质量单位,1斤=0.5千克)
解(1)同意.原因是以下两方面:①蔬菜是季节性商品,不同季节的物价差异很大,2013年3月13日是冬末春初,而2015年11月4日为秋末冬初,这两个季节的蔬菜价格没可比性;②报道中做出的结论只依据了10元钱购买三种蔬菜价格变化情况,品种太少,权威部门的蔬菜价格指数涉及近20个蔬菜品种.可见用三种蔬菜不足以说明问题.
(2)为了做出“现在”(2015年11月4日)的京城“菜篮子”物价水平与两年前比较的可靠的结论报道,要分以下几步来做.
第一步:直接采集官方公布的2013年11月初的某一天和2015年11月初的某一天的多种蔬菜价格数据.由于权威部门的蔬菜价格指数涉及近20个蔬菜品种,所以这里数据涉及的品种也要十几种才能说明一些问题.下面是来自中国好鲜生网www. guoshu123. cn新发的农产品有限公司在2013年11月3日16种蔬菜的中间批发价数据,单位为元/斤.
第三步:计算16种蔬菜的平均变化率P,P= -29.6%.
第四步:得出结论,2015年11月3日的物价(批发价)水平比两年前同期下降了约29.6%.
需要说明的是,蔬菜价格数据应当是某一个具有代表性的农贸市场的零售价格,或是多个农贸市场的零售价格的平均值,现在的数据可以通过市场调查得到,但是,一般人想拿到两年前的相關数据很困难,所以这里采用了可以查到的批发价格.
按照批发价的数据表,油麦菜和大葱的两年价格基本相当,而除了这两种蔬菜,其他14种蔬菜降幅百分比都是两位数,平均降幅为33%.
而在查找数据时,发现2015年11月3日有“胡萝卜(洗)”的中间批发价为0. 85元/斤,价格显然比“胡萝卜”的高很多,也比两年前的“胡萝卜”高,而在2013年11月5日的资料中没见“胡萝卜(洗)”这个品种.如果不注意胡萝卜是否“洗”过,就会出现价格误解.
由此可见,即便使用两年11月初(同期)油麦菜和大葱的价格比较来评价整体物价水平,也是不对的,它们的价格水平变化不具有代表性!“某媒体”对京城“菜篮子”的价格水平比较方法是错误的,而且结论也是错误的.
三、实际收集数据,学会分析其中蕴涵的规律
现实生活中与我们密切相关的数据有很多.有时候直接采集会有困难,但我们可以从资料上收集,并进行整理、分析,尤其要关注社会热点问题,在数据中我们可以进一步探究其中蕴涵的规律性的东西,积累依托数据探索事物本质、关联和规律的活动经验.以下这道与“环保”相关的问题就很有现实意义.
例4 某化工企业每月收入为80万元,从今年起,若不改善生产环境,则在生产过程中产生的污水由污水厂处理,每月上交定额5万元的治污费,如果该企业从今年1月份起投资300万元增加回收净化设备以改善生产环境,降低企业生产成本.已知该设备每月的运转费用是0.2万元.问:经过多少个月,投资开始见效,即投资改造后的月累计纯收入多于不改造时的月累计纯收入?所以必须经过8个月后,即第9个月才见效.
因此在短时间内,企业采取节能减排措施需要的投资是一笔不小的数目,甚至会对企业资金的周转产生一定的影响,故一些企业不愿积极主动采取措施.但从长远来看,若企业采取了节能减排措施,不但改善了生产环境,而且还为企业带来了更大的经济效益和更强的市场竞争力,应值得推广.
5.模型的评价与改进.
模型最大优点在于对原始数据拟合时,采用多种方法进行,使之愈来愈完善,具有很高的拟合精度,但没有考虑众多的实际因素的影响,只是出于一种相对理想的状态下进行分析求解,可能投入现实中达不到预想的结果.若考虑由于原材料价格变化,以及设备老化而产生的维修费用等众多的实际因素的影响,并采用整个行业平均数据作为样本进行建模,所得模型可能更具有代表性.