北京雾霾关注度与实际雾霾指数分析
2017-02-24苏晓红李卫东
苏晓红 李卫东
[提要] 雾霾问题自2013年受到大众的关注后,持续对我国国民经济发展和人民生活健康水平造成显著影响。本文以北京为例,基于百度指数工具,运用公众对雾霾等关键字搜索指数数据,分析公众对于雾霾的关注程度及其变化特点,并与实际PM2.5浓度数值进行回归分析,证明我国人民对于雾霾的重视程度与雾霾实际发生的严重程度有直接关系,并存在一定的时间规律及地域规律。基于此,政府在治理雾霾时可根据雾霾关注度划分等级,并根据等级及时推出解决策略。
关键词:雾霾;百度指数;北京
本文为北京市社科基金项目:“基于大数据的北京市雾霾形成机理与综合对策”(项目编号:15JGB0660)
中图分类号:C811 文献标识码:A
原标题:基于百度指数的雾霾关注度与实际雾霾指数分析——以北京为例
收录日期:2016年12月6日
一、引言
近年来,我国经济处于高速发展状态,由此造成的一系列环境问题也层出不穷,最引人注目的便是雾霾问题,它关乎我国人民的生活质量和身体健康。而自2013年1月以来,雾霾进入我国广大公众的视线,雾霾成分及危害被越来越多的人熟知,雾霾对于我国多数地区的人民生活带来了显著的影响。同时,随着科技进步与时代发展,搜索引擎被越来越多的人应用于实际生活中,人们通过网络搜索来表达对一件事物的关注及重视程度。百度指数作为大数据研究的实用工具,在此前被应用于旅游业、证券业及医学等相关领域的研究,但对于雾霾相关的大数据研究,虽有学者涉足,但对于雾霾的关注度分析缺乏系统全面的分析。本文希望通过利用百度指数进行大数据的挖掘与分析,发现其中的规律和结论,并为政府治理雾霾提出合理化建议。
二、数据来源及研究方法
百度是全球最大的中文搜索引擎,也是中國流量第一大搜索引擎网站,中国用户选择搜索引擎时,首选百度的比例高达95.3%,首选百度的忠诚用户为3.77亿,其中百度的高度忠诚用户为1.6亿。百度指数是以百度海量网民行为数据为基础的数据分享平台,它本身的出发点在于研究关键词搜索趋势、洞察网民兴趣和需求、监测舆情动向、定位受众特征,还可以从行业的角度,分析市场特点。百度指数是以百度网页搜索和百度新闻搜索为基础的免费海量数据分析服务,用以反映不同关键词在过去一段时间里的“用户关注度”和“媒体關注度”。其中,“用户关注度”是以数千万网民在百度的搜索量为数据基础,以关键词为统计对象,科学分析并计算出各个关键词在百度网页搜索中搜索频次的加权和,并以曲线图的形式展现。本文采用百度指数中的用户关注度作为衡量网络关注度的重要指标,以此更有效地来分析大众对雾霾的网络关注度变化的影响因素。
在研究中为防止单一搜索关键词可能出现统计不完全现象,导致统计结果出现错误,选取“雾霾”,“北京雾霾”、“雾霾指数”、“雾霾危害”等四个关键词进行分析。同时,由于百度指数网站中数据以曲线图的方式进行呈现,故用数据抓取的手段将2013~2016年关于“雾霾”的用户关注度信息截取下来,同时找出对应时期北京地区PM2.5指数情况与之进行比较分析。
三、数据描述统计
(一)时间趋势。从百度指数给出的数据而言,公众对雾霾的关注程度在季节上存在很大差异性,与此同时每年都存在相似的规律性。关注程度由高到低依次为冬季、春季、秋季、夏季,同时在每年冬季会出现该年的峰值,其关注程度远超过其他时段。究其原因,一方面是雾霾多发于冬季,因此在冬季人们对于雾霾的关注程度会上升;另一方面峰值的出现体现出雾霾指数长期居高不下造成的积累效应,连续多天的雾霾会不断加剧人们对雾霾的关注程度,进而造成搜索高潮现象的出现。(图1)
(二)地域趋势。在百度指数中可以查看全国对于同一关键词的搜索热度排名,在这一排名中北京地区对于雾霾的搜索热度要明显高于其他地区。但对比同一时段的PM2.5指数水平,北京相比于雾霾最严重的新疆喀什等地区,污染程度不是全国最严重的。北京地区人口稠密,同时科技与经济水平发展较快,因此具有人们利用网络进行搜素的习惯,同时经济发达地区人民追求健康生活的愿望也是北京地区关注雾霾的重要原因之一;相比于地广人稀,经济发展相对滞后的新疆地区,有相当一部分人没有习惯于网络搜索或缺乏这种意识。
另外,在其他地区对于雾霾的关注热度整体上与当地雾霾的严重程度存在一定关联,但是也有相当一部分地区如广东、福建等地虽然空气质量较为良好,但对雾霾的关注程度依然排名前列。其原因是长三角和珠三角地区的雾霾严重程度虽不是最严重,但在近半个世纪以来我国出现灰霾的天数显著增加,尤其以这两地最为明显。同时,当地人对于健康的关心,希望通过雾霾治理恢复良好环境的愿景,或从关注其他地区雾霾情况获得商机的想法有关,这也反映了雾霾这一问题,不仅仅是发生地区人们关心的问题,也是整个中国关注的焦点。
(三)相关问题关注程度。图2由综合计算关键词和相关词的相关程度,并结合相关词搜索热度综合得出,相关词距圆心的距离代表相关程度,相关词本身的大小代表其自身的搜索热度。由图2可以得出,与“雾霾”强相关的相关词有六个,其中大部分与雾霾的危害有关,可见公众在对雾霾的关注点主要集中在雾霾的危害上面。由于雾霾对于人身体的伤害程度以及影响持续时间尚未有明确的定论,因此公众对于雾霾的恐慌心理应引起相关部门的重视。(图2)
由图2我们可以看出,在不同时期,雾霾实际水平不同时,大众关注的问题也是不同的,在2015年12月20日到26日,北京市雾霾状况严重,PM2.5指数分别为208、229、308、254、117、463、290,均达到重度污染以上水平,此时大众对于雾霾的关注相关问题主要集中于雾霾对人体有何种危害,如何减轻这种危害这一类问题。对于雾霾这一关键词的搜索原因是由于其危害到了人民的正常生活。而在2016年7月11日到17日这一段时间,北京市PM2.5指数分别为87、31、18、34、34、35、75,在全年中处于较低水平,此时大众对于雾霾相关问题反映在如何治理雾霾,探究如何进行环境保护来建设一个更加文明的生态系统,对于雾霾的搜索集中于学术探讨和研究。(图3)
四、分析过程
(一)数据观察。选取2015年10月到2016年3月这半年来北京地区PM2.5指数的变化情况与同时间内北京地区对于“雾霾”这一关键词的搜索指数进行对比,我们可以发现,两条曲线的变化趋势大致相同。当当天的PM2.5浓度水平较高时,对于“雾霾”这一关键词的搜索热度将会上升,PM2.5浓度在一段时间内上升至一个峰值,则雾霾的搜索热度也会出现到达较高水平。在2015年12月,关于雾霾的搜索热度从之前的2,000~3,000的水平陡然上升至20,000,这与2015年10月、11月以来持续的雾霾天气有关,公众积累了对于雾霾的关注情绪。同时,在搜索指数最高的当天,PM2.5浓度在北京地区出现了500以上的爆表情况,新闻媒体的报道也促进了广大公众对于雾霾的关注程度。(图4)
(二)数据来源。选取自2013年1月24日我国开始公布PM2.5相关统计数据以来至2016年10月3日北京地区每天的PM2.5浓度数据,并利用百度指数工具,选取北京地区的搜索指数并截取每一天对于相关关键词的搜索热度指数,对两组数据进行回归分析。
(三)数据分析。首先,建立回归模型Yt=?琢+?茁Xt,其中Yt为对于特定关键词的搜索热度,Xt为北京地区实际PM2.5指数。
1、北京地區PM2.5指数与“雾霾”关键词搜索热度的显著性检验。经回归分析得Y=0.0088X+111.43,其中X表示当天的PM2.5浓度指数,Y表示当天对于“雾霾”这一关键词的搜索热度。”说明对于“雾霾”关键词的搜索指数与PM2.5浓度呈正相关关系。
5、数据总结。通过分析发现,PM2.5浓度与雾霾的搜索指数的调整R2僅有0.0597,从数据上表明PM2.5的浓度只能解释雾霾搜索指数变化的6%左右,这一方面说明统计结果受极端值影响较大,另一方面反映出单一搜索关键词并不能很好地说明相关关系,应考虑多个关键词综合分析。从相关性水平来看,北京地区PM2.5浓度与“北京雾霾”搜索热度的相关程度最大,其调整R2为0.733。综合这四个关键词与PM2.5浓度的关系,可以得出其相关程度依次为“北京雾霾”、“雾霾”、“雾霾危害”、“雾霾防治”。“雾霾危害”作为与每个人息息相关的问题一直受到广泛的关注,不仅仅是在雾霾天气高发时段出现峰值,在PM2.5浓度处于正常状态时对于雾霾危害的搜索程度也保持在较高水平,这表明大众对于雾霾的关注已不仅仅停留在雾霾天气出现时的简单了解,越来越多的人开始对于雾霾问题进行学习和研究。对于“雾霾防治”的公众关心度较低,2013年雾霾刚引起大众关注时,其搜索热度很低,但随着时间的推移和人们对雾霾的深入了解,雾霾治理这一问题的关注度一直处于上升趋势,这也反映了公众对于雾霾这一话题思考的深入。
五、结论
随着我国经济的发展和科技的进步,利用搜索引擎进行话题搜索已成为当代人的一种生活习惯,对于雾霾这一对我国人民生产生活造成严重影响的天气现象,经过数据挖掘与分析,我们可以得出公众对于雾霾的关注与PM2.5浓度存在显著相关关系,我国人民对于雾霾的关注程度受实际天气情况的影响因素很大。这一现状可以给政府在雾霾治理中通过公众参与、简政放权实现社会协同治理提出理论依据。同时,公众对于雾霾的关注程度可以在气象服务平台进行发布,以引起广大公众的重视,由此来进行及时的防灾减灾措施部署,以减轻雾霾对公众的不利影响。同时,在政府治理时还要重视舆论引导的作用,防止网上传播的过多负面信息影响了公众的判断。
主要参考文献:
[1]王春梅,叶春明.基于信息扩散理论的雾霾天气关注度研究[J].物理工程与管理,2016.38.6.
[2]张晓帆,谢芳,郭优.基于百度热力指数的雾霾与旅游者出行行为关系研究[J].黑河学院学报,2016.1.
[3]黄先开,张丽峰,丁于思.百度指数与旅游景区游客量的关系及预测研究[J].旅游学刊,2013.28.11.
[4]蒋大亮,孙烨,任航,陈影影,张振克.基于百度指数的长江中游城市群城市网络特征研究[J].长江流域资源与环境,2015.24.10.
[5]熊丽芳,甄峰,王波等.基于百度指数的长三角核心区城市网络特征研究[J].经济地理,2013.33.7.
[6]张凯.基于百度指数的科技期刊影响力大数据分析[J].中国科技期刊研究,2016.27.7.