APP下载

数据为基础,应用为先导

2019-10-30李维明

中国信息技术教育 2019年18期
关键词:爬虫分析法网民

李维明

“数据处理与应用”是《普通高中信息技术课程标准(2017年版)》(简称《标准》)“必修模块1:数据与计算”中的重要内容之一,主要包括数据的采集与整理、分析与应用等几个方面。在实践中应当以数据为基础,应用为先导,展开数据处理的教学。

● 明确数据需求,科学采集与整理

要处理数据,必须采集数据。数据的来源渠道众多,数据的类型也多种多样,我们可以根据需求进行采集。例如,开展类似“中学生移动学习现状调查”活动了解“中学生移动学习的基本情况”,则需要采集学生的“移动设备的使用时间”“移动设备的使用频率”“常用资源类型”等方面的数据。又如,欲了解“哪些因素影响中学生的移动学习”,则需要采集“学生对移动学习的态度”“家长是否支持”“移动设备拥有情况”等方面的数据。只有明确了需求,才能采集到需要的数据。教学中必须让学生明确地了解自己的需求,从而有目的地设计数据采集方案。

数据的来源通常有纸媒数据(如问卷调查数据)、传感器输入数据、网络、数据库数据等。我们必须根据数据的特点及来源途径,选用合适的方法及工具进行采集。对于纸媒数据,可以使用人工或扫描的方法将其录入计算机,从而完成数据采集;对于数据库的数据,由于已有规律存放,则可以用数据库处理工具进行采集;而对于传感器采集的数据,则要根据传感器的类型和输出的方式不同而采用不同的方法采集数据。通常情况下,传感器输出的是一个电信号,这个电信号值会随被测量的变化而变化,采集到这些电信号的数值,就可以研究被测量变化的规律,从而加以利用。但在实际应用场合,传感器往往自带了一个简单的转换器,将电信号自动转换为数字信号以方便人们采集应用。例如,机器人中的光敏传感器在黑色表面时会输出一个数值为100的数字信号,而在白色表面则输出一个数值为0的数字信号,在其他表面则输出0~100的不同数值,人们可以通过机器人软件系统采集这些数据作为利用的基础。

在互联网高度发达的今天,网络更是信息的海洋。通过网络获取数据的方法很多,“在线问卷”“搜索引擎”都是其中重要的方法。对于这两类工具的使用方法,在初中甚至小学都有涉及,不必过多纠缠,更重要的是了解其中原理,如“网络爬虫”等。“网络爬虫”(又被称为网页蜘蛛、网络机器人等),是一种按照一定的规则,自动地抓取互联网信息的程序。由于它可以作为一种工具自动地获取网页数据,因而也就成了不少“搜索引擎”的重要組成部分。从目前使用的教材来看,有关“网络爬虫”的内容,多数教材有所涉及,但出现的位置有所不同,有的在“单元3:算法与程序实现”学习之前,有的在此之后,所以教学时采用的方法也就迥异。学习“单元3:算法与程序实现”之前讲“网络爬虫”只能略讲、定性地了解,而学习之后讲则可以用“算法与程序实现”“网络爬虫”的功能,教学策略完全不一样。教学时可根据学生情况及学习进度,灵活地掌握教学尺度,重在讲清“网络爬虫”特点,而这种特点正是互联网条件下解决问题的特有的思维方式和解决办法,这正是计算思维培育的关键之处。

采集到的数据需要对其进行简单的整理,主要是对原始数据进行校验处理,使之系统化、标准化,也就是要对采集的数据进行“数据清洗”,过滤那些不符合要求的数据,如不完整数据、错误值或异常值、重复记录等,为数据的分析处理打好基础。教学中应当重视这一环节,让学生养成规范处理采集数据的习惯。

● 根据数据用途,正确分析与表达

数据用途是指我们使用数据的目的。一般包括“了解事物现状”“剖析事物发展”“预测事物的未来走向”等,与前述“数据需求”紧密相关,即用途决定需求,需求决定数据,数据决定用途,“中学生移动学习现状调查”就是“了解事物现状”的一个实例。该实例根据学校促进移动学习健康发展的用途,产生出“了解中学生移动学习基本情况”这一需求,采集了学生的“移动设备的使用时间”“移动设备的使用频率”“常用资源类型”等方面的数据,运用分析工具即可得出分析结果,这些结果决定了“学校促进移动学习健康发展”的措施的形成。所以,“用途”“需求”“数据”既相辅相成又相互制约,在教学中必须明确它们的关系。

如何正确地进行分析,需要根据数据本身的特性,选用适合的工具,采用恰当的方法而为之。常用的分析方法有三类:对比分析法、平均分析法和结构分析法。

对比分析法通常是把两个相互联系的指标数据进行比较,从数量上展示和说明研究对象规模的大小、水平的高低、速度的快慢,以及各种关系是否协调等。例如,需要了解我国网民规模的发展,可以使用历年网民人数进行对比分析,由此可以明显地观察到网民人数的逐年递增(如图1)。

在对比分析中,选择合适的对比标准是十分关键的步骤,选择合适,才能做出客观的评价。图1选取的是同一国家(中国)、同一量值(网民人数),所以能从数据中分析出其发展变化的程度。

平均分析法是利用平均数指标来反映某一特征数据总体的一般水平,图2是平均分析法的一个实际案例。从图2可以看出全国居民人均可支配收入逐年增加,人均消费支出也随之增加,而同一年内居民人均消费的总量始终低于人均可支配收入,说明年年有余。

结构分析法是在统计分组的基础上,计算各组成部分所占比重,就是将各部分与总体进行对比,以分析事物的内部结构,了解部分与整体的关系等。图3就清晰地反映了某时段网民的学历结构以及各学历段网民占网民总数的比例。

需要注意的是,由于结构分析法所分析的是部分与总量的关系,所以各部分之和必须与总量相等。这一点在教学过程中必须注意,而且并不是所有的数据都可以使用结构分析法进行分析处理。

从以上案例可以看到,无论是对比分析法、平均分析法还是结构分析法,呈现方式都不是枯燥的数据,而是使用了图表,这个过程就是数据的可视化表达。数据可视化就是借助于图形化手段,清晰有效地传达数据、沟通信息。

综上所述,对于本单元的教学,其重点是抓住“数据”这条线,“采集”“清洗”“分析”“可视化”,科学采集、正确分析,即可付诸应用。当然,这里仅仅是从其教学内容入手进行了粗略的分析,提出了一些相关的建议,但愿对大家有所帮助。至于具体的教学方法及步骤,在本期栏目的相关文章中会有详细叙述,请各位仔细阅读。

猜你喜欢

爬虫分析法网民
基于Python的网络爬虫和反爬虫技术研究
Python反爬虫设计
“台独联署”被岛内网民嘲
基于层次分析法的智慧城市得分比较
基于层次分析法的智慧城市得分比较
基于Scrapy框架的分布式网络爬虫的研究与实现
基于层次分析法的投资性住房选择模型
基于层次分析法的投资性住房选择模型
谁抢走了低价机票
电化学发光分析法测定糖尿病相关二肽