学前教育师资信息素养的挖掘模型设计*

2011-08-15郑频捷

湖北科技学院学报 2011年6期

关键词：调查表字段职称

郑频捷

(福建泉州儿童发展职业学院,福建泉州 362000)

学前教育师资信息素养的挖掘模型设计*

郑频捷

(福建泉州儿童发展职业学院,福建泉州 362000)

数据挖掘模型的设计,对于整个挖掘过程起到了至关重要的作用,本文针对学前教育信息素养的调查表,围绕着数据库设计、数据准备、挖掘方法的选用、模型建立四个方面进行阐述,针对调查表中的若干重要的问题进行分析、研究,从而建立挖掘模型,为最终的数据挖掘做好准备.

学前教育;信息素养;数据挖掘;模型设计

前言

围绕着学前教育师资信息素养体系,国内各个机构对其研究较为缺乏,没有一个现成的模式可以借鉴,本人参考《江苏省东台市幼儿园的信息素养调查研究报告》为参考,请教学院的学前教育领域专家,与一线教师交流,根据自身多年信息技术教学的经验,形成了《学前教育师资信息素养调查表》,从教师基本信息、信息意识与态度、信息知识与技能、信息整合与创新、信息道德与安全、信息技术的培训等六个方面进行研究,对厦、漳、泉、莆田等地公办、民办、私立幼儿园的教师展开调查,希望通过数据挖掘技术,发现幼儿园教师的信息素养现状及其影响因素.

1 “学前教育师资信息素养”数据库设计

首先,利用 Access的建表功能,先建立“学前教育师资信息素养”数据库,根据调查表中设置的六大部分,分别创建 6个表,分别为“教师基本信息”(grxx)、“关于信息意识和态度”(ystd)、“关于信息知识和技能”(zsjn)、“关于信息整合与应用”(zhyy)、“关于信息道德与安全”(ddaq)、“信息技术培训”(jspx).对各部分中的每个问题设立一字段,以缩写形式为字段名,如“信息技术自评”的字段名为“Jszp”,“家庭上网条件 ”的字段名为“Jts wtj”.而每个问题的答案都是以选项形式填写,所以每个字段的数据类型均设置为文本.为了便于管理,我们对每个教师都进行了编号,并将编号设为每个表的关键字.

2 数据准备

2.1 数据收集

本文数据的来源主要通过两种渠道:网上问卷调查以及网下问卷收集,研究对象为厦门、漳州、泉州、莆田、龙岩等五个地区的学前教育一线教师.

由于泉州儿童发展职业学院多年来都是面向厦门、漳州、泉州、莆田、龙岩等五地招生,毕业生也基本上分布在这五个地区,因此本文收集的数据有一定的区域特点,即调查对象具有较相似的教育教学背景,这样给统计、分析提供了很大的方便,使得数据更加精确.

我们根据事先设置的《学前教育师资信息素养调查表》的内容,将调查表以网页的形式发布在网上,供教师填写;有了网络工具,我们能收集到更多的数据,从而使调查结果更加准确.在服务器端收集的数据,直接以 Access数据库形式保存下来,然后添加到 SQL Server数据库中.

2.2 清洗数据

该过程用于提高数据质量,使数据达到分析所要求的标准.数据清洗过程包括子数据集的选择和缺失值的处理.因为数据质量是决定挖掘成功与否的关程中对一些重要字段进行数据质量检查是十分必要的.

缺失值是指数据集中无法知道、没有搜集或者错误录入的值.一般来说对于它们所属的字段这些值是无效的.对于此类问题需要观察缺失值情况,考虑舍去其后对预测的结果是否有较大的影响.

本文中,利用问卷形式收集来的数据,在手工录入的过程中,发现了有许多字段存在缺失值问题,表现为:有的题目中没有“D”选项,但老师的答案中却出现了“D”的选择;有的题目答案为空;还有的选择不合逻辑,比如“年龄”选择为“20～30”,而“教师职称”却选择为“特级”.诸如最后一种选择,在此我们先不做处理,本文主要针对前两种缺失情况进行研究.

第一种情形下,以“jjntff”字段 (字段含义为“解决教育教学难题采用方法”)为例,选项中只有 A、B、C三个选项,但结果中出现了 7个D的选项,造成数据错误有可能是教师填写错误或者是录入员录入失误,在这里我们将这些错误值定义称缺失值,然后利用 Excel工具,发现该题目中 C出现频率最高,因此将 7个缺失值修改为 C.

第二种情形,我们对于答案为空的题目先放空,然后在所有数据填写完整后,再采用类似第一种情况代替方式,以出现频率最高的选项填写之.

2.3 选择数据

利用 Business Intelligence Development Studio工具,新建一名为“信息素养挖掘”的 Analysis Services项目,导入数据源,然后将数据源转化成数据源视图,再进行“选择数据”.

“选择数据”是用来决定用于分析的数据.在整合数据过程中、构建数据库之后,有一些字段会和分析无关,这里就是要对字段进行过滤.

选择数据是指对一些变量的选择取舍.选择数据过程包括字段的选择和记录的选择.我们这里主要针对字段进行选择.在调查表设置初期,由于对目标问题理解不够细致,虽然有幼教专家的指点,但在学前教育师资信息素养领域中,有关研究还是比较缺乏,因此我们在设置数据表时考虑也不够完善,有关字段设置可能是多余的,这也需要通过数据挖掘过程去发现.由于篇幅限制,本文只针对每部分中的典型项目进行挖掘研究.

3 挖掘方法的选用

在学前教育领域中,问题调查一般选项式、问答式的题目来实现,针对选项式的调查,以下我们将对本文涉及的问题进行研究.

3.1 关联规则的选用

挖掘关联规则的过程,就是寻找具有内在、隐性联系信息的过程.随着收集和存储在数据库中的数据规模越来越大,人们可以从中挖掘出更可靠、更有价值的关联规则.参与关联规则挖掘的数据项可以没有显性的关联特征,正是要通过挖掘,探讨它们之间的内在联系.

通过对调查表的分析,我们发现各字段之间的关系可分为两种情形.其中一种有着内在或外在联系,如在“教师职称结构与自评”中,教师年龄与教师职称字段之间有着隐形的联系,即不同年龄的教师具有不同的职称,而教师年龄与信息技术自评、教师职称与信息技术自评之间的关系则是用户所关心的问题,这个关系需要通过研究得出.根据关联规则的适用范围及其目的,我们发现只有关联规则最接近客户的要求:通过挖掘,得出不同年龄、不同职称教师对自我信息技术的评价,即相互间的制约、相互影响的规律.

我们这里可以设定教师信息技术自评为预测字段,将年龄和职称设置成输入字段,这样通过挖掘,便可以得到年龄与信息技术自评、职称与信息技术自评的关联规则.

从上面的例子我们可以发现,当问题相关的字段是不同范围的,或者有一项是不同范围的,则可以使用关联.

3.2 聚类方法的选用

通过聚类,人们能够自动发现数据集中的数据由于其各自的相似性和相异性被分成不同的类,这些类别具有明显的特征,进而发现全局数据的分布模式,以及数据之间的有趣的、隐含的相互联系[13].

在调查表中,我们可以发现字段之间的另一种关系——各字段之间都是相对独立,是同一个范围的不同方面.这里以“教师多媒体软件使用情况”问题为例.

该问题包含了四个字段,分别为“使用 powerpoint情况 ”(Ppt)、“使用 flash情况 ”(Flash)、“使用 authorware情况”(Aw)、“Photoshop制作”(Psdzz).这四个方面都是属于教师使用多媒体软件能力的调查,每种能力之间都是相对独立的,而用户关心的是发现哪些教师能够使用哪些多媒体软件,从而对不同教师设定进行不同的培训内容.根据聚类方法的适用范围及其方法特点,我们发现只有聚类方法最符合用户的需要:通过挖掘,将教师分成若干类别,每个类别都有区别于其他类别的显著特征,这样使得培训部门可以有的放矢的进行针对性教学.

在此,我们将问题中的每个字段都设置为输入和预测字段.

从上面的例子我们可以发现,当问题相关的字段是同范围的不同方面,则可以选择聚类方法进行挖掘,得到需要的结果.

4 数据用法的定义

在利用 SQL Server 2005 Analysis Services进行数据挖掘时,需要先指定包含据以生成模型的定型数据的数据源视图,设置表中的项目,并指定事例表中列的用法.

4.1 定义数据表的类型

在 SQL Server 2005 Analysis Services中,数据必须作为包含在事例表中的一系列事例提供给数据挖掘算法.不是所有的事例都可以用一行数据就可以说明.例如一个事例可能派生自两个表,而一个表也可以派生出两个事例,因此Analysis Services提供了数据集的解决方法,可以表示多种数据来源方式,并提供了嵌套表方式.

4.2 指定数据列的用法

指定了事例表后,就可以确定要包括在挖掘结构中的表的每一列使用类型.数据挖掘列可以为下列四种类型之一:键列、输入列、可预测列或输入列和可预测列的组合.键列包含表中每个行的唯一标识符.输入列提供据以进行预测的信息,而预测列包含要在挖掘模型中预测的信息.

5 建立模型

针对教师信息素养调查表设计,我们将其分为三大部分:个人信息意识与态度、个人信息知识和技能水平、个人信息素养综合因素以及学习目标,对于每个部分,我们仅提取每部分中的一个主要问题进行挖掘模型设计.

5.1 个人信息意识与态度的挖掘模型设计

“教师职称结构与自评情况”挖掘模型设计

(1)指定“列 ”的用法

根据调查表内容,相关字段为“教师年龄”(Age)、“教师职称”(Zc)、“信息技术自评”(Jszp),我们通过“教师年龄”、“教师职称”这两个字段来预测出教师“信息技术自评”的情况,从而了解不同层次教师的信息自我评价.

根据前面所述,在进行挖掘时,首先要指定数据源中“教师基本信息”(Grxx)为事例表,然后从中提取出“Age”、“Zc”、“Jszp”三个“列 ”(字段 )组成挖掘结构 ,其中“Age”、“Zc”为“ Input”属性 ,“Jszp”为“Predict”属性.

(2)挖掘算法的选择及其参数设置

根据挖掘方法的特点,这里采用关联规则挖掘方法,即研究不同年龄、职称的教师对自我信息技术的评价情况.

例如教师年龄 =‘20～30’π 信息技术自评 =‘良好’;

教师职称 =‘二级’π 信息技术自评 =‘良好’.

其中涉及到关联规则挖掘算法的属性设置,我们采用默认设置.

5.2 个人信息知识和技能水平的挖掘模型设计

“教师多媒体软件使用情况”挖掘模型设计

(1)指定“列 ”的用法

根据调查表内容,相关字段为“使用 powerpoint情况”(Ppt)、“使用 flash情况 ”(Flash)、“使用 authorware情况 ”(Aw)、“Photoshop制作 ”(Psdzz),根据要求 ,我们指定数据源中“信息知识与技能”(Zsjn)为事例表,提取出“Ppt”、“Flash”、“Aw”、“Psdzz”四个“列 ”组成挖掘结构 ,列属性均为“Input and Predict”.

(2)挖掘算法的选择及其参数设置

在此我们利用挖掘,了解教师对于四种多媒体软件的了解、掌握程度,并自动分成具有显著特征的若干个类别,然后找出每个类别中的共性,也就是说通过挖掘,希望能将教师进行分类.根据前面所述,我们认为聚类分析挖掘算法最为合适.

根据聚类分析挖掘算法的属性设置,我们同样将CLUSTER_COUNT修改为 0,为了最准确地确定要生成的分类数.