多视角下的《数据挖掘》课程教学内容体系设计研究
2018-05-18徐勇
徐勇
(广东肇庆学院数学与统计学院,肇庆 526061)
0 引言
由于互联网技术的发展,人类社会已经进行大数据时代。大数据时代的主要特征之一是海量数据充斥于各行各业。如何充分利用数据,并且从中发现有价值的信息或知识是当前人类社会共同面临的现实问题。正因如此,一方面,《数据挖掘》课程一直是计算机科学与技术相关专业的核心课程之一,另一方面,其他的非计算机相关专业在其培养方案中也将其设定为选修或必修课程,例如许多高校中的经管类、统计学专业都设置了《数据挖掘》课程。在此背景下,《数据挖掘》课程的教学在大数据时代时期变得前所未有的重要。
众所周知,数据挖掘技术属于多学科交叉,涉及高等数学、概率统计、数据库技术、数据结构、机器学习等学科,数据挖掘课程的教学既包涵基础理论,又强调实践教学,即理论与实践并重的一门课程。而且,近几年机器学习、人工智能、云计算等领域的发展,数据挖掘技术的发展也是日新月异,新技术不断涌现。所以,这些因素给《数据挖掘》课程的教学带来了巨大的挑战。为了改进教学质量,提高教学效果,文献中对《数据挖掘》课程教学过程中各个方面展开了研究。例如,有学者试图通过对文献数据分析得出数据挖掘的知识体系[1]。考虑到教学大纲是教学过程中最重要的纲领性文件[2],其规定了教学目标、教学内容、教学方法、教学手段和课程评价五个方面的内容,因此,也有学者探讨了《数据挖掘》课程教学大纲的设计[3]。
学科竞赛对于培养学生的创新能力、团队协作能力、动手实践能力的作用毋庸置疑,它已成为提升大学生创新实践能力的重要载体。目前,国内一些学会或知名企业组织举办各种数据挖掘技术方面的竞赛。高校通过组织学生参加此类竞赛既可以检验学生学习《数据挖掘》课程的效果,也能够培养学生的动手实践能力。文献中有学者对学科竞赛相关的研究。比如说,文献[4]研究了学科竞赛的管理机制与方法。而文献[5]探索了学科竞赛如何与专业及职业进行衔接。
虽然有文献对《数据挖掘》课程的教学大纲设计展开了研究,但是,对于如何借鉴国外大学《数据挖掘》课程的教学大纲内容设置的经验,值得进一步深入探讨。尽管文献中有对学科竞赛的管理及意义进行了分析研究,可是,没有探讨学科竞赛中所应用的知识点对教学内容选择的启发作用。一般而言,学科竞赛的试题来源于现实的实际问题,而竞赛组委会评选出的优秀作品代表了数据挖掘技术的应用于实际问题的典型案例成果。因此通过对这些优秀作品分析,发现其中所涉及的知识体系就可以为《数据挖掘》课程教学内容大纲设计提供新的思路。
总之,本文从两方面入手研究《数据挖掘》课程教学大纲的设计,特别是教学内容的选取问题:(1)从学科竞赛的角度来探讨《数据挖掘》课程的教学大纲设计;(2)从国外大学《数据挖掘》课程的教学大纲设计的角度来探讨国内《数据挖掘》课程的教学大纲设计。具体地说,首先收集数据挖掘学科竞赛中的优秀作品论文与国外知名大学《数据挖掘》课程的在线资源数据,然后,运用数据挖掘技术从中分析挖掘出知识体系,最后,探讨这些知识体系结构中的规律,从而为《数据挖掘》课程的教学大纲内容设计提供依据和参考。
1 共词分析方法
共词分析法属于内容分析方法的一种,其原理主要是对一组词两两统计它们在同一篇文献中出现的次数,对这些词进行聚类分析,进而分析这些词所代表的学科和主题的结构变化[6]。共词分析法首先要确定高频关键词,一般需要对文献内容进行分词和词汇频数统计,将超过一定阈值的高频词汇确定为高频关键词。本文使用汉语分词系统(NLPIR)[7],而英文的分词采用开源的英文词组提取工具[8]。
接着,构造共词矩阵,共词矩阵中的主对角线上的元素是高频关键词的频数,除此以外的元素为两个不同关键词对共同出现的频次。最后,对共词矩阵进行聚类分析,得到的结果为关系密切的关键词汇类团,这些关键词汇类团清晰表达出同一主题下的概念词汇组成。本文的聚类分析是采用软件SPSS作为聚类分析工具,利用欧氏距离定义样本距离的相似性度量,聚类算法则使用K-means中心聚类方法。
2 数据收集与来源
如前所述,本文将从两个角度来探讨的《数据挖掘》课程教学大纲内容设计,即(1)从数据挖掘学科竞赛的角度来考虑《数据挖掘》课程教学大纲设计和(2)从国外大学《数据挖掘》课程的教学大纲设计的角度来探讨国内《数据挖掘》课程的教学大纲设计。因此,数据收集与来源主要是数据挖掘学科竞赛作品和国外大学的《数据挖掘》课程的网站内容。下面分别进行介绍。
2.1 数据挖掘学科竞赛作品收集
学科竞赛对于培养学生的实践、创新能力有着十分积极的作用。近年来,有关企业、专业协会和高校都开展和举办了一系列的数据挖掘学科竞赛。“泰迪杯”数据挖掘挑战赛是由全国大学生数学建模竞赛组织委员会主办,广州泰迪智能科技有限公司承办的全国性大学生科技竞赛。“泰迪杯”数据挖掘挑战赛有以下特点:(1)竞赛的题目主要来源于于企业、管理机构和科研院所的实际问题。因此,竞赛可以促使参赛的大学生能够应用所学理论知识到社会实际需求问题上和进一步有针对性地学习相关数据挖掘技术与知识。本文主要收集了“泰迪杯”数据挖掘挑战赛的优秀作品,从这些优秀作品中挖掘出数据挖掘的主要知识和技术体系。
本文收集48篇泰迪杯竞赛的优秀作品,这些作品体现了诸多数据挖掘技术在实际问题上的成功应用典型案例,涵盖了文本挖掘、图像识别、金融数据分析、生物信息、优化决策等领域。
2.2 国外大学《数据挖掘》课程教学大纲内容
美国研究型大学在本科教育课程改革方面所做出的尝试及所体现的特点,在某些方面值得我们思考与借鉴[9]。通过分析国外大学《数据挖掘》课程的教学内容,可以从中获取《数据挖掘》课程教学大纲设计的启发。表1列出了一些国外知名大学的数据挖掘教学网站地址,本文通过Web挖掘方法收集了这些网站的网页数据,作为后续的共词分析挖掘的内容。
3 数据处理过程
如前所述,本文旨在从两个方面收集相关数据来分析如何设置《数据挖掘》课程的教学内容。学科竞赛作品的收集主要是在泰迪杯官网上下载,而国外大学《数据挖掘》课程教学大纲内容的收集则通过网络爬虫(Web Crawler)获取表1所列的网址的网页。由于学科竞赛作品都是以PDF格式的文件存放的,而通过网页爬虫收集的国外大学《数据挖掘》课程网站内容都是以网页的形式保存的。图1给出了本文数据处理分析过程,本小节详细介绍。
(1)数据预处理
数据预处理的功能是将PDF格式的文件转为TXT文件,对于网页的数据,可以使用网页内容提取工具抽取出其中的有意义的文字,也保存到TXT文件。另外,数据预处理还需要清除过滤掉含有一些缺失信息的数据。
(2)词频统计
将经过数据预处理完成的TXT文件数据,进行切词,得到词汇集合。需要指出的是,对于学科竞赛作品,选择的是中文切词工具。而对国外《数据挖掘》课程网站的内容数据,则采用开源的英文词组提取工具进行英文切词[8]。然后,使用词频统计工具统计每个词汇的词频。将超过一定阈值的词频为高频词。此处设置的阈值为3。
(3)聚类分析
通过聚类分析的方法将一些内容相关的高频词归为一类,该类中的几个中心词可以代表该类的概念。为了实现聚类分析,先需要构造共词矩阵,而相似度量采用Ochiai系数。聚类范围设定为8-15。
表1 国外大学《数据挖掘》课程教学网站网址
图1 数据处理过程
4 结果与分析
4.1 学科竞赛作品的结果与分析
表2 数据挖掘学科竞赛作品高频词汇列表
表2列出的是按照图1中数据处理流程对学科竞赛作品的数据分析处理得到的结果。总的来看,表2列出的关键词反映了将数据挖掘技术应用到实际问题所涉及的数据挖掘的知识及有关概念。从表2中可以发现,第1类的调频关键词是表明在数据挖掘的实际应用过程中,对模型的评估也很重要。一般而言,对于模型的评估主要考察其分类或预测的准确率以及泛化性能等。而第1类的高频关键词则较好地反映了这一点。第2类则是数据的预处理,包括数据提取,转化,维数等高频关键词。第3类则是应用到的数据挖掘的算法,包括神经网络,逻辑回归高频关键词等。第4类是数据挖掘的基础知识,包括多项式、方差以及向量等高频关键词。明显地,这些关键词涉及到属于高等数学、概率统计、线性代数等方面的知识。第5类是领域方面的知识,包括滤波、灰度、文本等高频关键词,这些关键词则体现了数据挖掘可以应用到不同的领域,如图像处理、文本挖掘等。
表3 国外大学数据挖掘教学大纲网站高频词汇列表
4.2 国外数据挖掘教学大纲的结果与分析
表3列出的是按照图1中数据处理流程对国外数据挖掘教学网站的数据分析处理得到的结果。从表3中可以看出,列出的关键词反映了将数据挖掘的教学的基本算法和有关概念。表中第1类列出的高频关键词,体现的是《数据挖掘》课程的基础知识和基础概念。第2类属于《数据挖掘》课程教学的主要内容,即数据挖掘的基本算法及方法,包括关联规则挖掘,贝叶斯网络等。第3类则是《数据挖掘》课程教学内容的提高部分,包括文本挖掘、空间数据挖掘等。
5 《数据挖掘》课程教学内容体系设计的思考
下面结合教学实践和上面的结果对《数据挖掘》课程教学内容体系设计给出一些分析和建议,为教学内容体系设计的提供一些启发。
(1)学科竞赛作品与国外大学数据挖掘教学大纲在知识体系上存在差别
从表2中可以发现,学科竞赛作品中所呈现的知识体系则较为完整和全面,具体地说,该知识体系中既包括基础知识,例如概率论、线性代数等。同时,也涵盖了整个数据挖掘过程所需要的全部知识,包括数据预处理、模型评估。这也充分说明,学科竞赛的特点。而表3中仅仅集中在数据挖掘的基本概念和方法(包括一些高级技术)。因此,在对《数据挖掘》课程的教学内容进行选择和设计时,则应该考虑学科竞赛中所需要的知识点,这样对于提高学生的实践能力大有帮助。
(2)模型评估作为《数据挖掘》课程教学内容的之一不能忽视
模型评估属于机器学习领域的重要内容,但是,由于数据挖掘技术有许多实质是机器学习中的学习算法,因此,《数据挖掘》课程教学内容应该包括模型评估的内容。表2中学科竞赛作品中的结果分析也佐证了模型评估在数据挖掘的实际应用过程中是不可或缺的。若数据挖掘教材缺少对于模型评估的介绍,则在实际的教学过程中应该加以补充。
(3)《数据挖掘》课程教学内容的选择应该和学生的专业结合起来考虑
随着数据挖掘技术的发展,《数据挖掘》课程的内容既有基本的算法,也有一些高级数据挖掘方法。ACM SIGKDD课程委员会对《数据挖掘》课程的教学内容提出指导建议,从表3可以看出,国外大学《数据挖掘》课程的教学大纲与该指导建议基本一致。但是,SIGKDD课程委员给出的指导建议内容太多,因此,国外大学《数据挖掘》课程的教学大纲在教学内容上也是做了筛选。筛选的标准可以考虑授课学生的专业,例如,对于数学及应用数学或计算机类的专业学生,可以增加一些优化理论、粗集理论方面的内容。而对于统计专业的学生,则可以补充一些统计机器学习方面的知识。
(4)领域知识和数据挖掘高级技术的教学则应该结合实际情况进行权衡选择
数据挖掘技术已经广泛应用到各个领域,不同领域需要相关的专业背景知识。例如,在生物信息领域,则可能涉及到生物专业的知识。在教学的过程中如何选择或取舍则需要权衡。另外,数据挖掘中的许多算法在文献资料中都存在各种改进,对于这些改进的算法是否纳入教学大纲的教学内容也值得思考与探讨。一般而言,可以根据学生的层次及课时安排来进行决策。对于研究生,可以适当地增加一些高级技术,而对于本科生,则把教学的重心放在数据挖掘的一些经典算法上。
6 结语
本文从两个角度来探讨《数据挖掘》课程教学大纲内容设计问题,即从数据挖掘学科竞赛以及从国外大学《数据挖掘》课程的教学大纲设计的角度来研究《数据挖掘》课程教学大纲的内容设计。为此,首先收集相关数据,即学科竞赛作品以及国外大学《数据挖掘》课程的教学网站内容,然后通过共词分析得出知识体系;最后,对结果进行了分析和讨论。这些分析和讨论为《数据挖掘》课程的教学内容设计提供一些启发。
参考文献:
[1]安璐,欧孟花,李纲.数据挖掘课程的知识体系构建.图书情报知识,2016(5):4-12.
[2]Syllabus.https://en.wikipedia.org/wiki/Syllabus.Accessed:2017-6-2.
[3]陈刚,魏晗,郭志刚.《数据挖掘技术》教学探索与实践.河南教育:高教,2016(2):86-88.
[4]陆国栋,魏志渊,毛一平,鲍铁虎.基于主题、时间、空间和模式分类的学科竞赛研究与实践.中国大学教学,2012(10):74-76.
[5]韩忠愿.以竞赛促进大学生的专业与职业衔接——中国大学生计算机设计大赛的特点与意义.计算机教育,2015(1):26-29.
[6]冯璐,冷伏海.共词分析方法理论进展.中国图书馆学报,2006,32(2):88-92.
[7]NLPIR 汉语分词系统.http://ictclas.nlpir.org/.Accessed:2017-6-2.
[8]Extract Phrase.https://github.com/yardstick17/extract_phrase.Accessed:2017-6-2.
[9]杨秀玉.美国研究型大学本科教育课程改革特点述评.外国教育研究,2003(7):47-50.