APP下载

面向数据挖掘的图像检索教学演示系统设计

2016-01-27王华秋

计算机时代 2016年1期
关键词:数据挖掘

王华秋

摘 要: 以往的数据挖掘教学没有把理论知识和工程项目联系起来,抽象的算法理论知识消减了学生的学习兴趣,导致大部分学生无法运用数据挖掘工具解决实际决策问题。文章以数据挖掘中的邻近支持向量机算法为例,开发了图像检索教学演示系统,分析了系统各模块的功能、工作流程和技术流程,介绍了系统的数据仓库管理模块、数据预处理模块和核心算法模块,给出了应用实例。该教学演示系统有助于学生对所学算法知识的深入理解、记忆和巩固。

关键词: 数据挖掘; 邻近支持向量机; 图像检索; 教学演示系统

中图分类号:G642 文献标志码:A 文章编号:1006-8228(2016)01-94-04

Design of image retrieval teaching demonstration system based on data mining

Wang Huaqiu

(Computer Science and Engineering College, Chongqing University of Technology, Chongqing 400054, China)

Abstract: The theoretical knowledge of data mining is not linked to engineering projects in the previous teaching process. The abstract theoretical knowledge of algorithms has weakened the students learning interest, resulting in most of students cannot use data mining tools to solve practical problems. In this paper, the proximal support vector machine algorithm in data mining is used as an example and an image retrieval teaching demonstration system is developed. The system's whole structure, working flow and technology flow are analyzed, the system's data warehouse management module, data preprocessing module and core algorithm are introduced, and application examples are given. The teaching demonstration system will be helpful for students to further understand, memory and consolidate the algorithm knowledge learned.

Key words: data mining; proximal support vector machine; image retrieval; teaching demonstration system

0 引言

如今快速增长的大数据已经远远超出人们的理解能力,因此大数据挖掘技术受到了广泛关注。只有挖掘和运用海量数据,获得有价值的知识和信息,才能帮助人们制定正确的决策[1-2]。很多高校为工程类研究生开设了数据挖掘这门课程,研究如何将数据挖掘技术运用于企业管理决策的实际中去。

根据理工科高校培养应用型人才的目标,该课程不仅要求学生掌握数据挖掘算法知识,还要以“工程化”理念培养学生的工程技能[3-5]。而现实教学却让数据挖掘课变成了一门算法分析课或学术讨论课,教师教得乏力,学生学得乏味,没能达到人才培养目标。

在研究生数据挖掘课程的教学中,不能单纯地讲解数据挖掘算法证明,也不能简单地计算和人为构造数据挖掘算法的例子、习题。如果学习数据挖掘算法时,学生无法了解这些算法在工程上的来源,就无法运用这些算法解决具体工程问题[6-7]。这需要以工程项目作为课程教学的支撑,但是工程案例又无法用简单的语言或PPT课件形象的描绘出来。为了让学生直观、真实地获得数据挖掘的工程项目知识,本文通过图像检索教学演示系统与数据挖掘的邻近支持向量机算法教学相结合,一方面使学生对数据挖掘本身算法原理有更深的理解,另一方面使他们更容易找到学以致用的图式感觉,让他们能做到触类旁通,将所学算法应用到各类工程应用中。

1 演示系统的关键算法

实现图像检索教学演示系统的方法是邻近支持向量机算法(PSVM)[8],这是一个比较复杂的分类算法,如果单从理论推导进行讲解,再用一些数据举例计算,那么大量的数学公式就会让学生不知所措,复杂的演算过程也只能起到复习数学知识的作用,学生对所学算法的课后保持时间不长。下面用少量的公式介绍这个算法的基本原理。

PSVM的基本原理是将每个点归类于两个尽可能远的平行平面中最接近的一个。该问题可以归结为:

满足:

为了得到非线性分类器,需要把线性分类器中的变量w用其对偶等价w=ATDu替换,并将线性核AAT替换为非线性核k(A,AT)即:

满足约束:

这里使用的k(A,AT)=(AAT+c)d,c为非负常数,d为任意正整数。

在使用线性分类器对新样本进行分类时,通过wTx-y的符号来确定该样本属于哪一类,在使用非线性分类器对新样本进行分类时,则通过K(xT,AT)u-γ的符号来确定。

2 教学演示系统设计

为了给学生演示邻近支持向量机的作用,本文设计了一个图像检索系统,该系统的主要数据挖掘算法就是邻近支持向量机,借此向学生讲授该算法的实现,加深学生对算法原理的理解。下面对系统的整体结构、各个功能模块的工作和图像检索的工作过程,详细介绍系统的框架结构设计。

2.1 系统各模块的功能

⑴ 图像特征提取模块

对图像库中及用户提供的图像特征进行量化提取,以向量的形式保存在数据库中,并与其对应的图片建立索引。这里涉及到数据挖掘的预处理知识,通过对数据预处理相关算法的演示和导入,可以使学生尽快融入分类算法的学习中来,拉近学生预备知识与所学算法之间的距离。

⑵ 图像特征分析

直观地显示提取出来的图像特征,并以直方图的形式显示每种特征对应的统计特征,方便分析不同图像之间的差异。这部分是用来演示数据预处理效果的。

⑶ 图像库管理

主要对图像库中的图像及其对应的特征进行管理,包括:向图库增加图像和删除图库中图像。设计这部分是为了让学生明白数据挖掘算法是建立在数据仓库及其管理基础之上的。

⑷ 基于底层特征的图像检索

主要比较图像之间底层特征向量的相似程度,并对相似度进行降序排列,返回相似度最高的若干图像作为检索结果。这部分主要用来演示数据挖掘的效果,让学生直观地看到数据挖掘的作用。

⑸ 基于邻近支持向量机的图像检索

该方法以图像库中每张图像的底层特征作为一类数据构造分类器,当对新图像进行检索时,将新图像的数据放入分类器中进行分类,返回得到的分类结果对应的图像库中的图片即为检索结果。这部分是展示算法实现过程的重点。在演示过程中,需要伴随提问,不断引导学生由观察演示到对算法本质的认识。

⑹ 综合语义特征的图像检索

首先在上传图像入库时,需要对入库图像语义进行标注,并将图像底层特征以及图像语义作为训练集进行机器学习,当用户提供待检索图像时,系统通过计算语义特征计算该图片与图像库中图像的相似程度。这部分知识是数据挖掘领域里比较前沿的,设计语义检索模块是为了引发学生思考,起到拓展延伸、启迪思维的作用。

2.2 系统流程

由图像检索系统的结构可知,该系统的核心部分在于图像检索功能模块,其中主要涉及到图像特征提取,相似度匹配,机器学习,语义映射等,图像检索其主要工作流程如图1所示。

图像特征提取包括底层特征提取和语义特征提取,本系统中将底层特征提取和语义特征提取相结合,形成了一个综合多特征的图像检索系统。系统主要技术流程如图2所示。

这些工作流程和技术流程,可以在演示系统之前给学生介绍,让学生知道数据挖掘工程项目的开发流程,了解数据挖掘各部分之间的逻辑联系,培养学生数据挖掘系统的设计能力。

3 图像检索教学演示系统实例

如前所述,本系统六大主要功能模块组成,其中图像特征分析和基于底层特征的图像检索能比较全面地反映系统的主要功能,下面就演示一下这些功能模块。

3.1 图像特征分析

打开预分析图片后,点击工具栏内“特征分析”按钮或点击菜单栏内的“图像分析”选择特征分析方式,即可在“特征分析”窗体中显示分析结果,如图3。

讲授这部分时,可以组织学生讨论还有什么特征分析方法,如何将这些方法加入到系统中来,从而激发学生的系统开发意识。

3.2 基于邻近支持向量机的图像检索

智能检索是采用特征分类的方式实现图像检索的方法,该方法以每张图片的特征作为一类进行训练,构造分类器,当用户欲检索图片时则将样本图片放入分类器中进行分类,分类结果对应的图像库中的图像作为检索结果反馈给用户。

3.2.1 训练学习

智能检索功能模块主要分为训练学习和检索两部分。首先需要通过训练学习构造分类器,当图像库数据发生变化后,若希望通过智能检索图像,均需要进行训练学习。分类器的训练是教学重点,要结合算法原理和程序代码把这部分内容讲透,布置作业,让学生课后仿照演示系统做一个分类器,以巩固课堂学习成果。教师可将做得好的分类器集成到演示系统中,既丰富了系统的功能,又让学生体会到成就感。

用户需要选择训练学习的方式有:①是否对特征值进行模糊化处理;②是否显示训练结果。该学习方式的选择通过如图4所示的两个复选框来实现。

学习方式选择完成后点击“开始学习”按钮实现分类器构造,学习完毕后会显示学习所用时间,若勾选“显示学习结果”复选框,则在右侧的“学习效果”文本框内会显示队形的学习结果,但显示学习效果会增加学习时间。通过算法比较,可以让学生体会算法改进的必要性,树立一种创新理念。

3.2.2 智能检索

智能检索有两种方式,一种是快速检索,另一种是一般检索。快速检索速度一般较快但精度较低,而一般检索精度较高但速度较慢。

该系统将程序开发、机器学习、图像处理技术进行了充分的结合,使学生能够根据所学的算法解决图像检索的问题,从而加深对算法的理解和认识。教师要将一些必要的代码给学生讲解,把系统各部分的运行效果给学生演示,将讲解和演示相结合,选择恰当的时间演示,达到理想的教学效果。

4 结论

本文通过具体的图像检索工程案例,探讨数据挖掘与知识发现的算法应用。实际教学效果表明,结合工程化应用能在很大程度上帮助学生理解并应用数据挖掘的算法,提高了学生对数据挖掘的学习兴趣,也加深了对挖掘算法的理解。今后还将开发更多的相关案例和演示系统,涉及更多的数据挖掘算法,通过有效的课堂组织和演示,帮助学生逐步积累起工程开发经验。

参考文献(References):

[1] 王珊,王会举,覃雄派等.架构大数据:挑战、现状与展望[J].计

算机学报,2011.34(10):1741-1752

[2] 李国杰,程学旗.大数据研究:未来科技及经济社会发展的重

大战略领域[J].中国科学院院刊,2012.27(6):647-657

[3] 韩如成.工程实践能力培养的探索与实践[J].中国大学教学,

2009.6:77-79

[4] 王仲民,姚合环.高校培养学生工程实践能力的途径[J].理工

高教研究,2008.27(1):121-122

[5] 戴波,纪文刚,刘建东等.以工程能力培养为主线建构专业人

才培养模式[J].高等工程教育研究,2011.6:136-140

[6] 蒋盛益,李霞,郑琪.研究性学习和研究性教学的实证研究

——以数据挖掘课程为例[J].计算机教育,2014.24:97-101

[7] 周森鑫,盛鹏飞,王夫芹.数据挖掘课程案例教学研究[J].计算

机技术与发展,2012.11:183-186

[8] K.P. Soman等著,范明,牛常勇译.数据挖掘基础教程[M].机

械工业出版社,2009.

猜你喜欢

数据挖掘
探讨人工智能与数据挖掘发展趋势
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
数据挖掘技术综述与应用
基于GPGPU的离散数据挖掘研究
利用数据挖掘技术实现LIS数据共享的开发实践
高级数据挖掘与应用国际学术会议
高级数据挖掘与应用国际学术会议