基于联机关联的数据挖掘技术及可视化研究
2022-05-30施文李明东
施文 李明东
摘 要:文章中对图像挖掘概念的提出以及图像挖掘与相关技术的联系做了介绍;对目前的图像挖掘的研究思路作一个总结;详细论述了图像挖掘的技术和方法。利用图像挖掘的理论与方法可以从图像中分析、挖掘出大量的图像知识,这就涉及到这些大量图像知识的管理和应用问题。对应用关联规则挖掘技术挖掘出的规则的管理及应用进行分析、研究和探讨,使图像挖掘的结果能够充分地被用户所利用。
关键词:联机关联;数据挖掘技术;可视化
图像挖掘和基于内容的图像检索虽然都是针对图像数据集进行操作,但图像挖掘的概念远远超过了基于内容的图像检索的目的和要求,图像挖掘的目标是从大量图像集合中发现某种具有重要语义的模式,发现某种特征性的规则,更加强调对图像内容的高度概括和总结。
一、数据挖掘理论研究基础
数据挖掘的研究目标主要是为了从大量的科学数据中快速找到有用的新知识点和某些其中隐含的重要数据资料。在数据挖掘算法可以挖掘的数据类型方面,从表现形式来看,可以分为文字、数字、图像、声音等。
(一)数据挖掘相关算法的介绍
根据项目需求确定选取使用具体的挖掘算法,常见的数据挖掘算法有如下几种:(1)神经网络:主要指的是一种仿造人工和生物神经元的基本构造和其功能而设计开发的一种专门用于进行信息处理的系统。(2)决策树:是一种基于树的归类算法,他能在无序的样本中,提炼树形的分类模型。(3)聚类:处理算法分析属于一种无监督的机器学习分析算法,聚类分析的基本功能和主要作用就是如何完成一个聚类。
(二)功能带动下的图像挖掘
针对应用的不同,系统的功能模块组成也不同,常见的包含有以下几个部分:图像获取模块:用于从图像库中抽取图像数据集。预处理模块:提取图像特征,将计算的特征数据存放在特征数据库中。搜索匹配模块:用于匹配数据库中存储的图像特征和各种元数据。知识发现模块:针对图像集利用描述、分类、聚类、关联等方法挖掘出图像中潜在的知识和模式。
二、关联规则
关联规则是数据挖掘的最重要内容之一,其模式属于描述型的模式。一方面,在进行关联规则挖掘的过程中,我们可以得出不同的概念层次的关联关系,在领域相关的概念层次树支持的背景下,利用关联规则挖掘的方法可以得到反映不同层次规律的关联规则。
(一)关联规则的概念
关联规则的一般性概念描述如下:
设I={1i,2i,……,ni }是n个不同项的集合,任务相关的数据D是数据库的事务的集合,其中每个事务T是项的集合,使得T■I。每一个事务有一个标志符,称作TID。设A是一个项集,事物T包含A,当且仅当A■T。关联规则是形如A■B的蕴涵式,其中A■I,B■l,并且A、B之间的交集为空。
(二)关联规则挖掘的一般步骤
关联规则挖掘可以分解为下述两个子问题:
第一,找出事务数据库D中所有大于等于用户指定最小支持度的项目集。具有最小支持度的项目集称为频繁项目集,项目集的支持度只包含该项目集的项。
第二,利用频繁项目集生成所需要的关联规则。对每一个频繁项目集A,找到A的所有非空子集a,如果比率support(A)/support(a)>=最小置信度,就生成关联规则:a>=(A-a).support(a)/support(a),即規则a■(A-a)的确信度。
关联规则挖掘的主要步骤如下:
第一步,准备供挖掘的数据;第二步,设定最小支持度阈值和最小置信度阈值;第三步,根据数据挖掘的算法找出所有支持度大于或等于最小支持度阈值的频繁项集;第四步,根据频繁项集生成所有置信度大于或等于置信度阈值的强规则;如果生成的规则过多或者过少,则需要对支持度阈值和置信度阈值进行调整,并重新生成强关联规则。
(三)Top-K关联规则挖掘算法
在对关联规则进行挖掘的过程中,通过实践,发现最小的支持度比最小的置信度更难设计,因为最小的支持度取决于大多数用户不可能知道的数据库特性,而最小的置信度代表了用户在关联规则中真正想要的预期置信度,而且通常是很容易判断。因此,该算法的目标是在满足期望置信度的前提下,挖掘出具有最高支持度的Top-K规则。
三、数据挖掘系统的实验设计
(一)效率验证比较
表1是跟前端技术相关课程的关联规则,从结果可以看到Spring Boot这一前端框架可以推出html5,docker等课程,Spring Boot是java的开源框架,它基于Spring4.0设计,是目前java最为流行的开源框架之一,html5是流行的前端脚本语言,根据结果可以看到,大多数用户喜欢同时选择html5课程与Spring Boot课程,其置信度为0.66。
四、总结
本文分析了图像知识的存储与管理的方法,提出了利用关系数据库表格以及文本文件的方式进行关联知识的存储与管理的方法。在传统的数据挖掘结果的基础上,针对图像挖掘的特点,结合关联规则的挖掘方法,探讨了规则的存储和管理并且在实验中加以论证。由于提取出的规则需要根据具体的领域相关知识进行解释和应用,但限于本人在其它领域的知识贫乏所以没有进一步讨论,仅将规则存储起来供其它领域的人士使用。
参考文献:
[1]李绍华,王铮,梁艺多.基于数据清洗和关联规则的图书推荐算法[J].赤峰学院学报(自然科学版),2021,37(03):8-12.
[2]艾云昊,杨超宇,李慧宗.基于聚类的关联规则后处理算法研究[J].黑龙江工业学院学报(综合版),2020,20(09):126-131.