基于模糊数值约束的成绩数据库关联规则挖掘
2020-12-14李毅
李毅
摘要:综合来说,基于对关联规则的约束一般可以由成绩数值信息数据生成。同时成绩数据还可以和与之相关联的数据共同构成一条完善的成绩记录。鉴于此,本文主要分析如何借助模糊数值约束对相关的关联规则进行约束 ,并结合一些实际案例对其约束方法的实效性进行分析。
关键词:关联规则;模糊数值约束;成绩数据库
中图分类号:TP315 文献标识码:A
文章编号:1009-3044(2020)28-0051-03
1引言
为了对我校内部的成人教育管理系统记录的理念成绩数据进行分析,并结合成绩分析如何从诸多的历史成绩数据中挑选出一些比较具有针对性的数据来指导教学活动。下表是从校园历年成绩中选取出的一部分样本实例:
为了更好地对数据信息进行挖掘和分析,可以借助信息数据之间的关联规则找到数据库中各类数据之间的相关性。
为了更好地对数据之间的相关性进行分析,技术人员可以按照课程类别对事物数据库进行分类,然后根据分类过程中各个项目之间存在的关联规则进来有效挖掘问题。但是需要注意的是,如果使用传统的数据管理挖掘方法进行数据挖掘和分析时,所选用事物数据库内部不得拥有过多的数值型项目。举例来说,针对我校成人成绩进行关联规则挖掘时,其相关的规则为:高等数学成绩较好、计算机基础成绩较好。其中,可以将成绩好作为关联规则进行约束。在针对传统的关联规则进行约束评价的过程中,往往采用“支持度-置信度”这类评价方法,但是这类评价方法不能从根本上反映出模糊约束数值的条件。鉴于此,在此基础上,很多学者围绕受约束的关联规则进行了研究和分析。学者R.T.N提出了受约束的关联查询概念。而学者R.Srikant则对受约束的项集约束进行了分析,经过分析后得出约束的项集中包含布尔表达式的频繁项集。学者Robert J.BayardoJr还就稠密数据库的特征进行了分析和研究,并在此基础上提出了改进度的相关概念。
鉴于此,本文通过模糊关联规则、模糊查询以及语言量词等技术,对模糊数值约束的关联规则挖掘问题进行了分析,并结合成人考试数据库的现实案例对挖掘结果进行了分析。
2 模糊关联规则
定义1 何为模糊关联规则, 即在一个项目被限定的模糊数中,拥有很多包含关联规则的前后项。一般情况下,评判模糊关联规则的三个重要参数分别为:①支持度S;②置信度C;③真度。其数学表达式如下:
在公式中,[X、Y]分别代表去除调规则中模糊约束的前、后项项集,其中[T]表示事务记录,[D]用来表示数据库;[Q]则表示[Zadeh] 语言量词,[P]代表模糊概率。结合定义1可以推导出相应的模糊关联规则——高等数学的成绩优异;多数学生的计算机成绩优异。
同时,为了更好地确定相应的模糊关联规则,可进行如下假设:可以将该模糊关联规则的支持度S设置为1,置信度设置1,此时的真度数值为0.8。由此可以得出以下结论:在一般情况下,高等数学成绩较为优异的学生其计算机基础成绩也较为优异。其中的“成绩优异”分别是指高等数学成绩和计算机数学成绩这两个模糊数,而支持度和置信度可以用以表示集合项中的学生都学习过高等数学和计算机课程。而真度则主要用来展示高等数学成绩和计算机基础课程成绩优异学生的整体比例。
3 成绩数据模糊化
在数学领域,成绩优异是一个较为模糊的概念,一般情况下,可以借助确定范围的方法来对其进行加以明确。举例来说,可以将阈值范围处于[80,100]的分数划分为成绩好。但是就实际案例而言,由于成人教育学生生源类型较为复杂,不同科目对成绩优异的划分区间,可能存在一定差异,并不以[80,100]为统一的划分标准。但是如果将[80,100]作为唯一的划分标准,又会对后期的真度数值计算产生影响。鉴于此,一般采用模糊集来对不同阈值内的属性值进行转换。使用模糊集进行属性值转换的过程中,需要经过以下两步骤:首先,要建立和“成绩优异”相匹配的隶属度函数;其次,可以通过模糊查询的方式找到和其属性相对应的模糊数据库。
3.1 隶属度函数的定义
一般情况下,不同属性成绩数据的分布方式为正相关,其隶属度函数的定义为:
其中的值域为[μ(x)],[0,1]参数:[P_max],各科目成绩好数值的确定上限:[μ],各科成绩的平均值:[σ],各科成绩的标准差。
3.2模糊查询
定义2 何为模糊查询?模糊查询主要是指在同一个关系数据库内,其查询语句where中的子句内含有单个或者多个的模糊数。和普通查询相比,模糊查询不仅可以对满足查询条件的数集进行记录,同时还可以对返回记录的隶属度进行记录。举例来说,可以用where子句中的逻辑预算符号“∧”和“∨”来指代子句中的,and或者or。
但是传统查询方式和模糊查询方式仍然存在一定的差异,举例来说:当输入查询指令select all workers whose weight is greater than 60 kg”时,此时该指令的具体含义为找出所有工人体重在60千克以上的,其布尔达描述特征也为体重>60kg。但是在模糊查询之中,由于其使用模糊数如大小、高低等进行查询,所以,可以用模糊数“有多重?”来进行模糊查询。
3.3模糊数据记录集的生成
结合我校的成人考试成绩数据片段,为了从数据库中找出高等数学成绩数值处于优异范围内的学生,可以进行如下模糊查询:
其中,可以用大写字母[Q]来替代[Query],用大写字母[DB]来表示对应的关系数据库,用Ti来表示第i条记录。综合起来用查询语句可以表示为:“select * from DB where 高等数学成绩= much”。这就是一条简单的模糊数据查询语句。但是值得注意的是,和标准的查询语句不同,模糊查询语句中的关系谓词“高等数学成绩”可用much进行表示。在这条魔术查詢语句的where子句之中,仅展示了一个关系谓词,其隶属度计算公式表示如下:
4 模糊关联规则真度的计算
利用表2生成的模糊数据记录集,对生成的模糊关联规则计算真度可以判断关联规则与模糊数“大多数”是否相容。如果真度逼近1那么规则置信度越高;相反真度逼近0那么规则置信度就越低。通常对记录数多的大型数据库来说,相容程度较高的模糊关联规则可以通过设定真度实现。计算真度步骤如下:
① 对模糊关联规则计算满足其属性约束模糊数的模糊概率,计算公式为:
在公式中,用[i]表示第几条记录,用T来表示“∧”运算,用Ti来表示记录,n用来表示所记录的数量。根据学者Zadeh给出的语言量词记录概念可知,在语言量词记录中,Q (·)主要用来表示(most)的隶属函数,其真度的计算公式如下: τ= Q (P ).
以“高等数学成绩优异的学生多数计算机基础成绩也较为优异”这条关联规则为例,其真度计算公式如下:
那么如何判断模糊关联规则的可信度呢?一般情况下,可以通过分析预设的真度数值和实际的真度阈值数值来判断模糊关联规则的可信度。举例来说,一条以“高等数学成绩优异、多数学生计算机基础成绩优异”为主的模糊关联规则,其真度阈值等于0.65,但是其实际的预设真度数值等于0.6,此时模糊真度关联规则的真度数值超过预设真度数值,则可以判断该模糊关联规则的可信度较高。
5 挖掘结果分析
该模糊关联规则查询系统开发公司为微软公司,开发工具为net,支持在win10系统中运行,使用后台数据库为[SQL Server2007]。成绩数据来源年份为2002~2005年,容量约为15万条左右。通过专家分析可知,该模糊查询关联规则的最小支持度数值=0.57,最小置信度数值=0.69,真度阈值=0.63。运用Apriori算法进行计算得出最终的关联规则符号最小支持度和最小置信度。其最终的真度计算结果如表3所示:
根据专家学者的意见可以将其预设真度的下限指调整为0.7,根据表3数值得出如下结论:
一般情况下,高等数学和应用高等数学均较为成绩优异的学生其高等数学和应用高等数学两门学科的成绩普遍较为优异,而表3中的模糊规则也对其进行了说明。由此可见,理科成绩之间存在良性互动关系的可能性较高。同时,在理科成绩和文科成绩之间,也可以发现相似的关系。鉴于此,基层教师在实际的教学过程中,应该做好学科互动工作,借此来大幅提高学生的各科成绩和课堂学习效果。
参考文献:
[1] Srikant,vuq.Mining association rules withItemconstraints[C]. Proc. of the Third Int'l Conf. on Knowledge Discovery in DataBases and Data Mining.CA,USA:AAAI Press,1997:67-73.
[2] Ng R T,Lakshmanan L VS,Han J W,etal.Exploratory mining and pruning optimizations of constrained associations rules[C]//Proceedings of the 1998 ACM SIGMOD internationalconference on Management of data - SIGMOD '98.June1-4,1998.Seattle,Washington,USA.New York:ACM Press,1998:13-24.
[3] Bayardo R J,Agrawal J R . Constraint-based rule mining in large, dense database[J]. Data Mining and Knowledge Discovery,2000,4(2/3):217-240.
[4] 刘松.一种新的多层次关联规则挖掘算法[J].微计算机信息,2006,22(12):223-225.
[5] Yager R R.Fuzzy summaries in database mining[C]//Proceedings the 11th Conference on Artificial Intelligence for Applications.20-23Feb.1995,LosAngeles,CA,USA.IEEE,1995:265-269.
[6] Zadeh L A.A computational approach to fuzzy quantifiers in natural languages[J].Computers& Mathematics with Applications,1983,9(1):149-184.
[7] AgrawalR,ImielińskiT,SwamiA.Mining association rules between sets of items in large databases[C]//Proceedings of the 1993 ACM SIGMOD international conference on Management of data - SIGMOD '93.May25-28,1993.Washington,D.C.,USA.New York:ACM Press,1993:207-216.
【通聯编辑:梁书】