基于关联规则的科研项目申报信息挖掘技术①

2024-02-26高大菊

佳木斯大学学报（自然科学版） 2024年1期

高大菊

(滁州城市职业学院,安徽滁州 239000)

0 引言

高校科研的核心力量是教师队伍,科研项目的立项是评价教师科研能力的主要依据,也是学校科研管理工作的一种重要方式。数据挖掘技术的产生和发展为教师科研工作提供了强大支撑,通过关联规则技术可以对科研数据进行分析,发现影响科研结果的关键性因素,并根据这些因素之间的联系规律,为高校组织、协调和评价教师科研工作、作出科研决策提供科学依据。因此,如何从众多科研项目申报资料中挖掘出隐藏的规律与知识,为高校教育和科研决策提供支持成为重要的研究项目。

1 关联规则数据概述

1.1 基本概念

1.1.1 数据项与数据项集

假设I={i1,i2,…,im}为m个项目的集合,其中ix(k=1,2,…,m)被称作数据项 (Item),I为数据项集,简称项集(Itemset),项集的元素数量被称作该项集的长度,如长度为k的项集简称为k-项集[1]。

1.1.2 事务

事务T表示项集I中的子集,两者关系表示为T⊆I,所有事务有且只有一个关联的标识符TID,不同事务组合成事务数据库D。

1.1.3 项集支持度

假设X⊂I表示数据项集,B表示事务集D中包含项数据项集X的事务数量,A表示事务集D包含的事务总数量,数据项集X的支持度Support表示为:

其中,Support(X)表示项集X的重要性。

1.1.4 关联规则

关联规则的表达式为:R:X⟹Y,其中X⊂I,Y⊂I,同时X∩Y=Φ,表示项集X如包含在某一事务,则项集Y必定也包含在同一事务中。X为关联规则先决条件,Y为关联规则结果[2]。

1.1.5 关联规则置信度

关联规R的置信度(Confidence)可表示为:

规则置信度衡量的是关联规则的可靠程度。

1.1.6 最小支持度与频繁项集

最小支持度表示发现关联规则的情况下,数据项需要满足的最低支持门限值,衡量的是项集的最低重要程度。只有满足最小支持度的情况下,数据项集才可能出现在关联规则中,支持度高于最小支持度的数据项集叫做频繁项集,反之,则为非频繁项集。

1.1.7 最小置信度

最小置信度表示关联规则需要达到的最低可信度,衡量的是关联规则的最小可靠性。

1.2 挖掘关联规则的基本过程

挖掘关联规则基本流程如下[3]:

(1)对数据进行预处理,包括数据清理、数据填充、数据离散化;

(2)确定支持门限最小值,置信度的最小值;

(3)基于关联规则挖掘算法挖掘出频繁项集,生成关联规则;

(4)对关联规则进行可视化生成和评价。

可见,将关联规则的数据挖掘涉及以下两个关键问题:

(1)查找所有能符合最小支持度要求的频繁项集,这一过程是数据挖掘中最关键的环节;

(2)基于最小置信度生成频繁项集的决策规则。

1.3 关联规则算法研究

Apriori是最典型的关联法则的数据挖掘方法,该算法通过多趟扫描事务集D的方式找出全部频繁项集[4]。其运算主要基于以下两个基本性质:

(1)一个频繁项集的子集必然也是频繁项集。

(2)一个非频繁项集的超集必然也是非频繁项集。

如图1所示,应用Apriori算法进行第一趟数据库扫描时,需计算项集I中所有数据项的支持度,找出符合最小支持度要求的1-频繁项集L1。在接下来的第k趟扫描中,先将第k-1趟扫描找出的包含k-1个元素的频繁项集的集合Lk-1组做为种子集,据此产生新的潜在k频繁项集的集合,也就是候选集Ck,接着对数据库进行扫描,计算候选项的支持度,从中选出一组符合最小支持度要求的k频繁项集集合Lk,并将其用作下一次扫描的种子集,不断重复直到产生最后一个频繁项集[5]。

假定在数据库中,所有事务的数据项均按字母次序排列,对于一个事务数据库D,一个数据项集的支持度可被视为包括这个数项集的事务数。每个数据项集都有一个域Count用于存储其支持度。

2 基于关联规则的科研项目申报信息挖掘

挖掘过程包括数据准备、关联规则挖掘实现、规则解释与表达三个部分[6]。以高校全部科研项目申报书中的信息为关联规则挖掘对象,从多个相关数据表中挖掘出合适的属性,构建源数据表,并实现数据标准化、离散化,进而得到相应的事务数据库。

2.1 数据准备

2.1.1 数据收集

收集广州城市职业学院2021年度的所有科研申报信息以及研人员人事数据,并整理导出到excel表中,数据源主要包括教师个人信息表、立项科研项目信息表、未立项科研项目信息表。其中教师个人信息表主要包括员工编号、姓名、部门号、性别、出生日期、学位、学历、专业、专业技术任职资格等;立项科研项目信息表主要包括项目编号、项目名称、项目负责人编号、项目来源、项目级别、立项时间、计划结项时间、资助经费、学校配套等;未立项科研项目信息表主要包括项目编号、项目名称、负责人编号、项目来源、项目级别、计划开始时间、计划结项时间、申请经费等。