基于Clementine的数据挖掘技术对学科隐形关联的研究
2013-04-29张静端
张静端
〔摘要〕借助数据挖掘软件Clementine 120,以Apriori模型和GRI模型为数据挖掘方法,对东华大学近五年来纺织学院博士研究生的借阅记录进行分析。通过分析数据挖掘的结果,寻找学科领域中相互关联的知识,辅助教师的教学工作,优化学科建设。
〔关键词〕数据挖掘;关联规则;学科建设;学科关联
DOI:10.3969/j.issn.1008-0821.2013.09.029
〔中图分类号〕G250.13〔文献标识码〕A〔文章编号〕1008-0821(2013)09-0145-05
随着现代社会的不断发展,知识更新的速度日渐加快,各个学科之间的联系程度也越来越紧密,出现了许多新的交叉学科及边缘学科。与此同时,社会对学生的知识面要求也越来越高。在本科教学过程中,教学大纲虽然定期更新,却仍明显滞后于社会的发展和要求。高校图书馆,作为向高校师生提供信息服务的部门,有其自身特有的信息优势和特点。由于目前所有高校都采用了数据库技术对图书馆进行管理,在图书的流通过程中,产生了大量的借阅数据。学生尤其是硕博研究生的借阅书刊信息在一定程度上能够代表学科的发展方向和各学科之间的关联程度。因此,充分利用这些数据,不仅可以分析不同类型读者的需求内容,以便及时调整藏书结构与购书投资方向,并且能够从借阅信息中挖掘出学科间的关联关系及特点,以便为学科课程设置及内容调整进行有效合理的建议。这将成为高校图书馆信息服务的一个重要课题[1]。
数据挖掘(Data Mining),是指从大量的结构化和非结构化的数据中提取有用的信息和知识的过程[2]。数据挖掘技术是近年来热门的研究领域,它可以发掘潜藏在资料中的大量可用或未知的信息,以为管理者提供决策参考。在图书馆管理中,最值得进行数据挖掘的是图书流通资料。因为图书馆借阅记录向来是读者实际使用图书馆资源的证据,也是读者满足个人信息需求的行为结果,其中潜藏了大量有意义的关系和规则[1,3]。
图书馆在业务流通中产生的数据属于结构化数据。目前,有关对图书馆业务流通数据进行数据挖掘的文献研究主要集中在以下两个方面:
(1)读者借阅习惯的偏好及行为特征分析;
(2)通过聚类分析对新进书籍与历史书籍进行聚类,以判断其价值。
可以看出,目前在图书馆领域中,运用数据挖掘的关联规则方法来对学科隐性关联和学科动向进行的研究还是不多见的。本文将采用Apriori和GRI关联规则模型,对近五年来东华大学纺织学院博士研究生的借阅记录进行挖掘和分析。博士生一般具有一定的科研水平,并有较为明确的研究方向,利用博士研究生的借阅数据找出学科之间的关联程度,有助于发现学科间的隐形关联,以此为依据来为本科学生选修课程以及教学内容和教学计划的补充与制定提供一定的参考[4]。
2013年9月1第33卷第9期1现?代?情?报1Journal of Modern Information1Sep,20131Vol.33No92013年9月1第33卷第9期1基于Clementine的数据挖掘技术对学科隐形关联的研究1Sep,20131Vol.33No91挖掘模型及软件简介
1.1关联规则的定义
关联规则是数据挖掘的主要技术之一[5]。所谓关联规则,就是描述数据库中数据项(属性、变量)之间存在(潜在)的规则。利用关联规则的数据挖掘技术,可以找出大量数据之间未知的依赖关系。
关联规则定义如下:
设I={i1,i2,…,im}为所有项目的集合,D为事务数据库,事务T是一个项目子集(TI)。每一个事务具有惟一的事务标识Tid。设A是一个由项目构成的集合,称为项集。事务T包含项集A,当且仅当AT。
关联规则是形如X→Y的逻辑蕴含式,其中XI,YI且X∩Y=。如果事务数据库D中有s%的事务包含X∪Y,则成关联规则X→Y的支持度为s%。
1.2关联规则挖掘算法的步骤
关联规则的任务就是在事务数据库D中找出具有用户给定的最小支持度minsp和最小置信度的强关联规则,关联规则挖掘可分解为2个步骤: