基于知识依赖度约简数据挖掘的个性化服务研究

2015-12-05李化明王家云马利华

大学图书情报学刊 2015年1期

李化明，王家云，马利华

(淮北师范大学，235000)

高校图书馆自动化建设经过多年的发展，已经积累了大量的历史数据，这些数据不但完整，而且质量高，充分反映了读者学习成长的过程。如何对其进行挖掘提炼并从中发现有价值的知识，是我们了解读者需求，开展个性化服务的重要信息来源。前人研究主要是根据某类读者以往的借阅历史数据，利用关联规则算法、聚类算法和遗传算法等来挖掘，因为这些读者在不断地进行知识更新和深化学习，这样挖掘的结果往往不能反映读者不断变化着的信息需要。本文通过对专业读者群进行数据挖掘，发现其学科建设的知识体系结构，建立相应的知识库，然后根据读者当前所在年级、专业来进行个性化推送服务，把他们真正需要的知识送给他们。

1 相关理论

(1)个性化服务:根据信息用户的知识结构，信息需求，信息使用行为、习惯和偏好，有的放矢地向用户提供符合其个性化需求的一种信息服务。用户对信息的个性化需求是服务的起点，先进的技术是个性化服务的重要手段，针对性、主动性是个性化服务的两个主要特点［1］。

粗糙集理论认为“知识就是一种对对象进行分类的能力”，它将分类理解为在特定空间上的等价关系，而等价关系构成了对该空间的划分［2］。

(2)论域、知识:设U是我们感兴趣的对象组成的非空有限集合，称为一个论域。论域U上的任一子集X⊆U，称为论域U的一个概念或范畴。论域U中的任何子集簇(概念簇)称为关于U的抽象知识，简称知识［3］。在二维表中，知识就是由某些列对所有行的划分构成的集合所表示。

(3)知识库:给定一个论域U和U上的一簇等价关系S，称二元组K=(U，S)，是关于论域U 的一个知识库或近似空间。因此，论域上的等价关系就代表着划分和知识。这样，知识库就表示了论域上的由等价关系导出的各种各样的知识，即划分或分类模式，同时代表了对论域的分类能力，并隐含着知识库中概念之间存在的各种关系［4］。

(4)不可分辨关系:给定一个论域U和U上的一簇等价关系S，若P⊆S，且P≠∅，则∩P(P中所有等价关系的交集)仍然是论域U上的一个等价关系，称为 P上的一个不可分辨关系，记作IND(P)。IND(P)的等价类称为知识 P的基本范畴［5］。

(5)集合的下近似和上近似:给定知识库K=(U，S)，其中，U为论域，S表示论域U上的等价关系簇，则∀X⊆U和论域U上的一个等价关系R∈IND(K)，我们定义子集X关于知识R的下近似和上近似分别为:

其中［X］R是根据知识R对论域U的划分形成的子集;下近似R(X)=pos(X)称为X的R正域，是那些根据知识R判断肯定属于X的论域U中的元素组成的集合;上近似R(X)是那些根据知识R判断肯定属于或可能属于X的论域U中元素组成的集合;bn(X)=R(X)-(X)称为X 的边界域［6］。

(6)知识的依赖度:给定一个知识库K=(U，S)，∀P，Q∈ IND(K)，定义

2 知识约简

2.1 样本数据选取

本文以淮北师范大学教育技术学专业学生作为研究对象，经统计，该专业自2008年以来每年招生一个班，系统有2008年以来的所有借阅历史记录，符合研究要求。为了简化样本数据，笔者选取2013学年度(2013-2-25日到2014-1-19日)教育技术学专业2010级到2013级学生借阅历史数据作为研究样板，经过统计后具体情况见下表1。

表1 2013年学年度教育技术学专业2010级到2013级学生借阅情况统计表

2.2 数据预处理

在进行数据挖掘之前，需要对数据进行去噪、补缺和转换等预处理操作，以便进行数据挖掘。数据预处理步骤如下:(1)根据年级、专业代码和时间段获取读者借阅历史记录，并通过汇总可以获得借阅图书的人数、没借阅的人数和总的借阅册数。(2)去除借阅书目的种次号，得到其借阅类目，汇总后得到借阅类目数;由于中图法是通过标记符号来代表各级类目和固定其先后次序的分类体系，标记符号不同，其表示的知识类目也不同，故不能把相近类目合并为一类。(3)按类目进行汇总，求得各类目的借阅册数和所有类目的平均借阅册数，并删除低于平均借阅册数的类目，因为它表现的只是某个学生的个人爱好，相当于噪音数据。(4)求出借过大于平均借阅册数类目图书的所有读者，这些读者即是进行知识约简的对象。(5)生成上述读者对象和其借阅类目的二维表，并对表中数据进行转换处理，即此读者借过该类目书籍则为1，否则为0;类目列按类目总借阅册数降序添加到表中。

2.3 知识约简

经过上面的数据预处理后，我们得到了知识库的关系簇S和论域U:即不小于平均借阅册数的类目和借阅这些类目的读者。然而，即使经过上述预处理后，其约简的类目数量还是不少;如果直接用知识依赖度来约简，需要计算的次数为M*logM*2n(M是读者数，n是类目数)，这是指数级时间复杂度，需要消耗大量的计算时间。为了得到多项式时间算法，我们采用以类目借阅的册数多少作为属性重要度的启发式策略，应用知识依赖度算法来约简二维表，具体的算法见图1。

图1 知识依赖度约简算法

此算法不能保证所有结果是最优的，但近似最优值。经过对教育技术学专业2013学年度的知识约简后的结果见表1“类目选择”列，这里按属性重要度(借阅册次多少)列出了前面5-6个约简后得到的类目(知识集合)。然后对各年级约简的类目进行扫描一遍，根据类目的位置和重复度多少，就可以得到本专业的核心知识，从上表处理结果得出:TP391.41，I247.5为专业核心知识集。约简后主要一些类目借阅册数见表2。

表2 约简后主要类目借阅册数统计表

2.4 结果分析

在表2中，如果各约简后的主要类目借阅册数相差悬殊不大，则说明他们不了解专业知识结构，而是根据自己的兴趣爱好来进行借阅;相反则表明他们了解专业知识结构，借阅的针对性和目的性非常强。例如，表2中大一学生(2013年级)借阅TP391.41为14册，G40-057为6册，对应的表1中的几个主要借阅类目之间的最大比例是14/6≈2.3倍，这说明了他们除了学习专业技术知识外，还阅读“I247.57社会、言情小说”、“I561英国文学”等书籍，阅读内容涉及面较宽，不了解专业知识体系结构。同理，大二学生(2012年级)借阅TP391.41为69册，J06为7册，几个主要借阅类目之间的最大比例是69/7≈9.9倍，这表明他们初步抓住了专业知识体系结构，阅读内容较集中。而大三、大四的学生几个主要借阅类目之间的最大比例都≥12倍，表明他们主攻专业技术知识，如:“TP391.41图像识别及其装置”、“TP393.092网络浏览器”，学习目标非常明确。

另外，我们还可以看到，“I247.5新体长篇、中篇小说”一直是他们热衷看的书籍，但在教育技术学专业人才培养方案(2013)中则没有反映出来，其专业主要课程是:教育技术学导论、心理学、教学系统设计、远程教育基础、电视教材设计与制作、教育媒体理论、教育技术学研究方法、中学信息技术课程教学设计［8］。并且从表2中我们还能看出，一些专业基础理论知识，例如:“J06造型艺术理论”、“G40-057教育技术学”，主要是由大一、大二学生借阅，而且数量都不大。这表明学科体系结构中相关基础理论课程设置较合理，基本满足他们的需要。相反，“TP393.092网络浏览器”在大三、大四学生借阅量中却猛然增加，反映了教育技术学专业学生更需要这方面的知识和技能，也说明该课程在学科体系结构中的重要性，以及设置的不够合理性。

因此，通过对相关数据分析得出如下一些建议:(1)给大一、大二学生适当介绍本学科知识体系结构，使他们从一开始就明确学习目标、方向和内容组成;对于开通《学科导论》课的院系，则需要扎实推进本导制，发挥其引导作用。(2)深入研究小说等文学艺术类素养与提高教育技术学专业能力之间的关系，开发利用文学艺术资源中想象元素，培育学生教育技术设计的灵感，把技术与艺术完美结合起来。(3)在低年级中适当开设有关“TP393.092网络浏览器”课程，做好有关理论基础知识铺垫。(4)对于未借过书的个别学生，则需要针对性地进行访谈，找出其不借阅的原因，做好相应的阅读指导工作。

3 个性化服务实证研究

为了验证上面发现的知识规律是否正确，我们对2011、2012、2013级教育技术学专业读者进行问卷调查。问卷内容主要是根据表2约简后得到的几个类目，按借阅册次多少选择前3个类目，挑选出上一年级读者在2013年度借阅最多的前几本书目和后面几个类目(配有类目解释和例子)，加上读者自我推荐书目栏目，把这些作为2014年度本年级调查的内容。这样设计目的是:(1)验证上面发现的知识规律是否正确;(2)验证上一年级读者在上一年度借阅最多的书目是否也是本年级读者在本年度借阅最多的，以确定个性化推荐内容。对调查数据是这样进行处理的，根据书名和责任者，从馆藏OPAC书目查询系统、读秀学术搜索或者豆瓣等互联网上进行查找，确定其分类号，然后根据分类号进行汇总，倘若前面这类书目已经处理过，则此次不再计算人数。调查统计结果见下面表3，按此知识规则进行推荐，其类目命中率(即约简后的知识类目想借阅数/总想借阅数)都在87%以上。例如:2103级学生现在是大二，从表1中看2012级大二学生借阅的主要类目有:TP391.41，I247.5，H319.4，I565.4，J06，对应表 3，2013 年级的想借册数为49+26+24+33+34=166册，而2013年级问卷调查总数是166+1+14=181册，其比例为166/181≈91.7%。我们再把表2和表3内容合并起来进行比较得出下面表4，从表4中我们也能看出它们顺序基本一致。因此，采用这种方法得出的知识与实际相符，验证了其规律的正确性。另外，从调查的具体数据来看，上一年级读者借阅最多的书目并不一定是这年级读者最想看的书目，例如:在对2012级教育技术学专业学生问卷调查中，书目《Flash 8基础与实例精讲》(腾飞科技编著.人民邮电出版社，2007)，在2013年度被2011级教育技术学专业学生借阅了6次，问卷调查结果是34人想借阅;而书目《Flash 8角色与动画短片设计技术精粹》(周国栋编著.人民邮电出版社，2007)，则借阅了4次，问卷结果是41人想借阅。因此，在进行个性化书目推荐时，需要从这些约简后的类目中分别挑选借阅最多的前几本书目，组合起来作为推荐内容，这样才能基本满足他们真正的需要。

表3 2011-2013级读者问卷调查结果统计表

表4 类目比较表

4 结语

总之，通过利用粗糙集理论中的知识依赖度约简方法挖掘某专业的核心知识集和各年级核心知识集，能够帮助我们发现学生当前需要的知识，使得个性化推荐服务能够根据学生知识结构变化进行预判，做到有的放矢，大大提高推荐的准确性和服务效果。通过与各院系学科体系结构进行比较，还能起到相互促进、相互发展的作用。当然，本文还有一些地方有待进行更深入的研究:如表4类目顺序变化的真正原因是什么，蕴含了哪些知识，如何把获得的知识更好地应用在数字化图书馆个性化服务上等等。

［1］薛琴荣，李响.基于数据挖掘技术的图书馆个性化借阅服务研究［J］.情报探索，2013，(4):110-113.

［2］李龙澍，王慧萍，徐怡.二进制可分辨矩阵的最小属性约简算法［J］.计算机技术与发展，2010，20(6):93-96，100.

［3］［4］［5］［6］［7］苗夺谦，李道国著.粗糙集理论、算法与应用［M］.北京:清华大学出版社，2008.

［8］淮北师范大学教育学院.教育技术学专业培养方案［EB/OL］.http://210.45.128.5/edu/pxjd/show.asp?id=25，2013-4-22.