思维导向的数据挖掘方法
2009-12-25陈学昌
陈学昌
[摘 要] 思维导向数据挖掘的对象是管理过程中的历史决策数据。思维导向数据挖掘所依赖的拓扑结构是心智概念图。思维导向数据挖掘分为两个阶段:计算关联主题簇群和计算最频繁思维路径。本文在心智图和概念图的基础上构造了心智概念图,并根据心智概念图提出了思维导向数据挖掘的算法。
[关键词] 思维导向数据挖掘;心智图;概念图;思维路径
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2009 . 21 . 005
[中图分类号]TP393 [文献标识码]A[文章编号]1673 - 0194(2009)21 - 0016- 04
1引 言
在生产管理过程中,人的主观因素对决策过程有决定性的影响。挖掘决策过程中决策主体的思维方式和主体已有的知识和经验对管理过程优化有重大的意义。思维导向数据挖掘针对管理过程中的历史决策数据进行计算分析,以最频繁思维路径表示主体所倾向的思维方式,以概念知识集表示主体已有的知识和经验,为判断决策主体在管理过程中所倾向的分析问题的观点角度和评价方式提供直观的依据。思维导向数据挖掘的基础是心智概念图。心智概念图由心智图和概念图发展而来。
2心智图
心智图(Mind Map),又称思维导图,最初是20世纪60年代英国人托尼·巴赞(Tony Buzan)创造的一种改进笔记的方法。心智图是一种辐射状的思维表达方式,现已发展为一种高级思维的认知工具。托尼·巴赞认为思维导图是对发散性思维的形象表达,符合人类思维的自然功能状态,有利于人们记忆和对未来事业的规划。心智图是一种非常有用的图形技术,将对发掘人类大脑潜力起到巨大的作用。
心智图采用了以中心主题为“辐射中心”,用“树状”知识结构图标明放射性思考的表现形式,运用线条、符号、词汇和图像,把一长串枯燥的信息变成彩色的、容易记忆的、有高度组织性的图,帮助人们改善思维,提高学习效率。心智图直观形象地表达了人脑的思维特征,同时也是一个打开大脑潜能的强有力的图解工具。
心智图有4个基本特征[1]:①注意的焦点清晰地集中在中央图形上。②主题的主干作为分枝从中央图形向四周放射。③分枝由一个关键的图形或写在产生联想的线条上面的关键词构成。不重要的话题也以分枝的形式表现出来,附在较高层次的分枝上。④各分枝形成一个连接的节点结构。
心智图勾画出了一个大脑的主题或领域的全景图,合理地将大量的数据集中在一起,展示了构建者的思维路线和思维方式,帮助构建者记忆、选择和决策。而在构建心智图的过程中,构建者的想象和联想成为各级主题连接的纽带,成为勾画心智图的关键。这种想象和联想的方式和路线因人而异,导致每个人的心智图各不相同。心智图有高度的扩展性,容易随着个体的思维方式变化而变化,稳定性差。心智图体现了人类个体不同的思维方式,展现了不同的思维路线,是一种思维路线的形象描述。
3概念图
概念图(Concept Map)是康乃尔大学的诺瓦克(J.D. Novak)博士根据奥苏贝尔(David P.Ausubel)的有意义学习理论提出的,是用来组织和表征知识的工具。它通常将有关某一主题的概念置于圆圈或方框之中,用连线连接相关的概念和命题,连线上标明二者的关系。
概念图有4个图表特征[2]:概念——感知到的事物的规则属性,通常用专有名词或符号标记;命题——两个概念之间通过某个连接词而形成的关系;交叉连接——表示不同知识领域概念之间的相互关系;层级结构——同一知识领域内或不同领域间的结构。
概念图不同于心智图,它由概念、命题、交叉连接和层级结构组成,表述个体的知识结构系统。概念图的主要组成是抽象的概念及概念之间的联系,没有形象的图片、鲜明的色彩。概念图较之心智图更具抽象性,适用于描述个体的知识体系结构。
概念图相对于心智图更趋近于结构平面化。心智图表述个体思维路线,具有明显的层次性;概念图表示的是知识网络,包含概念节点及概念节点之间的关系,具有网状结构。
概念图各节点之间的联系带有连接词,明显地表示了概念节点之间的逻辑关系,具有较强的严谨性;心智图主题节点之间没有严格的连接词,联系的形成来自联想和想象,动态性高。
4思维导向数据挖掘
当前,数据挖掘越来越多地借鉴心理学中关于认知心理学的观点,使得计算机挖掘数据、学习知识的过程更贴近人类的认识、学习和思维过程。原有的数据挖掘算法从数据本身出发,研究数据结构特点,极少考虑人的主观因素,挖掘结果客观性强,缺乏个性化特征。在目前个性化定制逐渐成为一种趋势的情况下,挖掘主体的主观思维特征和知识体系结构逐渐成为数据挖掘所要考虑的重要因素。心智图和概念图是刻画人类个体思维路线和知识体系结构的有力工具。基于心智图和概念图的数据挖掘将解决数据挖掘算法缺乏个性化特征的问题。思维导向的数据挖掘是在基于心智图和概念图所构成的拓扑结构基础上,对历史决策数据计算分析,描述决策主体对某一问题进行思考时所倾向的思维方式和相关知识经验的分析方法。
4.1 思维导向数据挖掘相关概念
(1)心智概念图
心智概念图是具有层次性的有向图,它以主题为节点,以表示主体联想和想象的弧连接下一级主题节点。心智概念图是思维导向数据挖掘所依赖的拓扑结构,是整个挖掘过程的基础。
(2)主题节点
主题节点在心智概念图中表示与某一活动相关的主题。主题节点根据主题粒度的不同分为不同的级别。主题节点包含两方面信息:主题自身信息(主题名称、类型和级别等)和相关概念知识集。
(3)主题关联度
主题关联度指上级主题与下级主题之间的关联程度,用以计算最大思维路径。
(4)主题相似度
主题相似度指同级主题之间的相似程度,用以计算相似主题簇群。
(5)思维路径
思维路径是指从最高级主题节点到最低级主题节点所遍历的各个节点,表示主体的思维路线。
(6)最频繁思维路径
最频繁思维路径是指所有的思维路径中,总的主题关联度最大的思维路径,表示主体最习惯的思维路线,即主体对某一问题最可能的思维方式。
(7)相关概念
相关概念是指每一条思维路径上所有主题节点的概念知识集中所有概念知识的集合。这个集合称为该思维路径的相关概念。
(8)最大相关概念
最大相关概念是指最大思维路径上所有主题节点的概念知识集中频繁出现的概念知识的集合。这个集合称为最大相关概念。
4.2 心智概念图的构成
基于心智图和概念图的心智概念图为有层次的有向图。节点为主题节点,包含主题信息和相关概念知识信息。主题节点根据所表示的主题粒度分为多级。上下级主题节点之间的弧表示主题间主体的想象和联系,以主题关联度表示。主题关联度越大,表示主体越容易由上级主题联想到下级主题,即表示主体所倾向的思维方式。随着主题粒度的不断细分,心智概念图的层级不断深入,相关主题构成了思维路径。心智概念图是以主题为节点,以上下级主题之间的关联关系和同级主题之间的相似关系为边,表示人类对某一问题思维的全息图景。
心智概念图的构成算法如下:
输入:主题列表Z、概念列表G,距离阈值δ
输出:心智概念图
算法:
Step 1:定义主题节点集B={bj},j = 1,2,…,m;bj包含主题信息和主题相关概念列表两个属性。
Step 2:取主题列表Z中主题zi,将其赋给bj的主题属性;遍历概念知识列表G,找出与zi相关的概念,将其放入bj的主题相关概念列表;j + 1,重复此步,直至主题列表中全部主题放入主题节点集中。
Step 3:计算主题节点集中同级两两主题节点间的距离。
Step 4: 计算得到距离与距离阈值δ相比较。如果距离大于距离阈值δ,主题节点集中相应同级两个主题节点的距离置为空;如果距离小于距离阈值δ,主题节点集中相应同级两个主题节点的距离置为计算得出的距离。
Step 5: 计算主题节点集中相邻两级两两主题节点间的关联度。
Step 6: 重复步骤3、4、5,直至所有主题节点放入心智概念图。
4.3 思维导向数据挖掘算法
心智概念图形成后,思维导向数据挖掘方法根据此种拓扑结构计算分析主体对问题的思维方式和思维过程中所关联的概念知识和已有经验。挖掘过程分为两个部分:计算关联主题簇群和计算最频繁思维路径。
(1)计算关联主题簇群
首先,对最高级主题进行聚类,聚合成概念强相关的主题簇群,然后,求取聚类后某一主题簇群中的主题与下一级主题之间的关联度,得出下一级的相关主题集。对相关主题集进行聚类,上级主题类与下级主题类之间的关联度为类内关联度的最大值。重复以上过程,直至主题节点粒度最小。
(2)计算最频繁思维路径
采用寻径算法找出主题簇群间的最短路径。
计算最频繁思维路径后,合并最频繁思维路径上主题节点的概念知识集,形成新的概念知识集合。
思维导向数据挖掘算法如下:
输入:心智概念图,主题粒度;
输出:最频繁思维路径P和概念知识集G。
算法:
Step 1:根据输入的主题粒度确定主题节点级别L;
Step 2:将所有级别为L的主题节点放入节点集G中;
Step 3:对节点G中的主题节点进行聚类,将相似的主题节点聚成主题簇群ci;
Step 4:将主题簇群放入簇群集C中;
Step 5:计算每一主题簇群ci中的所有主题节点在级别L + 1的主题节点的相关主题节点集ti;
Step 6:将相关主题节点集ti进行聚类,将相似的主题节点聚成主题簇群cj,ci与cj的关联度取类内关联度最大值;
Step 7:将主题簇群cj放入簇群集C中;
Step 8:L = L+1;
重复步骤5、6、7、8,直至达到主题节点最低层。
Step 9:计算簇群集C中总的主题节点关联度最大的路径作为最频繁思维路径P,计算最频繁思维路径P上所有主题节点的概念知识集中频繁出现的概念知识的并集D。
Step 10:输出最频繁思维路径P和概念知识集D。
5实 验
实验通过如表1主题节点表和表2主题节点间相关度表所示的模拟数据对上述算法加以说明。经过计算,最终得出两条最频繁思维路径{1,3,5}→{10,13}→{20}和{2,4,6,7}→{12,13}→{18},其中,{1,3,5}→{10,13}→{20}思维路径中,{1,3,5}、{10,13}和{20}表示主题簇群,在实际中代表相似的主题集合,整个思维路径表示由主题簇群{1,3,5}最容易联想到主题簇群{10,13}进而联想到主题簇群{20},其概念知识集为{1,2,3,6,7,8,11,12,15,16,17,
18,22,25}。思维路径{2,4,6,7}→{12,13}→{18}代表含义同上,其概念知识集为{4,6,9,10,11,12,14,15,
17,18,20,22,24,25}。
6小 结
思维导向数据挖掘以心智概念图为拓扑结构,计算分析主体对某些问题的决策过程数据,得出主体的思维方式和分析问题时常用的概念知识和经验,对知识管理和评价标准的制定具有重大意义。思维导向数据挖掘的关键在于心智概念图的建立。只有正确建立心智概念图,准确表示主体对问题的思维方式,才能使思维导向数据挖掘具有现实意义。
主要参考文献
[1]车伟坚,徐晓东.概念图与思维导图及其应用中的异同辨析[C]//第五届教育技术国际论坛论文集——教育技术的创新发展与服务.武汉:华中师范大学出版社,2006:357-361.
[2]沈建强.概念图与思维导图的比较[J].浙江现代教育技术,2007(4).
Thinking-oriented Data Mining Method
CHEN Xue-chang
( School of Economics and Management, University of Science and Technology Beijing, Beijing 100083,China)
Abstract: The object of thinking-oriented data mining is the decision-making data in the management process before. The thinking-oriented data mining relies on the topology which is called the mind-concept map. There are two phases in the thinking-oriented data mining: computing the clusters of related subjects and calculating the most frequent thinking path. In this paper, the mind-concept map is structured based on the mind map and the concept map, and according to the mind-concept map, the thinking-oriented data mining algorithms is put forward.
Key words: Thinking-oriented Data Mining; Mind Map; Concept Map; Thinking Path