大数据时代下概念格的多粒度构造研究
2019-12-10方芳
方芳
摘 要:概念格被认为是数据分析的有力工具,在诸多领域得到了研究和应用。随着大数据时代的发展需要,要求概念格的完整性,概念格的节点大小随着形式背景大小的增加呈指数增长。鉴于大数据时代构思概念格所面临的挑战,该文将粒计算融于概念格的研究中,在概念格的多粒度计算模型的基础上,通过概念格多粒度构造的渐进式算法,对概念格的概念进行分层次构造。同时,分析概念格多粒度构造与存储模型的验证及应用,来分析概念格构造的问题。
关键词:概念格 粒计算 粒化概念格
中图分类号:O153.1 文献标识码:A 文章编号:1672-3791(2019)10(c)-0013-02
概念格是基于对象和数据集中的属性之间的二元关系的概念层次结构。它是形式概念分析理论的核心数据结构,最初由德国的Wille R教授在1982年提出。概念格被认为是数据分析的有力工具,在诸多领域得到了研究和应用。目前概念格的构造研究主要有三大类: 批处理构造、渐进式构造和分布式构造。粒计算是指通过系统访问粒结构来解决问题,包括同一粒层中的粒子之间和不同粒层中的粒子之间的变换和推理。粒计算与概念格的融合研究,主要基于联合概念格的概念层次结构与粒计算的粒度结构之间的天然关系来建立数学模型,形式概念对应于粒子,概念层对应为粒层,整个概念格的Hasse图结构反映了其粒结构。
1 概念格的多粒度计算模型
在概念格的理论中,形式背景表示的数据就是不同概念及概念之间的关系。
2 概念格多粒度构造的渐进式算法
(1)概念格的多粒度构造有3种情况:①形式背景的变化带来的概念格的变化,需要对每个粒层的粒子重新计算;②概念格的粒结构自身的调整,需要在粒层间进行转换;③对完整概念格结构的展现,需要将若干个粒子概念格展现为一个完整概念格。对应的,此部分内容包含粒子构造算法、粒层转换算法和粒子合并算法3个部分内容。
(2)粒子构造算法是对包含形式背景变化的相应对象和属性的粒子格的计算。构造算法根据对象与属性的增加或删除,对每个粒层的粒子重新计算。可以证明,此种情况下不影响同粒层中粒子之间的偏序关系,也不影响不同粒层间粒子的映射关系。因此可以采用经典概念格渐进式构造算法来完成。
(3)粒层转换算法的实质是Zoom-in算子与Zoom-out 算子的算法实现,是该部分内容的核心工作。其中,Zoom-in算子用于产生新的粒层、Zoom-out算子用于由下层粒层重构上层粒层。需要通过转换算法进行粒层的构造发生在两种情形:产生新粒层、由下层粒层重构上层粒层,分别对应于Zoom-in算子和Zoom-out算子。
(4)粒子合并算法是将同粒度层的若干个粒子概念格合并为一个概念格,实质是对不同子格上概念间被割裂的前驱后继关系的重新增补。需要指出的是同粒度的粒子格之间的偏序关系在构造粒层时已经被计算和存储算法可以借助这些偏序关系来渐进式地实现粒子合并。粒子合并算法中,粒的合并与相交:设(X1,Y1)和(X2,Y2)是任意两个粒子,规定:
负载均衡算法的核心工作是根据粒子的节点规模来建立运算时间的概率分布函数,再结合运筹学中的规划问题进行求解,找出冲突概率最小的一个任务规划。
3 概念格多粒度构造与存储模型的验证及应用
(1)概念格对10年以上的民航气象数据进行分析。将民航气象数据库的数据清洗格式化后形成形式背景,然后对接到原型系统进行概念格的构造。从粗粒度开始,将发现的有意义的规则交给气象工作人员研究分析,逐步深化构造粒度,直到找到气象工作人员认可的精度为止。验证和探索系统的时间性能、粒度、知识发现之间的关系,如图1所示。
图1是由形式背景、概念格、本体知识库、知識库应用组成的形式概念分析模型。该模型从纵向看是形式背景、概念格、本体知识库、知识库应用,也就是概念格多粒度构造方面的研究;从横向看是形式概念分析、气象数据、服务应用,也就是根据气象数据来进行概念格粒计算出气象知识,并且应用到实践气象数据分析中。
(2)其中,形式背景是将多值概念图像背景转化为单值概念图像背景,以表达气象服务领域的内涵和外延的过程。内涵是气象数据中影响气象变化的因素,外延是气象数据在概念上的集合,这是概念格分析的基础,构成了概念结构主体;概念格是气象服务领域的概念进行整体集合,构成气象服务概念的核心数据结构,并通过根系气象服务中的层次关系、分级关系,为气象服务形式概念模型提供知识库映射,为概念格的逻辑关系提供描述方法;本体知识库就是在概念格里得到的对象或者关系运用开源软件将其工程化;知识库应用是开展形式概念分析和本体知识库设计的最终落脚点,将气象数据实时转化为气象知识,并根据民航气象要求提供服务。
4 结语
该文介绍了大数据集支撑下概念格的多粒度构造研究,包括概念格的多粒度计算模型、概念格多粒度构造的渐进式算法、概念格多粒度构造与存储模型的验证以及应用这3个方面的研究。通过该研究实现了构造和数据分析的同步,形成概念分析与粒计算的新融合。将以概念为基本粒子单元、整个概念格为粒架构的概念格粒计算的理论和模型,拓展到了以子概念格为基本粒子单元、整个概念格为复杂系统结构的概念格粒计算的理论和模型。这个拓展和深化符合人类从元知识系统到复杂知识系统的认识过程和一般规律,对认知科学和人工智能结合的研究有一定的参考作用。
参考文献
[1] 李粉宁,范敏,李金海.形式概念分析中面向对象粒概念的动态更新[J].山东大学学报:理学版,2019,54(4):105-115.
[2] 李金海,吴伟志.形式概念分析的粒计算方法及其研究展望[J].山东大学学报:理学版,2017,52(7):1-12.
[3] 曾望林,折延宏.面向对象的多粒度形式概念分析[J].计算机科学,2018,45(10):51-53,63.