APP下载

粒理论及其应用于水利大数据分析的展望

2018-03-21岳兆新廖亨利陈彬彬

水利信息化 2018年1期
关键词:粒化粒度时空

岳兆新 ,廖亨利 ,陈彬彬

(1. 河海大学计算机与信息学院,江苏 南京 211100;2. 河海大学水文水资源学院,江苏 南京 210098)

0 引言

全国各级水利部门已经存贮入库的数据粗略估计已经达到 PB 级以上[1–2],如果物联网将所有水利对象都连入网络,则水利数据的量将远远超过一般认为的“大数据”量标准。

海量的数据中蕴含着水利发展与管理所需要的巨大价值,但水利数据具有的时空特征和自然与人类相互影响的特点,也给水利大数据的应用带来巨大挑战,迫切需要应用非传统的理论、方法与技术构造相应的应用解决方案。

粒计算(Granular computing)是以外部世界和用户为中心而建立的一种方法论,方便认识物理的和虚拟的世界。以此为基础,在求解问题的过程中,用粒度合适的“粒”作为处理对象,从而在保证求得满意解的前提下,提高解决问题的效率[3–4]。自 1979 年以来,众多学者对粒理论和模型进行了深入研究,并将其与人工智能、数据挖掘等技术相结合,取得了诸多成果[5–8]。近年来,研究人员提出结合粒理论可以更好地处理大数据相关问题,并梳理出两者之间的诸多切合点,为粒理论在大数据分析应用方面提供了指导[9–11]。因此,在水利大数据背景下,如何结合粒理论,实现水利大数据场景数据融合,以及在多模态数据场景下,根据不同问题的“粒度”大小,寻求合适的解决方法,从而降低复杂多时空尺度问题求解的时间和计算复杂度,是讨论的重点。

1 粒理论

1.1 概述

20 世纪 90 年代,Zadeh 和 Lin 教授首次提出粒度计算的概念,并将其用于模糊的、不完整的和海量信息的处理或问题求解。从哲学的角度看,人类在认知、度量、形成概念和推理时,都离不开粒度。Zadeh 教授[12]指出粒计算是模糊信息粒化、粗糙集理论和区间计算的超集,是粒数学的子集。Yao教授认为粒计算是使用有关“粒度”的所有理论、方法、技术和工具解决相关问题,是一种方法论而不是一个具体的模型或方法,涉及的具体模型主要有粗糙集、商空间、云模型等。此外,粒计算是当前智能信息处理领域中一种新的计算范式,并与大数据挖掘具有高度契合性。Chen 等[13]曾提出将粒计算作为大数据分析挖掘的一种重要方法。

1.2 粒与粒化

粒是粒计算的基本要素,是依照不可区分性和相似性及功能标签聚集到一起的论域中的子集、类、簇、元素。粒计算的算法步骤为:首先确定具体模型,然后再进行信息粒化。粒的解释是粒构造的语义方面,需要回答“为什么两个对象能放在一个粒里”。众多研究人员对粒及其语义问题进行了比较系统的研究,比如复杂数据的粒化机理、粒的类型分类等[14–17]。

信息粒化分为构建和分解两部分。构建主要考虑如何将更细的或底层的粒合并成为较粗或上层的粒;分解则相反,是将较粗的或上层的粒分解成更细的低层的粒。信息粒化的目的是从原始数据中得到合适于问题的粒。数据粒化算法主要分为两步:1)找到最相容的 2 个粒,并合成 1 个;2)一直重复达到满意的抽象标准。

粒的相容程度的定义很关键,即满足什么条件的对象可以划分到同一个粒内。这个相容程度可以是几何的、密度的或者是相似性(形状和方向)的。

1.3 应用“粒”求解问题

粒计算作为人工智能研究领域中的一种新理念方法,包含了与粒度相关的理论、方法和技术,可作为有效的工具挖掘处理海量、不确定性信息,求解复杂问题[18–19]。粒计算的核心在于合适粒度的选择,目的在于降低问题求解的复杂度。粒计算作为一种方法论,目的在于有效地建立基于外部世界、以用户为中心的概念,从而方便认识物理的和虚拟的世界。传统的数据挖掘技术是对最细粒度的原始数据分析,选择与问题相适应的粒度空间可提升求解的质量和时空效率[20–21]。

问题本身及背景决定选择何种粒度,合适粒度的选择对粒计算算法设计具有重要影响。自粒计算提出以来,大量研究人员对粒计算智能相关模型、数据挖掘应用等方面进行了比较深入的研究。根据运用“粒”求解问题时对粒度层次的使用特征,相关研究主要包括以下几点:

1)粒度空间优化。粒度空间优化是指针对问题性质和计算的约束条件(时间、计算资源和通信带宽等),在问题数据的多粒度表示空间中选择合适的粒层。合适粒度的选择可能基于问题本身也可能从问题背景推测。这个由问题本身和背景决定的满意解的粒度,简称为问题粒度。最后计算得出的解本身也有粒度,从问题粒度到解的粒度存在着映射关系 MPS,解的粒度应该等于问题粒度或者比问题粒度更细。而要得到特定粒度上的解,在求解过程中,计算对象就应该选择在合适的粒度层次上。将计算过程中所处理的信息粒的粒度简称为计算粒度。从解的粒度到计算粒度,存在着映射关系 MSC,这个关系是由信息的粒化模型和基于信息粒的问题求解模型二者共同决定的。利用 MPS 和MSC,可以得出从问题粒度到计算粒度的映射关系MPC。粒度空间优化的实质就是求得映射 MPC。粒度空间优化结构图如图 1 所示。

图 1 粒度空间优化结构图

2)粒度层次切换。粒度层次切换是指在各个不同的粒层上求得的问题的解,研究的重点是在相邻粒层上解的快速重构方法,如图 2 所示。图 2 中,G′(V′,E′) 和G(V,E) 是 2 个粒层,f是从G(V,E) 到G′(V′,E′) 的映射关系,S′是问题Problem在粒层G′ 上的解,S是问题Problem在粒层G上的解,函数h( ) 表示求解过程。已知粒层映射和问题,在较粗粒层G′ 上问题的解可以从 2 种途径算得,其中一种先找出问题Problem和粒层关系f所决定的不同粒层上解之间的映射关系f′ ,再算得S′=f′(S);另外一种是S′=h′(Problem(G′)),该方法是在G′上直接“从头求解”。因为G′ 和G之间拥有相对简单的数学逻辑关系,所以可以通过S′=f′(S) 重构出解,这样比从头求解效率更高。这个问题的关键是如何求得f′。

3)多粒度联合计算。类似于大数据“分而治之”的思想,多粒度联合计算,是把一个任务分解为多个子任务来求解,即将复杂问题的解分配到数据表示的多个粒度层次上计算,且将各个粒度层次上相对简单的功能协同起来,最终完成求解。

图 2 不同粒层求解结构图

2 粒理论在水利大数据分析中的应用思路

近年来,各国学者对粒理论在大数据中的应用进行了比较深入的研究,并将其成功应用到众多领域。Ye 等[22]基于粒计算思想,提出一种分层抽样方法,选择具有高维数据特征的随机森林子空间,实现数据和特征空间的粒化,完成大规模数据的聚类分析。实验结果表明该方法性能优于 SVM(支持向量机),随机森林的 4 种变体(RF,ERT,enrich-RF,oblique-RF),以及最近邻(NN)算法。Chang等[23]基于粒计算思想,提出一种决策树的大数据分解方法,通过在每个分解的数据粒上分别学习 SVM分类器,极大提高了 SVM 的学习效率,并提高了测试精度。Liang 等[24]提出一种针对大规模数据集的高效粗糙特征选择算法,将大数据集拆分为多个易于处理的信息粒,通过求解和融合每个信息粒,实现大数据集的特征有效选择。实验结果表明,该算法对大型数据集具有一定的可行性和有效性。梁吉业等[10]针对大数据挖掘任务,对数据粒化、多粒度模式发现与融合、多粒度/跨粒度推理等方面取得的一些进展进行梳理和剖析,并针对天文和微博2 个数据挖掘典型示范应用领域的初步研究进行了总结,以期为大数据挖掘领域的研究做出有益的探索。梁吉业等[11]针对大数据呈现的大规模性、多模态性及快速增长性等特征,分析论述了以粒计算应对大数据挖掘挑战的可行性,认为粒计算有望为大数据挖掘提供一条极具前途的崭新途径。徐计等[16]综述了大数据处理的研究现状,根据运用粒计算方法解决问题的不同特征,归纳了粒计算的 3 种基本模式,讨论粒计算应用于大数据处理的可行性与优势,并探讨在大数据的粒计算处理框架中需要解决的各个关键问题。

综上所述,当前应用粒计算思想求解大数据问题还处于探索阶段,比较成功的还是结合粗糙集、模糊理论等软计算工具,用于模糊的、不完整的和海量信息的处理,应用领域也主要集中在图像处理、故障诊断、互联网等领域,其他领域尤其是水利领域目前还没有发现相关研究成果。

随着物联网、云计算、大数据等信息技术的发展,一些学者发现大数据挖掘的计算框架与粒计算所蕴含的计算范式具有高度契合性,并认为粒计算将为大数据挖掘提供一条崭新途径。此外,新一代信息技术的发展应用,全面拓展了水利信息的时空尺度和要素类型,使得水利大数据具有显著的时空数据集合的众多特点,为在水利领域实现大数据技术的应用提供了数据基础。因此,面对水利大数据分析的问题,结合粒理论,构建数据场景,将在未来的水利大数据分析中起到重要作用[25–27]。粒理论在水利大数据分析中的应用主要包括以下方面:

1)水利场景数据粒化分析。在多模态水利大数据场景下,根据不同问题的“粒度”大小,寻求合适的解决方法,从而降低复杂多时空尺度问题求解的时间和计算复杂度。例如,水文时间序列分析,首先对原始水文时间序列进行模糊粒化处理,得到原始数据变化的最小值、平均值和最大值等 3 个参数;其次,将 3 个参数分别作为 SVM 的输入进行训练学习,优化网络;最后,利用训练后的 SVM 对未来的变化趋势进行预测,该方法将样本空间划分为多个粒(子空间),简化了样本规模,降低了时间复杂度。

2)多粒度水利场景数据融合。不同数据源的数据蕴含着数据样本中不同的结构信息,当描述同一数据样本的不同角度或来源信息一起使用时,数据样本之间蕴含的结构信息将更加丰富,如何实现多源异构高维数据融合一直是研究的难点问题。例如,选定的水文场景既包括降水、径流、蒸发、社会经济等结构化数据,又包括 XML 文档、遥感、雷达、DEM、视频等半结构化或非结构化数据,如何实现场景下的多模态数据融合是场景分析的关键。本研究考虑引入粒理论,以水文场景中各个不同的数据源作为各自粒层,采用聚类方法完成多个粒结构(各自数据源)的聚类,结合证据理论,借鉴一种乐观融合和悲观融合之间的多粒度融合算法[28],实现多粒度场景数据融合,完成多源异构条件下的结构化、半结构化和非结构化数据之间的多粒度信息融合处理。

3)多粒度时空水利数据挖掘。不同时间和空间粒度的选择对时空数据挖掘模式具有重要影响[29]。时空数据挖掘可以依据“问题”的不同,选择在不同的粒度层面发现最感兴趣的模式。例如,中长期径流预报中,降水和径流等预报因子时间尺度的选择可以在旬、月、季等不同的粒度层面分别展开,并在各个粒度选择均值、最大或最小值等感兴趣的模式进行分析,从而实现不同时空粒度空间的挖掘分析,提高预测的准确性。

3 结语

水利大数据具有海量、模糊、不确定等时空数据集合的众多特点。鉴于时空大数据挖掘的计算框架与粒计算所蕴含计算范式的高度契合性,提出了粒理论在水利大数据分析中的一些应用思路,包括水利数据场景下的信息粒化分析、多粒度水利场景数据融合及多粒度水利时空数据挖掘等 3 个方面,试图结合粒理论,为实现水利大数据场景数据融合,以及在多模态数据场景下,根据不同问题的“粒度”大小,寻求合适的解决方法,从而降低复杂多时空尺度水利问题求解的时间和计算复杂度,供构造水利领域大数据应用的方法与技术体系参考。

[1] 水利部信息化工作领导小组办公室. 2015 年度中国水利信息化发展报告[M]. 北京:中国水利水电出版社,2015.

[2] 中华人民共和国水利部. 第一次全国水利普查公报[M].北京:中国水利水电出版社,2013.

[3] YAO Y Y. Granular Computing: Basic Issues and Possible Solutions[M]. Atlantic: Association for Intelligent Machinery Press, 2000: 186-189.

[4] BARGIELA A, PEDRYCZ W. Granular Computing: an Introduction[M]. Boston: Kluwer Academic Publishers,2002: 309-328.

[5] SKOWRON A, STEPANIUK J. Information granules: Towards foundations of granular computing[J]. International Journal of Intelligent Systems, 2001, 16 (1): 57-85.

[6] YAO Y Y. Perspectives of granular computing[G]//Proceedings of 2005 IEEE International Conference on Granular Computing.Beijing: IEEE, 2005: 85-90.

[7] PEDRYCZ W, SKOWRON A, KREINOVICH V. Handbook of Granular Computing[M]. New York: Wiley, 2008.

[8] YAO Y Y. Granular computing: Past, present and future[G]//Proceedings of 2008 IEEE International Conference on Granular Computing. Hangzhou: IEEE, 2008: 80-85.

[9] XU J, WANG G Y, YU H. Review of big data processing based on granular computing[J]. Chinese Journal of Computers,2015, 38 (8): 1497-1517.

[10] 梁吉业,钱宇华,李德玉,等. 面向大数据的粒计算理论与方法研究进展[J]. 大数据,2016,2 (4): 13-23.

[11] 梁吉业,钱宇华,李德玉,等. 大数据挖掘的粒计算理论与方法[J]. 中国科学:信息科学,2015,45 (11):1355-1369.

[12] ZADEH L A. Fuzzy logic, neural networks, and soft computing[J]. Communications of the ACM, 1994, 37 (3): 77-85.

[13] CHEN C L P, ZHANG C Y. Data-intensive applications,challenges, techniques and technologies: A survey on big data[J]. Information Sciences, 2014, 275 (11): 314-347.

[14] 苗夺谦,王国胤,刘清,等. 粒计算:过去、现在与展望[M]. 北京:科学出版社,2007: 6-12.

[15] 王国胤,张清华,胡军. 粒计算研究综述[J]. 智能系统学报,2007,2 (6): 8-26.

[16] 徐计,王国胤,于洪. 基于粒计算的大数据处理[J]. 计算机学报,2015 (8): 1497-1517.

[17] 孟军. 相容粒计算模型及其数据挖掘研究[D]. 大连:大连理工大学计算机科学与技术学院,2012.

[18] SKOWRON A, STEPANIUK J. Information granules:Towards foundations of granular computing[J]. International Journal of Intelligent Systems, 2001, 16 (1): 57-85.

[19] LIN T Y. Granular computing I: The concept of granulation and its formal model[J]. International Journal of Granular Computing, Rough Sets and Intelligent Systems, 2009, 1 (1):21-42.

[20] YAO Y Y. A triarchic theory of granular computing[J].Granular Computing, 2016, 1 (2): 145-157.

[21] PEDRYCZ W. Granular Computing: Analysis and Design of Intelligent Systems[M]. Boca Raton, CRC Press, 2013.

[22] YE Y, WU Q, HUANG J Z, et al. Stratified sampling for feature subspace selection in random forests for high dimensional data[J]. Pattern Recognition, 2013, 46 (3):769-787.

[23] CHANG F, GUOC Y, LIN X R, et al. Tree decomposition for large-scale SVM problems[J]. Journal of Machine Learning Research, 2010, 11 (10): 2935-2972.

[24] LIANG J Y, WANG F, DANG C Y, et al. An efficient rough feature selection algorithm with a multi-granulation view[J].International Journal of Approximate Reasoning, 2012, 53 (6):912-926.

[25] AI P, YUE Z X. A framework for processing water resources big data and application[J]. Applied Mechanics and Materials,2014, 519-520: 3-8.

[26] AI P, XIONG C S, LIAO H L, et al. A method for water resources object identification and encoding based on EPC[G]//Proceedings of International Symposium on Distributed Computing and Applications for Business Engineering and Science. Guiyang: IEEE, 2015: 264-267.

[27] AI P, YUE Z X, YUAN D B, et al. A scene analysis model for water resources Big Data[G]// Proceedings of International Symposium on Distributed Computing and Applications for Business Engineering and Science. Guiyang: IEEE, 2016:280-283.

[28] LIN G P, LIANG J Y, QIAN Y H, et al. A fuzzy multigranulation decision-theoretic approach to multi-source fuzzy information systems[J]. Knowledge-based Systems, 2016, 91:102-113.

[29] 刘大有,陈慧灵,齐红,等. 时空数据挖掘研究进展[J].计算机研究与发展,2013,50 (2): 225-239.

猜你喜欢

粒化粒度时空
水稻丸粒化种子直播方法研究
跨越时空的相遇
粉末粒度对纯Re坯显微组织与力学性能的影响
镜中的时空穿梭
高丹草种子丸粒化配方的筛选
琯溪蜜柚汁胞粒化影响因素及防控技术综述
玩一次时空大“穿越”
基于粒度矩阵的程度多粒度粗糙集粒度约简
双粒度混合烧结矿颗粒填充床压降实验
时空之门