面向泛在网络的知识融合模型设计
2017-05-17张前进
张前进
面向泛在网络的知识融合模型设计
张前进
(安徽国防科技职业学院信息工程系,安徽六安237011)
通过阐述泛在网络环境大数据的特征,分析了知识融合的概念,探讨了本体技术、语义网、数据挖掘等知识融合的相关技术.设计了由数据获取与知识表示、元知识构建、知识融合处理、衍生知识处理、知识服务等模块组成的知识融合模型,为知识融合在大数据环境下的智能应用研究与实践提供参考.
泛在网络;知识融合;元知识
泛在网络建立在传统传感网之上,是无所不包、无所不在、无所不能的网络[1].目前的研究热点物联网是泛在网络的物联阶段.泛在网络中包含了“人、机、物”三元世界在网络空间中相互交互、相互融合产生并通过下一代网络(Next Generation Network,NGN)进行传输的大数据.美国EMC(易安信)公司,在2014年发布的第7份数字宇宙报告中指出,2013年全球数据总量达到了4.4 ZB,2020年将达到44 ZB,7年间数据增长10倍,并且在下一个10年数据以每年40%的速率增长[2].泛在网络产生的大数据由“物”产生的结构化原始数据、人根据事物感知产生的非结构化数据、机器通过一定规则组织起来的半结构化数据组成.这些海量数据并不是静止不变的,而是以数据流的形式动态产生并按网络层次进行传递,数据中蕴含着丰富的知识资源.文献[2]中指出:2013年全球数据经过标记和分析有22%是有用的,预计到2020年这一比例将达到37%.另一方面,知识自身呈现出异质性、多元性和碎片化等特点,知识间缺少必要的关联性[3].将泛在网络中蕴含的海量的、碎片化、缺少关联的有用数据,转变为统一的知识库为用户提供服务是当前智慧制造、智慧城市建设中的研究热点.笔者从知识融合的概念出发,设计了一个面向泛在网络的知识融合模型.
1知识融合研究概述
1.1知识融合概念
知识融合属于边缘学科,是知识科学与信息融合的交叉学科[4].知识融合的概念目前还没有统一的定义,现在对于知识融合主流的认知与定义主要分为两类:第一类以基于KRAFT项目研究成果为代表,强调领域内为解决特定问题的知识库建设,即从分布式异构数据源中搜索和抽取相关知识,并转换为统一知识模式,构成统一知识库[5];第二类则强调知识融合的服务属性,认为在对分布式异构数据源进行抽取、转换、清洗、集成的过程即为新知识对象产生的过程,同时提供对知识对象的管理服务[6].
知识是建立在人们认知的基础上对数据的再加工,知识相对原始数据更加便于理解,是建立在信息学基础之上的,知识融合的过程也是信息运动的过程.知识通过网络传递的过程中,每一层在新的认知规则的驱动下对上一层知识进行融合并产生新的知识,其有用信息数量呈金字塔式的递减(见图1).笔者从服务的角度出发,认为知识融合是从分布式异构数据源中通过清洗、匹配、搜索、抽取、集成相关知识,转换成统一知识库,然后利用数据挖掘技术获取隐含的有用知识,同时通过优化知识结构和知识消费产生新知识,并提供知识管理服务.
1.2知识融合相关技术
知识融合的概念最初来自于数据融合,笔者设计的面向泛在网络的知识融合框架涉及到的相关技术主要有:本体技术、语义网、数据挖掘等.
1.2.1本体技术
本体的概念最初源自哲学存在论,是对客观世界客观存在的系统性描述[7].Neches认为:“本体定义了组成主题领域的词汇表的基本术语及其关系,以及结合这些术语和关系来定义词汇表外延的规则.”本体概念和技术被引入到特定领域后,用于描述领域知识间的关系,通过本体的语义描述有助于发现蕴含的有用知识.领域知识本体是对领域知识的抽象,其概念明确,通过本体的语义描述能力展现类和属性,还可以描述本体间错综复杂的关系.
1.2.2语义网
语义网是Web 3.0时代的显著特征之一,也是对未来智能网络的设想.本体在Web上的应用导致了语义Web的诞生,目的是解决Web上信息共享时的语义问题[8].语义网的核心是:通过为互联网上的文档添加能够被计算机理解的语义“元数据”,将文档数据进行碎片化处理,最终使得互联网变为一个大的关系型“数据库”,人与计算机的信息交流与检索变得更加有效率和价值.语义网的目的与知识融合不谋而合,都是解决基于异构数据源的信息共享问题.
1.2.3数据挖掘
数据挖掘是基于数据库理论、机器学习、人工智能的交叉学科,又称为数据库中的知识发现.数据挖掘是从海量数据中发现蕴含的,先前未知的有用信息的过程,是一种决策支持过程.从数据融合的角度看,数据挖掘也是基于关系型数据库对海量的企业数据进行自动化的分析、归纳、融合推理的过程.知识融合是对海量异构数据源进行格式统一,然后为用户提供有用知识的服务.有用知识的发现过程,即为数据挖掘过程.数据挖掘技术在知识融合中的应用可以更好的为用户提供个性化服务.特别是当前以个性化服务为显著特征的智慧城市、智慧制造等研究热点中的应用.
图1知识层次结构
2面向泛在网络的知识融合模型
泛在网络中除了有海量传感器不断地采集的结构化数据,还有Web和人产生的半结构化和非结构化数据,这些数据具有数据量大、异构、数据更新更快的特征.而这些大数据需要经过存储、处理、查询和分析后才能充分用于各类应用[9].大数据面临存储成本高昂、挖掘有用信息困难等诸多挑战.笔者基于云服务、数据挖掘的角度对泛在网络环境下的知识融合模型进行了设计.
2.1面向泛在网络的知识融合模型
定义一:基础知识是通过对客观存在的事物产生的数据进行加工后产生的能够为判断、决策和行动提供依据的一组信息.
定义二:衍生知识是在基础知识的基础上引入知识约束而生成的新的知识集合.
面向泛在网络的知识融合模型按照“数据产生-知识表示与存储-知识融合处理-衍生知识处理-知识服务-知识表示与存储”知识演变过程的思路设计.由数据获取与表示模块、元知识构建模块、融合处理模块、衍生知识处理模块、知识服务模块等5个模块组成(见图2).
2.2数据获取与知识表示
数据获取是知识融合的基石.泛在网络环境下知识融合的外部数据有数据源众多、数据源异构的特点,特别是传感网中不同传感器硬件产生的数据,导致产生的数据结构不统一,为数据获取增加了难度.模型设计的数据采集模块基于采用虚拟化技术构建的设施虚拟化平台.设施虚拟化平台实现了资源的虚拟化,一方面简化了对资源及资源管理的访问,另一方面屏蔽了底层硬件的兼容性问题.通过设施虚拟化平台采集到的是原始数据,经过数据转换接口形成统一的数据结构.
知识表示是在对外部世界观察和了解的基础上,用统一的数据结构进行描述的形式.根据知识反映活动的不同,可以将知识分为描述性知识和程序性知识[10].描述性知识是对事实的客观描述,可以使用数据表示;程序性知识描述的是问题解决的过程属于操作性知识,可以使用解释程序描述.通过知识表示形成知识库然后存储到云服务器上.
2.3元知识构建
元知识又称为知识的知识,是控制知识集.本体技术本身具有较好的概念层次结构,对逻辑推理的有效支持,使得基于本体的知识表示能从语义和知识层次上描述信息系统的概念模型,同时有利于知识共享、重用[11].通过基于本体的元知识表示可以构建具有统一结构的元知识集.泛在网络环境下基于本体技术构建的元知识集存在大量无效数据和无用数据,导致初始元知识集出现数据量过大问题.在知识融合前需要对知识规模进行降阶,通过引入语义熵实现对知识的混乱程度进行测度,形成有效元知识集,即通过元知识的有效性测度分析实现知识规模的降阶.有效元知识集的构建为进一步知识融合处理打下数据基础.
2.4融合处理
融合处理模块中融合算法以元知识构建模块构建的有效元知识集为数据输入,按照约定的融合规则进行比较、合并和协调融合运算,产生新的知识对象,完成衍生知识处理模块的解知识空间的构建.融合算法的选择是融合处理模块的关键部分.目前国内外常用的融合算法有:D-S证据理论、贝叶斯方法、模糊集理论等,其中:(1)D-S证据理论算法基于证据和可能性推理理论提出,该算法对不确定信息的处理有较好的效果.但以正确和完整的知识库为前提,该算法不适合海量规模的知识融合.(2)贝叶斯方法通过图形的方式自然的表达数据间的因果关系,该方法能够较好的发现数据间的潜在关系,能很好的解决不确定性和不完整性问题.与D-S证据理论一样该方法也不适合海量数据的规模,在实际应用中通常是两者结合使用.(3)模糊集理论,在知识融合的初始阶段往往需要一些先验知识,实际的应用中通常是与上述两种理论混合使用.融合算法的选择对于融合效果有较大的影响.
2.5衍生知识处理
图2知识融合模型
衍生知识处理模块根据知识约束集对解知识空间进行衍生知识处理形成衍生知识库.其中,知识约束集由用户需求产生.然后,对衍生知识库中的知识从两个流向进行处理,一条根据用户需求流向用户服务模块,向用户提供知识服务;一条经机器学习后产生新的知识,存储到本体库后,作为元知识集的输入数据.
2.6知识服务
知识融合最终的服务对象就是用户.知识服务模块通过用户服务接口,根据用户需求从知识库和衍生知识库中获取知识,然后通过数据挖掘技术为用户提供个性化的知识服务,同时通过用户服务接口将知识反馈评价结果作为新的知识源存入到知识库中,实现知识运动的闭环,达到知识再生的目的.
3结语
泛在网络是未来网络的发展方向.泛在网络环境下数据规模巨大,且数据异构,为实现更加智能与精准的知识服务增加了难度.笔者设计的知识融合模型,按照“数据获取与表示→融合处理→知识服务”过程设计了5个模块,实现了异构数据的统一表示及知识融合,为进一步提高大数据环境下个性化知识服务质量和知识融合在大数据环境下智能应用的研究和应用提供参考.未来将结合具体的应用,开展验证性研究.
[1]张平,苗杰,胡铮,等.泛在网络研究综述[J].北京邮电大学学报,2010,33(5):1-6.
[2]IDC.The Digital Universe of Opportunities:Rich Data and the Increasing Value of the Internet of Things[EB/OL].[2015-05-12]. http://www.emc.com/leadership/digital-universe/2014iview/executive-summary.htm.
[3]林海伦,王元卓,贾岩涛,等.面向网络大数据的知识融合方法综述[J].计算机学报,2016(39):1-26.
[4]唐晓波,魏巍.知识融合:大数据时代知识服务的增长点[J].图书馆学研究,2015(5):9-14.
[5]Preece A D,Hui K Y,Gray W A,et al.Designing for Scalability in a Knowledge Fusion System[J].Knowledge Based Systems,2001(3):173-179.
[6]Gray A,Marti P.Towards a Scalable Architecture for Knowledge Fusion[A].In:Proceedings of International Workshop on Infrastructure for Scalable Multi-Agent System[C].Barcelona,2000:279-292.
[7]Gruber T R.A Translation Approach to Portable Ontology Specifications[J].Knowledge Acquisition,1993,5(2):199-200.
[8]袁新娣.本体及本体在信息系统中的应用[J].科技广场,2006(7):76-78.
[9]李德仁,姚远,邵振锋.智慧城市中的大数据[J].武汉大学学报,2014,39(6):631-640.
[10]张二虎.论陈述性知识与程序性知识的关系[J].太原师范学院学报(社会科学版),2005,4(1):128-129.
[11]徐赐军,李爱平,刘雪梅.基于本体的知识融合框架[J].计算机辅助设计与图形学学报,2010,22(7):1230-1236.
On the Design of Knowledge Fusion Model Based on Ubiquitous Network
ZHANG Qian-jin
(Department of Information Engineering,Anhui Vocational College of Defense Technology, Lu'an 237011,Anhui,China)
By expounding the features of the big data that in ubiquitous network environment,it analyses the concept of knowledge fusion,and discusses the relative technologies of knowledge fusion,such as ontology technology,semantic web,data mining and so on.The knowledge fusion model is designed,which is composed of data acquisition and knowledge representation,meta knowledge construction,knowledge fusion processing,derivative knowledge processing,knowledge service and so on,and it provides a theoretical reference for the research and practice of intelligent application of knowledge fusion in big data environment.
ubiquitous network;knowledge fusion;meta-know ledge
TP393.0%
A%%%
1007-5348(2017)03-0021-04
(责任编辑:欧恺)
2016-12-20
2016年安徽省质量工程项目(2016zjjh012);2017年高校自然科学研究重点项目(KJ2017A782);安徽省高等职业教育创新发展行动计划(2015-2018年)软件技术骨干专业建设(皖教秘高〔2016〕27号).
张前进(1982-),男,河南商丘人,安徽国防科技职业学院信息工程系讲师,硕士;研究方向:计算机应用技术.