基于关联数据的知识发现技术述评
2016-11-18崔家旺李春旺
崔家旺 李春旺
摘 要:文章通过对CLOD、KIELD等关联数据相关会议、谷歌学术、IEEE和Springer等数据库基于关联数据的知识发现技术文献的调研与整理,分析和总结了基于关联数据的知识发现技术发展现状和发展趋势。研究认为:根据对关联数据的挖掘层次的不同,将检索结果分为间接挖掘、直接挖掘和链接挖掘三类;总体而言,基于关联数据的知识发现研究仍处于探索阶段,相关研究较少且缺乏统一框架;基于关联数据的知识发现统一框架的构建以及针对关联数据知识发现技术的完善将是未来研究的重点。
关键词:关联数据;知识发现;述评
中图分类号: G302 文献标识码: A DOI:10.11968/tsyqb.1003-6938.2016103
Abstract This paper discusses the current status and future directions of the related studies of knowledge discovery technology based on linked data。By Using IEEE,Springer,Google Scholar and other scholarly search engines and collects papers about this subject from related conferences,such as COLD and KIELD,this paper makes a comprehensive study in this subject of research and classifies related papers according to the different knowledge discovery methods. In general,knowledge discovery based on linked data is still in the exploratory stage. There still exists some problems in the knowledge discovery based on linked data, such as the quality problem of linked data;and there is no unified framework for those methods. Getting more convenient knowledge discovery methods based on linked data and building a unified framework for them will be the focus of future research.
Key words linked data; knowledge discovery; review
海量数据与知识贫乏导致了数据挖掘和知识发现研究的出现。知识发现(Knowledge Discovery)源于人工智能和机器学习,是机器学习、 人工智能、数据库和知识库等众多学科相互融合而形成的一门适应性强的新兴交叉学科。知识是数据元素间的关系或模式,知识发现就是从大量数据中,特别是从异构的数据平台中提取出隐含的、未知的、潜在有用的并能被人们理解的规则与模式,并检查趋势、发掘出事实的高级处理过程[1]。当前有关知识发现研究主要集中在:粗糙集理论;概念格和形式概念分析;基于分类、关联规则、领域知识和图模型等领域[2]。
关联数据的发布与应用为知识发现提供了一个新契机,特别是关联数据预先建立了大量权威、准确的关联关系,每个数据对象包括多种属性和特征,从而为实现跨学科领域、跨数据源的精准知识发现提供有效支撑,使得基于关联数据的知识发现成为研究热点。
1 研究现状
1.1 知识发现相关技术
目前的知识发现研究主要有两大分支,即基于数据库的知识发现与基于文献的知识发现。数据库知识发现主要针对结构化数据, 基于文献的知识发现主要针对非结构化数据。知识发现的方法有统计方法、机器学习方法与神经计算方法。统计方法除了回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费舍尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)及探索性分析(主成分分析、相关分析)等方法以外,还包括模糊集方法、支持向量机方法、粗糙集等方法。常用的机器学习方法包括规则归纳、决策树、范例推理、遗传算法等。常用的神经计算方法包括自组织映射网络、反传网络等[3]。
基于文献的知识发现按照文献的相关性分为基于相关文献的知识发现、基于非相关文献的知识发现和基于全文献的知识发现[4]。由于计算机直接从非相关文献中发现新知识是非常困难的,应由计算机首先把文献中的知识单元抽取出来,构成知识库,然后再在知识库里进行发现。语义网技术通过给文档添加形式化语义信息的方式解决了计算机理解文献的问题,而关联数据是由W3C推荐的语义网最佳实践。关联数据将分散领域中的数据通过结构化描述以及数据之间的链接关联起来,形成全球巨大数据空间,即数据网络。这种数据网络资源环境为信息的最大限度共享、重用以及发行提供了保障,也为人们的知识发现活动提供了新的机遇[5]。
1.2 基于关联数据的知识发现研究进展
以“关联数据”“知识发现”等为关键词在CNKI数据库中检索发现,国内基于关联数据的知识发现研究仍处于起步阶段,相关研究数量较少且多属于理论模型研究。如李楠[6]、李俊[7]等分别总结了基于关联数据的数据挖掘相关研究,提出了基于关联数据的知识发现模型;高劲松等[8]在关联数据的知识发现过程金字塔的基础上提出了基于关联数据的知识发现模型;宋丽娜[9]提出了关联数据环境下基于知识地图的隐形知识发现模型;刘龙[10]提出了基于关联数据的知识发现过程模型。
以“consuming linked data”“application of linked data”“Knowledge Discovery”等为关键词在谷歌学术、ScienceDirect和Springer等学术搜索引擎上进行主题检索,同时总结了COLD、KIELD和LDOW等关联数据会议中有关知识发现的文献。相较国内研究,国外基于关联数据的知识发现方法更为丰富且付诸实践。根据对关联数据挖掘层次的区别,本文将基于关联数据的知识发现技术归结为3类:(1)间接挖掘,即通过格式转化将关联数据转化或特征提取将关联数据转化为适合传统数据挖掘算法的格式,如Venkata Narasimha等提出的Liddm关联数据挖掘系统[11]以及Heiko Paulheim等提出的FeGeLOD特征提取器[12]为代表;(2)直接挖掘,利用事务构建、归纳逻辑程序设计(Inductive logic programming,简称ILP)等方法直接对RDF数据进行处理,如Reza Ramezani等提出的SWApriori[13]和Gabin Personeni等提出的ILP学习方法[14]是该类的典型研究;(3)链接挖掘,即对关联数据的属性链和节点等结构进行挖掘。如Ilaria Tiddi等提出的Dedalo遍历系统[15-16]、Xiaowei Jiang等提出的频繁子图挖掘方法[17]及Kang Li等提出的深度学习方法[18]最具代表性。
2 间接挖掘
数据挖掘是基于数据库知识发现的核心步骤之一,传统数据挖掘技术主要针对关系型数据库中的数据,而根据关联数据的定义,关联数据是采用RDF数据模型并利用URI命名数据实体的数据集合,因此如何将传统的数据挖掘方法应用于关联数据成为了一个新的研究热点。间接挖掘的基本原理是针对不适用于传统挖掘算法的关联数据,通过特征提取或格式转化的方式从关联数据中提取出数值型特征,实现利用传统数据挖掘算法对关联数据进行挖掘分析的目标。
2.1 格式转化
Venkata Narasimha等提出的Liddm[11]是一个可以与关联数据有效交互的关联数据挖掘模型,它支持从不同的数据源检索、整合数据,为统计分析调整数据格式并支持数据挖掘及成果的可视化。Liddm利用SPARQL查询从关联数据云中获取数据,通过数据预处理、数据输入准备和数据挖掘等步骤进行关联数据挖掘。其中,数据查询结果以包含若干行和列的表格数据表示,行表示检索到的实例,列表示该实例一个属性的值。
数据预处理包含数据整合、数据过滤和数据分割等三个步骤。其中,数据整合是指将从多个关联数据云中多个数据源中检索的数据进行整合,整合基于每个数据源的共有关联;数据过滤指通过人工筛选掉不符合数据挖掘需求的实例;数据分割指将不同列数据分为不同的类。在完成了数据的查询和预处理后,Liddm通过数据输入准备步骤完成数据格式的转化。以Weka为例,Weka支持的数据输入格式为ARFF(Artribute-Relation File Format,属性-关联文件格式),因此可将关联名和属性转化为ARFF格式后进行挖掘。
类似的研究还包括Petar Ristoski等提出的基于RapidMiner的关联数据挖掘方法[19]。与LiDDM相似,RapidMiner也需要终端用户定义合适的SPARQL查询来获取所需数据,并将数据转化为表格数据后进行挖掘。
2.2 特征提取
Heiko Paulheim等基于关联数据的特性构建了关联数据特征提取器FeGeLOD[12],它可以从关联数据中提取数值型或二值数据特征并利用这些特征进行数据挖掘。FeGeLOD在Weka的基础上,针对LOD提出了一系列不同的提取特征方法。特征的提取包含实体识别、实际特征构建、特征选择等三个步骤,其中第二步实际特征构建是构建关联数据挖掘特征的核心步骤。目前FeGeLOD采取了6种不同的特征构建策略。第一个构造器为一个实体的每个数据属性创建了一个特征。数据属性即元素的值,如城市的名称或城市的人口数量;第二个构造器仅针对实体本身,即实体有谓词rdf:type的语句,一个实体可能属于多个类型或目录。其余四个构造器考虑了实体与其他实体的关联数。
2.3 技术分析
截至2016年9月7日,LOD中互相关联的关联数据集已达9960个,拥有超过1490亿个三元组,这些大量的结构化、语义关联的数据具有巨大的潜在价值。间接挖掘方法有效利用了关联数据的关联发现和数据整合的特性,通过数据集之间的关联帮助人们更为准确、高效的发现和获取相关数据。
然而,间接挖掘也存在着一些弊端,首先,间接挖掘需要用户构建数据查询,而构建关联数据的查询需要用户事先对关联数据集、SPARQL查询以及属性充分了解;其次,传统挖掘方法往往只针对特定类型的知识,如LiDDM仅支持关联规则的发现,由于传统数据挖掘算法本身的局限性,间接挖掘的方式未能深入挖掘关联数据内数据对象间的关联(links)。
3 直接挖掘
相对于间接挖掘,本文将可以直接对关联数据进行处理的挖掘方法定义为关联数据的直接挖掘。值得注意的是,虽然关联数据采用了RDF数据模型,但由于关联数据的节点都是唯一的,因此并非所有RDF挖掘方法都适用于关联数据。如图核方法[20-21]适用于多图的关联规则发现,而关联数据的挖掘属于Single-graph型模式挖掘型问题。直接挖掘的典型研究包括事务(transactions)构建和归纳逻辑程序设计(Inductive Logic Programming,简称ILP)等。
3.1 事务构建
ARM(Association Rule Mining,关联规则挖掘)等传统的数据挖掘算法试图寻找频繁项集(Large Itemsets),并在此基础上生成有趣的关联规则。在关联数据中进行关联规则的挖掘存在着以下挑战:数据结构的异构性、关联数据不存在准确定义的事务、实体间的关系以及终端用户在挖掘过程中的角色。为从语义网数据中构建事务,Ziawasch Abedjan等提出利用主语、谓词和对象三元组中的一项组成事务,用其余两项的值作为事务项,并从这些事务中进行关联规则的挖掘[22](见表1)。
在Ziawasch Abedjan的研究基础上,MA Nematbakhsh 和Reza Ramezani提出了SWApriori挖掘方法,SWApriori以三元组的方式从语义网数据集中获取数据并直接从中自动发现关联规则[13,23]。SWApriori的基本原理是在输入数据的实例层创建频繁二项集并将其用于后续挖掘,这些频繁二项集由实体和关联组成(实体对应对象,关联对应谓词)。
SWApriori的挖掘流程为:首先遍历统计所有对象出现的频次,选择出现在三元组中出现频次大于一定次数(人工设定的最小置信度)的高频对象,然后对这些高频对象两两组合直到产生所有长度为二的可能对象集合。如假设Saraee、Nematbakhsh 和IUT为高频对象,则有{Saraee,Nematbakhsh}、{Saraee,IUT}、{Nematbakhsh,IUT}等组合。随后,算法核实这两个对象(及对应的两个关系)是否被多个公共的主语所参引。因此,主语的数量是最重要的因素,而它们的值则不被考虑。频繁二项集合构建完成后,采取与Apriori相似的方法生成频繁多项集和关联规则。
假如最终挖掘到的频繁多项集为{(Nematbakhsh + Knows)、 (IUT + Student at)、 (M.Sc. + Degree)},其中Nematbakhsh、IUT和M.Sc是高频对象,Knows、Student at和Degree是其分别对应的关系,生成的关联规则为:
(1)Student at(IUT),Knows(Nematbakhsh)→Degree (M.Sc.)
(2)Knows(Nematbakhsh),Degree(M.Sc.)→Student at(IUT)
(3)Student at(IUT),Degree(M.Sc.)→Knows(Nematbakhsh)
其中第一条规则表示,一个在IUT学习且知道Nematbakhsh的人一般具有M.Sc学位。
3.2 归纳逻辑程序设计
为解决LOD中大量生物医学资源缺乏有效挖掘方法的问题,Gabin Personeni等提出利用归纳逻辑程序设计方法对关联数据进行学习[14]。ILP隶属于机器学习与逻辑程序设计的交叉领域,它借助逻辑程序设计已有的理论与方法,在一阶逻辑的框架下,试图克服传统机器学习存在的问题,建立新的机器学习体系,使机器更好地模拟人的思维。ILP想要完成的任务是,让计算机考察具体的事例,然后概括出能够刻画这些事例特有属性的一般性规则。ILP允许我们从观察中学习概念的定义,如给定正例集(E+)和负例集(E-)和背景知识(B),目标是生成一系列具有一致性(Y∪B覆盖或解释每个正例集)和完备性(Y∩B不覆盖任何负例集)的规则或理论T。使用ILP进行基于关联数据的知识发现具有以下优势:首先,ILP的输入格式与关联数据格式相近;其次,领域知识可以添加到输入数据中并被ILP所学习。
基于ILP的关联数据挖掘流程分为基于专家的领域数据选择、数据整合以及基于ILP的关联数据挖掘等步骤。首先依靠领域专家建立了实体关系(entity-relationship,简称ER)模型,确定了待挖掘数据。然后建立LOD与该ER模型之间的映射并利用SPQRQL查询获取数据,数据存储于建立在实体关系模型基础上的关系数据库中。完成数据的准备工作后,作者利用Aleph(A Learning Engine for Proposing Hypotheses,ILP学习引擎)完成了ILP挖掘过程。
3.3 技术分析
直接挖掘的优点除了包括利用关联数据的特点更准确、更有效、更便捷的发现相关数据外,与间接挖掘相比,直接挖掘方法针对关联数据自身的特点对已有挖掘方法进行了改进和重构,使得这些方法更具有更强的易用性和可拓展性。
直接挖掘方法的缺点与间接挖掘相似,间接挖掘算法可以视为调整关联数据以适应传统挖掘算法,而直接挖掘可以视为改进传统挖掘算法以适应关联数据,就本质而言,它们的研究主题都是关联数据的数据资源,并对关联数据的另一重要主题——关联数据的链接则未做深入的研究。
4 链接挖掘
图是由若干给定的点及连接两点的线所构成的图形,这种图形通常用来描述某些事务之间的某种特定关系,用点代表事务,用连接两点的线表示相应两个事务间具有这种关系。关联数据是一个由RDF三元组构成的有向图,图中的点对应每个资源、边对应每个属性(链接)。因此,本文将针对关联数据的链接这一研究主题的挖掘方法定义为链接挖掘。由于图的搜索空间呈指数级增长,图的挖掘是一项计算量繁重的任务,如何选择有效的挖掘策略对于能否从关联数据挖掘出有效知识的质量至关重要。根据挖掘方法的区别,我们将链接挖掘归结为启发式关联遍历挖掘、频繁子图挖掘、深度学习等三种类型并分别进行介绍。
4.1 关联遍历检索
Ilaria Tiddi等提出了Dedalo启发式关联数据遍历挖掘系统,Dedalo可以迭代检索关联数据寻找实体的共性(即共同路径)从而生成解释[15-16]。Dedalo的基本思想在于:给定一定数量的实体,在关联数据中寻找这些实体存在共同的路径(属性链,表示为w→ι)及终值(属性链终端的特定实体,表示为ei),这些路径加终值便构成一条簇的解释(表示为,expi=w→ι.ei)。基于此思想,Dedalo利用A*算法遍历关联数据寻找簇的解释。
A*(A-Star)算法是一种静态路网中求解最短路径最有效的直接搜索方法,也是许多其他问题的常用启发式算法,对于路径搜索问题,状态就是图中的节点,代价就是距离。一条路径的代价可以用启发式的指标f(x)估算,公式为: f(x)=g(x)+h(x),其中g(x)是过去的路径开销函数,表示起始节点到当前节点的已知距离,h(x)是未来路径开销函数,用来估算当前节点到目标节点的最佳路径的距离。在关联数据中,待解释簇内的项即初始节点,每个解释expi中的实体ei是目标节点。路径的开销通过信息熵估算,熵主要考虑给定路径的频率(对应g(x))及其值(对应h(x))的分布。由于在迭代遍历的过程中,事先不知道目标节点,因此在第n次迭代中将所有距初始节点距离为n的节点都视为目标节点。
关联数据的迭代遍历包含以下3个步骤:(1)URI参引,通过HTTP协议获取初始节点相关的所有RDF属性和属性值;(2)路径收集,利用URI参引从每个三元组中获取的新的属性Pi添加到已有的路径中去构建新的路径w→ι,新路径将通过信息熵行数进行代价估算;(3)构建簇的解释,在每一轮迭代之前都进行一次解释的构建,并通过F值对解释进行检验。
关联数据链接挖掘的相关研究还包括:Vito Claudio Ostuni等提出的基于LOD的SPrank关联推荐算法[24]以及Tommaso Di Noia等提出的利用LOD支持的关联推荐系统[25],它们的共同特点是利用链向特定实体的共有路径发现相关实体。另外,关联数据的属性链还被应用于语义相似度[26]和语义距离[27]等的计算。
4.2 频繁子图挖掘
在图的集合中发现一组公共子结构,这样的任务称作频繁子图挖掘(frequent subgraph mining),常用的频繁子图挖掘方法包括AGM、AcGM、FSG等递归发现频繁子图的方法以及gSpan、CloseGraph和FFSM等拓展频繁边得到频繁子图的方法。由于关联数据中关联模式缺乏准确正式的定义和关联数据图结构的复杂性,频繁子图挖掘方法难以直接应用到关联数据中。针对这一问题,Xiang Zhang和Cuifang Zhao等提出利用Typed Object Graph(类型化对象图,简称TOG)数据模型简化关联数据结构并利用基于gSpan的模式挖掘算法从关联数据中学习对象的关联模式[28]。TOG图通过一定的类检测策略可以为RDF图的每个实例赋予类型信息获取(见图1)。完成TOG图的构建后,对TOG图进行聚类后利用基于gSpan算法进行关联规则的挖掘。
在Xiang Zhang 等的研究基础上,Xiaowei Jiang提出了一种TOG图压缩策略进行实例层的关联数据语义挖掘[15]由于关联数据中存在大量的重复结构和相互依赖结构,因此在挖掘前可以利用这种机构特征进行图的压缩。根据关联数据的结构特征,作者提出了两种结合重复结构和压缩互相依赖结构等两种图压缩策略。压缩的核心思想是利用链向TOG中一系列高度相关实例的单个实例代表一个可压缩的图结构。在完成了图的压缩后,关联数据内的一些图结构将变成一些所谓“超节点(hypernode)”实例的内部结构,原始的关联数据图也压缩为较小的“超图(hypergraph)”。
4.3 深度学习
深度学习的概念源于人工神经网络的研究。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。波尔兹曼机(Boltzmann machine,简称BM)是Hinton和Sejnowski于1986年提出的一种根植于统计力学的随机神经网络。BM具有强大的无监督学习能力,能学习数据中复杂的规则。但是,拥有这种学习能力的代价是其训练(学习)过程耗时。此外,BM所表示的分布不仅无法确切计算,得到该分布的随机样本也很困难。于是Sejnowski引入了一种受限波尔兹曼机(Restricted Boltzmann machine model,简称RBM)。RBM具有一个可见层和一个隐层,层内无连接。RBM具有很好的性质,在给定可见层单元状态时,各隐单元的激活条件独立;反之,在给定隐单元状态时,可见层单元的激活亦条件独立。这样一来尽管RBM所表示的分布仍无法有效计算,但通过Gibbs采样(Gibbs sampling)可以得到RBM所表示分布的随机样本。目前RBM已经被成功运用到不同的机器学习问题[29]。
从关联数据中学习知识的主要挑战之一是如何在高效利用节点属性的同时利用关联数据的关联抽取有效信息。当前对基于关联数据的知识发现要么采取人工选择的拓扑统计表示网络结构,要么将节点属性和网络节点线性映射到一个共享隐含特征空间(shared latent feature space)。但基于统计的方法可能损失网络结构中的重要模式,基于线性映射的方法可能无法捕捉到节点和关联的非线性特征。为解决这些问题,Kang Li、Jing Gao利用深度学习理论,构建了基于受限波尔兹曼机对关联数据进行表征学习的LRBM(Restricted Boltzmann Machines for Latent Feature Learning in Linked Data,学习关联数据潜在特征的受限波尔兹曼机)模型,LRBM利用对比散度(Contrastive Divergence,简称CD)进行模型的训练避免了大规模的采样,同时模型可以与传统RMB进行“叠加”以探索节点的深层特征和节点间的高阶交互模式[16]。
LRBM不依赖任何主观选择的拓扑统计(topological statistics),可以在一个统一框架中同时获取节点和属性的特征,并根据这些特征构建节点关联以及隐藏单元之间的非线性关系。模型的核心在于节点共享隐含特征,这些隐含特征可以用来构建节点、关联关系和隐含单元的非线性关系。
作者首先用关联矩阵表示关联数据集中的节点和关联关系,定义节点i到节点j的关联L中节点i定义为关联的发送者,节点j为关联的接收者,并将每个节点的隐含表示(latent representation)定义为发送者行为Si和接收者行为Ri两部分,分别对应节点的入链和出链。因此,节点i的属性Ai与其隐含发送者行为Si和接收者行为Ri相关,且Si和Rj决定了节点i和j之间的交互。为将节点属性A、关联L和隐含特征表示R和S之间的交互建模,作者利用能量函数建立了一个隐含语义模型(Latent Factor Model,简称LFM),利用条件限制波尔茨曼机在模型加入了隐变量h以解决线性映射的问题,同时添加高斯噪声为关联关系赋予权重。最终,LRBM模型可关联数据中提取出节点属性、隐含特征S和R以及关联关系的交互特征,并可将其应用到关联预测、节点分类等知识发现活动中。
4.4 技术分析
在关联数据集合中,数据集合和数据对象之间是以某种方式关联的,对象之间的链接可能表示某种特定的模式,但这一模式通常很难用传统的统计模型去获取,因此,为该挑战提供解决方案的链接挖掘成为了新的研究热点。这一领域在链接分析、超文本和网络挖掘、关系学习和图挖掘等相关研究的交叉点上。
关联遍历挖掘、频繁子图挖掘、LRBM等分别利用了图的遍历、压缩和深度学习的方法对关联数据的链接进行挖掘,为基于关联数据的知识发现提供了全新的方法和视角,但链接挖掘存在的问题是,由于当前研究仍处于探索阶段,相关研究相对比较分散,缺少能将相关研究和应用统一到一个框架中的综合体系,这一问题阻碍了已有研究之间的相互交流以及研究成果的拓展和共享。
5 结语
关联数据通过数据间的链接支持结构化数据的关联,这种携带语义的关联遍及整个数据网络,是关联数据的核心价值。为实现关联数据的价值,早期研究更多的关注了关联数据的构建与发布,而随着关联数据资源的快速发展,更多的研究开始关注关联数据的应用与消费,这些研究往往集中在“关联数据的数据资源”和“关联数据的关联”等两个主题。本文所介绍的间接挖掘和直接挖掘主要关注“关联数据的数据资源”,这些研究促进了知识发现与关联数据领域之间研究体系上的拓展和融合,一方面有助于从数据挖掘和知识发现的角度去发挥关联数据的潜在价值;另一方面也可以借助数据挖掘和知识发现领域的知识解决关联数据存在的问题。链接挖掘则更多的关注了“关联数据的关联”主题,图论、深度学习等学科的引入为基于关联数据的知识发现提供了全新的视角与方法,虽然当前的研究仍比较分散缺少统一的综合框架,但这些方法和理论的引入已经为基于关联数据的知识发现提供了新的活力和可能。
总体而言,基于关联数据的知识发现技术仍处于快速发展阶段,其作为一种新的知识发现技术已经体现了巨大的价值。随着关联数据数量的飞速发展和对关联数据质量控制的加强,且已经有国内外的研究人员开始着手研究基于关联数据的知识发现统一框架,未来的研究重点将更加倾向于基于关联数据知识发现技术本身的丰富和完善。
参考文献:
[1] 苗蔚,李后卿.知识发现及其实现技术的研究概述[J].现代情报,2005(1):12-15.
[2] 李楠.基于关联数据的知识发现研究[D].北京:中国农业科学院,2012.
[3] 化柏林.数据挖掘与知识发现关系探析[J].情报理论与实践,2008(4):507-510.
[4] 张树良,冷伏海.基于文献的知识发现的应用进展研[J].情报学报,2006,25(6):700-712.
[5] 贾丽梅.基于关联数据语义相似度计算研究[D].郑州:郑州大学,2014.
[6] 李楠,张学福.基于关联数据的知识发现模型研究[J].图书馆学研究,2013(1):73-77,67.
[7] 李俊,黄春毅.关联数据的知识发现研究[J].情报科学,2013(3):76-81.
[8] 高劲松,李迎迎,刘龙,等.基于关联数据的知识发现模型构建研究[J].情报科学,2016(6):10-13,18.
[9] 宋丽娜.关联数据环境下基于知识地图的隐性知识发现模型研究[D].武汉:华中师范大学,2014.
[10] 刘龙.基于关联数据的知识发现过程模型研究[D].武汉:华中师范大学,2014.
[11] Narasimha V,Kappara P,Ichise R,et al.LiDDM:A Data Mining System for Linked Data[C].Workshop on Linked Data on the Web.CEUR Workshop Proceedings,2011:813.
[12] Paulheim H,Fümkranz J.Unsupervised generation of data mining features from linked open data[C].Proceedings of the 2nd international conference on web intelligence, mining and semantics.ACM,2012:31.
[13] Ramezani R,Saraee M,Nematbakhsh M A.Finding association rules in linked data,a centralization approach[C].21st Iranian Conference on Electrical Engineering(ICEE).IEEE,2013:1-6.
[14] Personeni G,Daget S,Bonnet C,et al.Mining Linked Open Data:A Case Study with Genes Responsible for Intellectual Disability[C].International Conference on Data Integration in the Life Sciences.Springer International Publishing,2014:16-31.
[15] Tiddi I,d'Aquin M,Motta E.Dedalo:Looking for clusters explanations in a labyrinth of linked data[C].European Semantic Web Conference.Springer International Publishing,2014:333-348.
[16] Tiddi I,d'Aquin M,Motta E.Walking Linked Data:a graph traversal approach to explain clusters[C].Proceedings of the 5th International Conference on Consuming Linked Data-Volume 1264.CEUR-WS.org,2014:73-84.
[17] Jiang X,Zhang X,Gao F,et al.Graph compression strategies for instance-focused semantic mining[C].China Semantic Web Symposium and Web Science Conference.Springer Berlin Heidelberg,2013:50-61.
[18] Li K,Gao J,Guo S,et al.Lrbm: A restricted boltzmann machine based approach for representation learning on linked data[C].Data Mining(ICDM),2014 IEEE International Conference on.IEEE,2014:300-309.
[19] Ristoski P,Bizer C,Paulheim H.Mining the web of linked data with rapidminer[J].Web Semantics:Science,Services and Agents on the World Wide Web,2015(35):142-151.
[20] L?觟sch U,Bloehdorn S,Rettinger A.Graph kernels for RDF data[M].The Semantic Web:Research and Applications.Springer Berlin Heidelberg,2012.
[21] de Vries G K D,de Rooij S.Substructure counting graph kernels for machine learning from RDF data[J].Web Semantics:Science,Services and Agents on the World Wide Web,2015(35):71-84.
[22] Abedjan Z,Naumann F.Context and target configurations for mining RDF data[C].Proceedings of the 1st international workshop on Search and mining entity-relationship data.ACM,2011:23-24.
[23] Ramezani R,Saraee M,Nematbakhsh M A.Finding association rules in linked data,a centralization approach[C].21st Iranian Conference on Electrical Engineering(ICEE).IEEE,2013:1-6.
[24] Ostuni V C,Di Noia T,Di Sciascio E,et al.Top-n recommendations from implicit feedback leveraging linked open data[C].Proceedings of the 7th ACM conference on Recommender systems.ACM,2013:85-92.
[25] Di Noia T,Mirizzi R,Ostuni V C,et al. Linked open data to support content-based recommender systems[C].Proceedings of the 8th International Conference on Semantic Systems.ACM,2012:1-8.
[26] Hulpus I,Prangnawarat N,Hayes C.Path-based semantic relatedness on linked data and its use to word and entity disambiguation[C].International Semantic Web Conference.Springer International Publishing,2015:442-457.
[27] Passant A.Measuring Semantic Distance on Linking Data and Using it for Resources Recommendations[C].AAAI spring symposium:linked data meets artificial intelligence,2010(77):123.
[28] Zhang X,Zhao C,Wang P,et al.Mining link patterns in linked data[C].International Conference on Web-Age Information Management.Springer Berlin Heidelberg,2012:83-94.
[29] 张春霞,姬楠楠,王冠伟.受限波尔兹曼机[J].工程数学学报,2015(2):159-173.
作者简介:崔家旺(1991-),中国科学院文献情报中心硕士研究生,研究方向:关联数据;李春旺(1996-),中国科学院文献情报中心研究馆员,硕士生导师,研究方向:集成融汇技术、关联数据、智能检索、学科化服务、数字资源长期保存等。