APP下载

一种支持自由扩展的跨领域元数据动态构建方法

2018-03-21,,,

中华医学图书情报杂志 2018年4期
关键词:布尔增量动态

,,,

作为描述数据模型的数据,元数据对数据资源的内容、结构、价值、使用等各维度进行规范,日益成为数据资源共享的重要组织方式[1-2]。针对不同领域、不同类型的数据资源,众多组织和学者给出了不同的元数据标准或框架[3-5],用以描述领域数据资源的核心特征。然而,这些标准仅提供了领域数据资源的简单“核心元数据”,难以满足不断扩展的数据资源,尤其是跨领域数据资源集合的描述需求。

针对此问题,相关学者给出了支持扩展数据资源描述的元数据标准或框架的构建方法。Michael Heaney提出了“集合分析模型”,用以描述数据资源集合中实体及关系逻辑[6];Hunter等提出一种基于RDF Schema和XML Schema的元数据互操作方案[7],基于RDF模型的数据资源描述得到了广泛应用;针对不同领域数据资源扩展描述,国内多位学者给出了多种元数据可扩展及互操作的设计方法[8-11],以解决特定领域数据资源的元数据扩展及互操作问题。可见现有支撑扩展数据资源描述的元数据构建方法,大都面向特定领域数据资源的“静态构建”,即通过总结领域元数据特征进行归类,或构建适用于用户交互的元数据互操作框架。随着数据资源的爆炸式增长[12],以及跨领域生成抽象领域和特定领域的专业化细分,这些领域元数据构建方法已不能适应当今日益增长的跨领域海量数据资源描述和访问需求,因此亟需开展面向跨领域海量数据资源的元数据动态构建方法研究。

为满足用户跨领域海量数据资源元数据构建需求,本文提出了一种支持用户自由扩展的跨领域元数据动态构建方法,该方法基于“核心+扩展”的元数据模型,支持用户对领域数据资源的多元化进行描述和定义,并通过自由扩展元数据动态迭代生成可共用和互操作的跨领域核心元数据,进而为用户跨领域元数据构建提供一种新的方法框架。

1 跨领域元数据动态构建模型

1.1 跨领域数据资源元数据结构

首先构建跨领域数据资源的概念模型。随着数据资源集成需求日益深化,不同领域生成更大范围的抽象领域,特定领域也衍生分化出更细分的子领域,据此得以构建跨领域数据资源的概念模型(图1)。

图1 跨领域数据资源概念模型

在跨领域概念模型中,领域As由不同子领域A1,A2,A3,…,An构成,这与实际如装备论证等综合领域数据资源的构成情况相符。为方便描述,将跨领域As的数据资源亦记为As,根据模型有跨领域数据资源As={A1,A2,A3,…,An},考虑到数据资源交叉重叠,跨领域数据资源As可进一步表示为:As=∪{A1,A2,A3,…,An}。

为了支持用户对数据资源的多元化描述,采用“核心元数据+扩展元数据”结构,将现有元数据静态定义进行扩展,进而构建跨领域数据As的元数据Ms。

跨领域元数据Ms,由核心元数据Cs和扩展元数据Ps两部分构成,表示如下:

Ms=Cs+Ps

(1)

其中,核心元数据Cs是各领域可共用和互操作的核心元数据,可描述各领域数据资源A1,A2,A3,…,An的共同特征;扩展元数据Ps是各领域用户自由定义的元数据,用户通过自由定义扩展元数据,可以更准确描述领域数据资源的多样化特征。

同理,各领域元数据M1,M2,M3,…,Mn也由核心元数据与扩展元数据构成,表示如下:

M=Ck+Pk,k∈{1,2,…,n}

(2)

综上,由式(1)和式(2)跨领域元数据结构得以定义。

1.2 跨领域元数据动态构建方法

(3)

(4)

(5)

进一步,由扩展元数据动态构建满足用户可共用和互操作的领域元数据Mk的核心元数据Ck。

用ΔCk表示由用户扩展元数据Pk动态构建的核心元数据增量,生成新的核心元数据为C'k,有:

(6)

式(6)中,∩表示生成运算,具体定义如下。

(7)

(8)

在此基础上,式(6)中核心元数据增量ΔCk可表示为:

(9)

据此,定义生成运算∩:

(10)

由式(4)、(6)、(9)、(10),领域数据资源Ak的领域元数据Mk得以动态构建。

进一步,同理动态构建跨领域数据资源领域元数据的核心元数据。

C's=Cs+ΔCs=Cs+∩C'k,k∈{1,2,…,n}

(11)

式(11)中,生成运算∩与式(10)中领域数据资源Ak领域元数据动态构建生成运算相同。

由式(4)、(6)、(9)、(10)、(11),跨领域数据资源As的领域元数据Ms得以动态构建,跨领域元数据动态构建的具体算法流程如下。

输入:用户自由定义的元数据Mk。

输出:跨领域元数据Ms。

初始条件:领域核心元数据Ck,跨领域核心元数据Cs。

通过用户输入,动态迭代如下循环:

布尔矩阵B经生成运算∩生成筛选向量,进一步生成领域核心元数据增量ΔCk;

由ΔCk,生成新的领域核心元数据C'k和领域元数据M'k;

由C'k,生成新的跨领域核心元数据C's,进一步生成跨领域元数据M's。

判断循环截止,输出最终跨领域元数据M's。

1.3 筛选函数S(x)设计

由跨领域元数据动态构建算法可知,筛选函数S(x)是动态生成跨领域数据资源核心元数据的关键。筛选函数S(x)是对布尔矩阵B进行操作的,布尔矩阵B的0-1分布特征直接影响筛选函数的设计,现结合领域数据资源布尔矩阵B的特征,设计筛选函数S(x)。

因数据资源特征不同,以及不同用户对数据资源的理解不同,自由定义的数据资源元数据描述项会呈现出多元化的特征,故领域数据资源布尔矩阵B的0-1分布与领域数据资源特征和用户自由扩展数据描述相关。

基于领域数据资源特征和用户认知特征,对领域数据资源布尔矩阵B的0-1分布作如下假设。

假设1(随机性假设):假定不同用户定义领域数据资源扩展元数据时,事先未约定任何规则,凭理解进行自由定义,根据个体活动的随机性,构建的数据资源布尔矩阵B的0-1分布呈现随机分布的特征。

在假设1条件下,布尔矩阵的汉明重量向量H满足定理1。

由独立伯努力试验的定义,可知行向量(bi1bi2…bin)的汉明重量Hi满足二项分布:

得证。

由定理1,通过设置阈值条件,易设计筛选函数S(x)如下:

(12)

假设2(稀疏性假设):假定不同用户定义对某一子领域数据资源的认知与理解具有一定的相似性,基于领域相似性认知和个体随机性理解,构建的数据资源布尔矩阵B的0-1分布呈现稀疏分布的特征。

在假设2条件下,布尔矩阵B的汉明重量向量H满足定理2。

定理2:稀疏性假设条件下,对布尔矩阵B的汉明重量向量H,Hi的期望满足E(Hi)=rank(BL),BL为布尔矩阵B的低秩部分。

证明:在稀疏性假设条件下,布尔矩阵B满足稀疏矩阵和低秩矩阵的特征。在此基础上,采用稀疏矩阵分解的方法,对布尔矩阵B进行分解,有:

B=BL+E

(13)

其中,BL为低秩矩阵,E为稀疏矩阵。

对式(13)进行优化求解,可转化为如下优化问题:

(14)

其中,‖‖0表示矩阵的0范数即矩阵非0元素个数。

已证明此问题求解为NP难,可进一步转化为以下凸优化问题[13]:

(15)

其中,‖‖0表示矩阵的核范数即矩阵奇异值之和,‖‖1表示矩阵的1范数即矩阵列向量元素绝对值之和的最大值。

已有诸多方法对以上凸优化问题进行求解[14-16]。在稀疏矩阵分解基础上,求解行向量(bi1bi2…bin)汉明重量Hi的期望E(Hi),令:

E(Hi)=k

(16)

由期望定义可知:

P(Hi=k)max{P(Hi=j),j∈{0,1,2,…,n}}

(17)

考察布尔矩阵B的行向量(bi1bi2…bin),由稀疏矩阵分解和矩阵行列对称性可知:

P(Hi=rank(BL))=max{P(Hi=j),j∈{0,1,2,…,n}}

(18)

结合式(16)、(17)、(18),可知:E(Hi)=rank(BL)。

得证。

由定理2,通过设置阈值条件,易设计筛选函数S(x)如下:

(19)

2 实验结果与分析

针对设计的跨领域元数据动态构建算法,尤其是两类假设条件下的筛选函数,利用相关数据集进行实验验证。

针对随机性假设,由于现有领域元数据尚未有自由扩展实践,随机性假设条件测试数据集采用随机模拟的方法生成;针对稀疏性假设,则利用某综合论证领域元数据集,采用“时间换空间”策略,选用不同时段和领域的元数据生成测试数据集,以满足稀疏性假设条件。

选用两类测试数据集,数量级均分别为103、104、105规模,利用本文设计的跨领域元数据动态构建算法和筛选函数,生成跨领域元数据项,从而验证算法的有效性。Matlab软件生成实验结果如图2和图3所示。

图2 随机性假设核心元数据生成

图3 稀疏性假设核心元数据生成

图2为随机性假设条件下动态构建的核心元数据增量,其中蓝色曲线为筛选函数的期望阈值曲线,红色曲线为基于数据集的动态构建生成数值曲线,在可知实际随机性条件下,动态构建算法生成的核心元数据增量与理论期望值基本吻合。图3则为稀疏性假设条件下动态构建的核心元数据增量,其中蓝色曲线和红色曲线定义与图2相同,在稀疏性假设条件下,动态构建算法生成的核心元数据增量与理论期望值也具有较好的吻合度。

其中,图2的曲线拟合度相对较高,是因为随机性假设选用的是随机生成测试数据;而图3曲线拟合度存在偏差,说明采用实际数据测试条件下,稀疏性假设条件与实际数据资源元数据描述项分布规律存在一定偏差。

在稀疏性假设条件下,基于某综合论证领域元数据集,通过区分不同时间阶段,利用本文设计算法生成跨领域元数据,并与某综合论证领域元数据实际变化对比,进一步验证算法的合理性。Matlab软件生成实验结果如图4和图5所示。

图4 稀疏性假设生成跨领域核心元数据

图5 稀疏性假设生成跨领域核心元数据增量

图4为稀疏性假设条件下算法生成的不同时间阶段跨领域元数据与实际元数据的对比图,其中红色曲线为算法生成的跨领域元数据,蓝色曲线则为实际元数据,实际元数据为经过需求论证、专家研讨和用户反馈等环节生成的实际使用核心元数据。由图4可知,算法生成的跨领域元数据比实际元数据的数据项要多,且随着时间阶段和测试数据集规模增长,算法生成与实际元数据项数差也越大,说明本算法生成的元数据项相对实际使用元数据项要更丰富,需经科学论证和取舍后生成实际使用元数据。

图5为相应时间阶段算法生成的跨领域元数据增量与实际元数据增量的对比图,其中红色曲线为算法生成的跨领域元数据增量,蓝色曲线则为实际元数据增量,紫色曲线为算法生成元数据与实际元数据的增量比率。由图5可知,算法生成的跨领域元数据增量相对实际元数据增量的绝对值大,但两者之间的增量比率维持在固定值区间范围,说明本算法生成跨领域元数据与实践生成元数据的过程趋势基本吻合。

3 结论

针对跨领域元数据动态构建问题,本文在跨领域数据资源概念模型研究基础上,对跨领域元数据的结构进行了扩展定义,给出“核心+扩展”的跨领域元数据结构,支持用户对元数据的自由定义。在此基础上,提出了扩展元数据迭代生成核心元数据的动态构建算法,并通过对数据资源分布矩阵的随机性假设和稀疏性假设,设计了跨领域元数据动态构建算法中的筛选函数,从而给出了一种可供用户自由扩展的跨领域数据资源元数据动态构建方法,满足用户日益增长的跨领域海量数据资源描述和访问需求。

筛选函数设计是跨领域元数据动态构建算法的关键环节,本文在两类假设基础上,对筛选函数进行了相关设计,然而这两类假设远不能涵盖跨领域数据资源的丰富特征,仍需对现有假设进行深入研究与拓展。同时,针对稀疏性假设条件下筛选函数设计,基于海量数据资源的稀疏矩阵分解优化问题求解,也应成为下一步研究的重点。

猜你喜欢

布尔增量动态
国内动态
导弹增量式自适应容错控制系统设计
国内动态
提质和增量之间的“辩证”
国内动态
全现款操作,年增量1千万!这家GMP渔药厂为何这么牛?
“价增量减”型应用题点拨
动态
布尔和比利
布尔和比利