领域本体在大数据时代的应用
2018-02-28胡春美
胡春美
摘要
随着信息化的发展,我们迈入了大数据的时代,在海量的形式多样的数据中能够高速、高效的获取有价值的信息,是如今面临的重要课题。对于很多专有领域来说,领域知识也变得越来越丰富,本体的应用能使领域术语,概念和认知通过统一的框架得以分享。研究本体在大数据时代的应用,可以提高知识的利用效率,具有一定的现实意义。
【关键词】本体 大数据 专有领域
随着计算机硬件的成本降低,性能提高,为海量数据的存储提供了物质基础。同时,云计算的出现,更是为大数据的存储和计算提供了便利。有了海量数据,那么如何对数据进行有效利用是另一个重要的研究课题。数据检索以及数据挖掘学科有专门的算法对数据进行有效的处理及利用,本体作为知识组织的一种形式,对领域中的知识进行表示,并与各种算法相结合,可以对大数据的相关研究起到一定的作用。
1 本体的定义
Gruber于1993年提出的本体的定义在业界首次获得一致认可,他指出“本体是概念模型的明确的规范说明”。而后在此基础上一个新的定义被Brost提出,即本体是共享概念模型的明确的形式化规范说明,该定义目前使用较为广泛,它其中包含了四层的含义:概念化,形式化,明确性和共享。
2 本体在知识检索中的应用
全文检索是一种将文件中所有的文本内容与检索项匹配的文字资料检索方法。信息检索出现了很多模型,其中比较经典的有:布尔模型,概率模型,向量空间模型,概念检索模型。在大数据时代,由于大数据在存储,收集,分析及检索方面与传统数据存在着区别,信息检索也需要进行相应的变革。在某个领域的检索系统中,常常会融入本体进行研究,以提高检索模型的查全率和查准率。基于本体的查询词扩展,是较为常见的研究方向。该方法在一定程度上克服了传统查询词扩展的语义性差、主题性差等缺点。这方面的研究很多,其核心思想大致如下:
(1)检索系统需对用户输入的查询内容进行预处理,获得相关的查询词集。
(2)对查询词集中的关键词进行分析,根据领域本体知识库,划分成本体概念集合与非本体概念集合。
(3)对本体概念集合中的概念词按照一定的方式进行语义查询扩展。
(4)通过阈值对扩展词进行筛选。
上述的基本过程中,可能会存在一些缺点,近年来的研究中从不同的角度对基于本体的查询词扩展结合实际的需求进行了改善。
另外一个研究方向就是本体概念相似度的计算,主要的概念相似度计算方法有基于距离的概念相似度计算,基于属性的概念相似度计算,混合式概念相似度计算。寻找合适的相似度计算方法用于计算查询词和扩展词的相似度,调整扩展词的权重,会使查询结果更优。基于本体的文档的语义标注也是研究的热点,对文档进行语义标注后,可以把文档隐含的语义信息显式的表现出来,可以为检索的智能推理提供基础。
3 本体在数据挖掘中的应用
数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。在各个领域中,比如教育、航天、银行、证券、电信等,数据挖掘也开始广泛应用。银行可以通过一定的机器学习算法预测客户是否有跑路的嫌疑。如今,数据挖掘已经在各个领域中得到了应用,但是可能相关的技术人员并不是各个领域的专业人才,会给数据挖掘的推广造成一定的障碍。针对这种现状,将本体思想与技术引入到数据挖掘过程中,用领域本体表示领域背景知识,可以在一定程度上辅助技术人员进行数据挖掘使数据得到有效利用获取有价值的信息。如果认为数据挖掘的基本过程如图1所示。
传统数据挖掘被认为有三个方面的缺陷:规则过载、脱离情境、没有合理使用领域专家知识,容易受数据挖掘者個人的挖掘偏好影响。将本体适当的应用在数据挖掘的各个阶段,将领域知识融入到数据挖掘的过程中,可以更好的通过数据挖掘过程获取有价值的信息。本体在数据预处理阶段的应用,基于本体的数据挖掘算法的改进等都是比较常见的融入本体进行研究的方向。比如,基于本体的文本聚类算法的研究,该方法可以有效地减少文本特征向量的维数,同时提高文本聚类效果以及聚类结果的可解释性。
4 总结
学者的各种研究,最终的目的都是希望在大数据中对数据进行有效并且高效的利用,得到所需的高价值的信息从而服务于企业或者领域的发展。由于领域具有专业性,将本体应用到领域大数据的相关研究中,具有一定的研究价值。
参考文献
[1]林志阳.基于OWL语义本体的推理与存储研究[D].海南大学,2008.
[2]时念云,杨晨.基于领域本体的语义标注方法研究[J].计算机工程与设计,2007(24):5985-5987.
[3]王栋,向阳,张波.本体在数据挖掘系统中的应用研究[J].计算机工程与应用,2009,45(05):11-12+15.
[4]闻中慧.数据挖掘中的本体应用研究综述[J].软件导刊,2012,11(07):104-106.