基于物联网的语义标注
2019-03-04刘玉翠高鸿斌
刘玉翠 高鸿斌
摘要:随着物联网概念的提出,包含了大量感知设备的物联网系统在各个领域越来越得以大量应用。感知设备时刻产生着大量孤立和异构的感知数据,形成数据孤岛。通过将不同设备及其产生的数据信息进行语义标注,从而构建不同域的数据关联模型,以便屏蔽数据异构性,实现语义信息的统一。该文以物联网为研究对象,提出对于宏观上的物联网系统从语义入手,结合语义网知识,介绍了语义标注的基本概念义、语义标注的方法及作用以及物联网传感数据的语义标注。
关键词:物联网;语义标注;结构化数据
中图分类号:TP393 文献标识码:A
文章编号:1009- 3044(2019)34-0246-02
物联网是一个由传感设备与信息交互所构成网络系统。由于设备信息的不一致性和不确定性为信息协调和交互提出难题,针对这一问题将语义标注技术引入物联网中从而利用语义物联网解决数据异构性。随着物联网技术的广泛应用,海量物联网传感数据具有多源性的特点,多种传感数据在数据格式、数据属性及其描述、通信协议等方面都具有异构问题。这种异构影响了数据的交互和共享融合,也影响了跨域数据间的处理理解和開发难度[1]。通过将不同感知设备及其产生的数据进行有效的语义标注、构建跨域的数据关联模型,以便消除数据的异构性,实现各种设备及数据统一是物联网研究的关键问题。
1 语义标注
物联网的语义化为物联网领域资源提供了新的组织知识的方式,语义物联网的实现依赖于大量的、与各种形式化知识相关联的物联网内容元数据。当前语义网的发展迫切需要特定的、明确的和容易理解的语义元数据的创建和使用,也就是需要对当前的物联网所有资源数据进行广泛可用的语义标注。语义标注指的是通过语义元数据阮数据指的是描述数据的数据,通常指本体有XML、RDF、OWL等格式)为文档资源添加语义标记识别语义信息的过程,使其具有语义信息,不仅人可以理解,而且使机器也可以理解。概括的讲,语义标注是一个在领域本体指导下为文档添加规范化知识表示的过程。
陈叶旺[2]等认为语义标注有对象、知识和方式三个基本要素。在网页中产生的各种信息资源,如网页、图片等数据都是标注对象。标注知识是如概念、属性实例等的本体元数据,这些元数据与Web资源是相对应的。标注方式按照标注方法分为自动、半自动和手动。语义标注依赖于某个特定领域知识,而领域知识成分可分为元知识和知识实例,元知识描述的是抽象领域本体关系,知识实例的描述是真实存在的具体知识单元[3]。
语义标注按照注释的存储方式可分为内嵌式和非内嵌式两种[3]。语义标注信息是否与标注对象内容或标记知识相结合决定着标注的存储方式。Kiryakov认为将标注信息内嵌到标注对象内容或知识中是相对容易的,但是对于复杂的标注采用内嵌式容易增加对象内容或知识的篇幅,同样也增加了标注内容或知识的维护负担。语义标注采用非内嵌方式将标注与内容和标注知识分离存储,对标注知识采用映射的方式相联系,可以减少内嵌标注的副作用。
2 语义标注的方法及作用
简单来说语义标注就是为各种资源数据标注含义,使得机器对大量的数据进行学习从而认识世界。数据本身是没有语义的,需要特定人员对数据标注语义,标注语义的方法有手工标注、半自动标注和自动标注。人工标注,需要专业人确定资源概念集、分析对象内容结构、选择元数据元素、并用如RDF或HTML语言进行标注。半自动标注,是利用数据的DTD或Schema定义内容元素和结构,通过映射关系自动地将标记转换为对应的概念元数据。自动标注,是利用大量的标注数据进行机器学习,从而对未标注的数据自动的将标注信息添加到标注对象内容或标注知识中[5]。
语义标注的工作就是将现实应用中涉及的实例标记与抽象的本体概念相联系,通过解析对本体添加知识单元。与数据库相似领域本体的Schema就如建立好的数据库表,语义标注就是添加对数据库表添加具体实例的过程。通过对数据资源的语义标注,内容提供者可以更好地组织信息,计算机能够更加方便的理解和处理数据的语义信息,用户可以更好地获取和利用信息。下面列举了几个标注的辅助工具[6]。
(1) SHOE Knowledge Annotizer是由Maryland大学本体工作小组研发的。SHOE是HTML的一个小扩展程序,使用者通过图形的方式利用机器可读SHOE知识来进行语义标注,而不必使用HTML,它适合手动标注的方式。
(2) BriefingAnnotizer是在TeKnowledge项目下开发的基于PowerPoint环境语义标注工具,它将这些标注隐藏在PowerPoint文档中。它能够用于手动标注的场合。
(3) SMORE由Maryland大学研究开发的,该工具为内容的发布和语义标注提供了集成环境,还扩充了其他标注平台所不具备的许多特性。能够应用于图像视频和E-mail等格式的标注。
(4) Annotea由W3C组织开发,是基于通用开放式RDF框架下的Web共享的标注系统,它采用C/S结构将关系数据库中元数据及实例存于标注服务器中,这使得读取标注内容更加方便。它适用于半自动标注场合。
(5) OntoMatAnnotizer是用于对网页信息进行标注工具,该工具可以对已有的网页进行标注,也可以标注和生成同时进行,最终的目标是生成带标注的页面,它通过对DAML+OIL标记解析得到实例和关系。它适用于自动标注的方法。
(6) Armadilo是一个自动系统,用于在大型仓库中生成特定于领域语义Web的注释,对于语义网它可以自动从Web上的文档生成实例标签。其自动的提取众多来源的数据集成到知识库中。
手动标注是人工手动将要标注的语义内容写入本体中,半自动标注是利用标注工具将语义内容拖拽到本体。自动标注是需要通过训练后实现自动的将语义信息写入本体中。人工标注由于是专业人员及技术工程师合作手动完成的,对于本领域的标注准确率比较高,最后的审查工作也会比较轻松,然而对于本专业以外的语义信息专业性却不强,而且仍容易受个人的主观因素所影响,面对海量的数据信息也比较耗时费力。人工标注比较适用于数据量信息有限的单一本体。
半自动标注以及自动标注的准确率没有人工标注的高,最后审查的工作仍然需要人工进行审查以及修改,工作量虽然大相比较人工标注海量信息却少了很多。半自动标注采用机器和人工干预来提高标注的准确性,而且效率会比人工手动标注快很多,半自动标注与自动标注相比较而言,还不能以准确的方式自动识别和分类源数据中的所有实体。自动标注解决了现有本体所需的扩展性,减少了工作人员的工作量。
3 对物联网传感数据的语义标注
在物联网方面,随着物联网领域技术的发展,目前都是设计定制方案对具体领域特定应用的传感数据进行描述,数据属性的结构化较强,数据很难被跨域理解和处理。针对这一问题,采用了一种面向物联网数据属性的语义标注方法[1]。通过利用本体架构对物联网数据属性语义标注,在本体服务器端运行MYsoL数据库和Perl脚本,将元数据与数据信息抽象出来,使得数据属性独立于具体应用而存在。
根据物联网传感数据的特点,可知按照数据变化能够分为动态和静态这两种属性。动态属性是由于传感设备不断采集和数据信息实时变化而产生的,如采集能源类设备。静态属性是由传感设备不断采集而数据信息几乎不变化的属性,如RFID。针对物联网传感数据这一特点对数据属性采用人工标注,可以对数据的静态属性能够较为精准的判别,但是对于不断实时变化动态属性人工标注就比较费力,不能及时的满足数据标注需求。
采用自动半自动对物联网的传感数据进行标注,虽然数据标注的静态属性准确率没有人工的准确率高,对于实时变化的动态属性可以采用机器进行语义标注减少人工标注的工作量,增加了工作效率。采用全自动的语义标注手段,能够更加及时和有效率地完成,同时人工参与的工作量也大大地减少。仅针对物联网的传感数据相比较半自动标注来说,自动标准的及时性和有效性较高一些。
4 结束语
这篇论文介绍了一种基于物联网数据属性的语义标注方法,目前比较常见的语义标注方法就是手动、半自动和自动。通过对设备信息的有效语义化标注,能够实现不同设备的数据属性进行统一化描述,同时使得数据模式变得更为灵活。对于数据信息的标注不仅能够清晰的表达数据的物理意義和提升数据的价值,而且方便计算机对数据的深入理解和智能化的操作,为物联网领域异构资源的融合共享和交互协提供了有力的技术支撑。根据语义标注的方法特点,针对物联网的传感数据特点,提出了一种自动和手动相结合的语义标注设想,对于数据的静态属性采用人工标注,对于数据的动态属性采用自动标注。但是手动标注和自动标注相结合的方法对于物联网的工作效率和准确率是否能够提高,还有待进一步的研究。如果可行既可以提高准确率,也能相对地减少人工的工作量,对于动态数据也能及时标注。
参考文献:
[1]施昭,刘阳,曾鹏,等,面向物联网的传感数据属性语义化标注方法[J].中国科学:信息科学,2015,45(6):739-751.
[2]陈叶旺,李文,彭鑫.基于本体的文档语义标注改进方法[J].东南大学学报:自然科学版,2009(6):1109-1113.
[3]傅柱.语义标注研究综述[J].图书馆学研究,2016(4):10-17.
[4]时念云,杨晨,基于领域本体的语义标注方法研究[J].计算机工程与设计,2007,28(24):5985-5987.
[5]邹亮,廖述梅.基于本体的语义标注工具比较与分析[J].计算机应用,2004,24(s1):328-330.
【通联编辑:代影】
收稿日期:2019-08-29
作者简介:刘玉翠(1994-),女,河北张家口人,河北科技大学信息科学与工程学院计算机技术专业,硕士,研究方向为计算机应用与物联网;高鸿斌(1964-),男,河北高碑店人,河北科技大学信息科学与工程学院计算机技术专业,教授,硕士,研究方向为计算机应用与物联网。