国外典型语义标注平台的比较研究
2009-07-15鞠彦辉刘闯
鞠彦辉 刘 闯
〔摘 要〕本文简要介绍了国外典型的语义标注平台,详细比较了它们的特点,分析了这些平台的不足,展望了语义标注的发展趋势。
〔关键词〕语义Web;语义标注;本体;标注平台
〔中图分类号〕G203;TP311 〔文献标识码〕A 〔文章编号〕1008-0821(2009)01-0215-03
Comparative Study on Foreign Representative Semantic Annotation Platforms
Ju Yanhui Liu Chuang
(College of Information Science and Engineering,Bohai University,Jinzhou 121000,China)
〔Abstract〕The article introduced simply foreign representative semantic annotation platforms,compared them characteristic in detail,analyzed deficiency of these platforms,prospected development trend of semantic annotation.
〔Key words〕semantic Web;semantic annotation;ontology;annotation platform
为了解决互联网上信息处理的自动化、智能化程度很低的问题,Web创始人Tim Berners-Lee于2000年提出语义Web的概念[1],而实现语义Web目标的一个重要前提是利用本体(ontology)词汇标注Web资源,将Web上资源的状态从机器可读提高到机器可理解的程度,这是整个语义Web实现的基础。
1 国外典型语义标注平台简介
按照语言学(特别是计算语言学)的理解,标注是对文本特定部分所加的形式注释,从语义Web的角度来看,对传统Web资源添加语义信息是基于本体进行的,称之为语义标注。语义标注既是指一组元数据(metadata)也是指这些元数据的生成过程。[2]下面简要介绍一下国外典型的语义标注平台(Semantic Annotation Platform)。
1.1 SHOE Knowledge Annotator
SHOE(Simple HTML Ontology Extension)Knowledge Annotator[3]由MaryLand大学开发,可认为是第一个在真正意义上实现语义标注的平台,通过选取和填表的方式轻松地向Web页面添加SHOE知识。SHOE是由类似HTML代码编写的语言,用于定义本体和标注语言。它没有用于显示Web页面的浏览器,主要用于SHOE标注演示。
1.2 SMORE
SMORE[4](Semantic Markup,Ontology,and RDF Editor)是由Maryland大学MIND(Maryland Information and Network Dynamics Lab)SWAP(Semantic Web Agents Project)研究小组开发的为用户提供无缝集成Web内容发布和语义标注的开发环境,还扩充了其他标注平台所不具备的许多特性,如本体管理、屏幕抓取等。
1.3 MnM
MnM[5]由KMi(Knowledge Media Institute)研究开发,其目标是利用已有本体导出的标记标注文档。MnM采用了易于理解的一般处理模式,集成了自适应的信息抽取系统(Information Extraction Systems,IES)Amilcare,支持知识学习和信息抽取。MnM先對Text或HTML文档学习库进行标注,然后利用标注结果生成词汇规则,该词汇规则可用于对其他未标注的文档集进行信息提取。
1.4 Melita
Melita[6]是在AKT(Advanced Knowledge Technologies)项目下研究开发,同时集成自适应信息抽取系统Amilcare。Melita是半自动的文本标注平台,它的功能为管理任务、信息提取和信息标记,这些功能是通过良好的界面操作和高效的信息提取算法来实现的。
1.5 AeroDAML
AeroDAML[7](The DARPA Agent Markup Language,DAML)属于UBOT(UML Based Ontology Toolset)项目的一部分,采用自然语言信息抽取技术从Web页面自动生成DAML知识标注平台,它把常见的概念和关系与DAML本体中的类和属性联系起来。
1.6 SemanticWord
SemanticWord[8]是在TeKnowledge项目下开发的基于MS Word环境的集成化的Word文档标注平台,它提供定制工具使得内容发布和语义标注同时进行。当内容被重用时,标注模式允许标注被重用。一个定制的模版库包含部分被标注的文本。它包含自动化的信息抽取系统和用以及精炼、增加它的输出内容的定制工具。
此外还有:M-OntoMat-Annotizer[9]是德国Karlsruhe大学的应用情报学和规范描述方法研究所(Institute of Applied Informatics and Formal Description Methods,AIFB)开发的多媒体内容标注的集成化平台,那些缺乏多媒体经验的索引编制者通过对低水平特性的自动抽取从内容上描述客体,从而实现图像和视频数据的手动标注;Annotea[10]由W3C组织研究开发,是基于通用开放式RDF(Resource Description Framework,资源描述框架)构架下We共享的标注平台;COHSE[11](Conceptual Open Hypermedia Service Environment)由Manchester大学和Southampton大学联合研究开发,其目标是利用元数据支持Web中Link创建与导航。
2 国外典型语义标注平台的特点比较
本节从11个方面详细分析一下以上6个典型的语义标注平台的特点,如表1所示。
3 典型语义标注平台比较分析
3.1 典型语义标注平台的技术比较
(1)语义标注平台的设计思想分为:①语义Web的方法,即以产生语义标注为主、本体生成为辅,如SMORE等;②知识工程的方法,是以本体为指导的文档标注,既产生知识库又生成文档标注,此类平台支持自然语言处理(Natural language processing,NLP),如MnM、AeroDAML等。(2)多数平台采取插件(如SMORE、MnM等)机制,便于功能扩充和系统集成[12];(3)标注存放位置有标注服务器、嵌入被标注的文档、单独的本地文件。嵌入标注是指页面的标注存储在被标注文档中,而标注嵌入在整个文档的头部(如SMORE),或者依附于被标注的文本区域(如SemanticWord);MnM等的标注以单独的文件存储,还允许标注作为知识库单元存储在WebOnto中;(4)标注过程和标注生成有普通的标注生成和借助信息抽取的标注生成。普通的标注生成实现相对简单,所有标注半自动产生。借助信息抽取的标注生成一个集成的信息抽取系统,需要综合自然语言处理和机器学习技术来解决自然语言的复杂问题。由于Amilcare是针对语义Web自动文档标注设计的自适应IES,从IES新手到专家的各类用户都能使用,所以支持IE的标注平台多数集成Amilcare,例如MnM、Me ita。此外,AeroDAML集成商业IES产品AeroText;(5)标注平台给用户呈现的形式有Web服务、现有实用平台的插件或扩充、独立的应用系统。AeroDAML以Web页面形式给用户提供语义标注的Web服务,输入文档URL可完全自动地产生标注信息,只提供预定义本体;SemanticWord扩充了MS Word。多数标注平台是独立的应用系统,按其处理模式分为客户和服务器两层(如Melita)或浏览器/服务器三层模式(如CHOSE等)和一般处理模式(如SMORE、MnM等)[13];(6)用户中心/协同设计:很少有组织有能力雇用专业标注者,所以提供给知识工作者用以简化标注过程的易用的用户界面是至关紧要的,一个较好的方法是提供单一的界面入口,使用户标注文件的环境与他们创建、阅读、共享、编辑文件集成在一起。平台设计要便于用户间协作,这是知识工作者与来自不同领域专家分享和重用智能化文档的关键的一方面[14];(7)从标注对象上分可分为对静态Web页、动态Web页以及多媒体资源的标注;(8)从标注的方式上可分为手动、半自动或自动,手动标注是标注人员手工直接将语义元数据信息写入Web页的源码中,半自动标注是借助平台用鼠标拖拉等方式决定要标注内容后由平台将信息写入Web页中,自动标注从概念上是自动将语义信息写入Web页中;(9)从标注元素的选择上可以采用不同类型的元素来加以区分,本文介绍的是以本体为标注元素的标注平台[15];(10)MnM,Melita支持有监督学习,其他平台不支持自动化学习。
3.2 典型语义标注平台存在的不足
通过表1可以发现典型的语义标注平台均具有各自的特点和适用范围,但普遍存在以下不足:(1)几乎所有标注平台的本体语言使用RDF(S)、OIL(Ontology Interchange Language)、DAML+OIL、RDF OCML(Operational Conceptual Modeling Language)等,标注语言使用XML、RDF(S)等,具体如表1所示,而没有平台支持最新的W3C Web本体语言OWL(Web Ontology Language);(2)除少数平台如SMORE支持本体词汇的编辑、修改和扩充外,支持对Web内容的多本体标注,多数平台都不支持本体词汇扩充,这与语义Web的应用环境相悖;(3)一个页面上的词汇往往涉及多个本体中的概念,少数平台如SMORE允许用户使用多个本体标注页面,多数平台不支持同时打开、浏览多个本体,并使用多个本体标注页面,这与语义Web的本体环境不符;(4)标注平台的多语言支持是关键,这对推进语义Web应用很重要,而以上所有平台只用英语标注,不支持多语言标注;(5)大部分平台采用先创建内容、后进行标注的“两步法”,只有少数平台支持内容发布与语义标注的同步进行[2];(6)多数平台的标注对象为HTML页、Image、E-mail、Word、PowerPoint等,且以静态内容为主,只有少数平台对多媒体对象、电子商务应用中的业务数据、E-Science中的科学数据、Deep Web数据资源等动态内容进行标注;(7)语义标注过程中本体查询、辅助推理支持及元数据产生的自动化程度不够,精度不高;(8)有的平台使用的本体元素还很有限,甚至有的还不支持Relations(即无法生成对语义Web极其重要的关系元数据);(9)标注平台的可用性、互用性、重用性和扩展性较差,需要进一步提高。
4 结 语
语义标注是很活跃的研究领域,它将推动语义Web走向实际应用,能够提高信息检索的精确性和语义资源的互用性。今后的技术挑战包括支持多媒体资源标注,提高自动化程度,进一步解决语义标注存储等问题。
参考文献
[1]Tim Berners-Lee.Semantic Web-XML2000[EB/OL].http:∥www.w3.org,2008-06-01.
[2]罗旋.基于复句领域本体的语义标注方法研究[D].武汉:华中师范大学,2006:31-33.
[3]OntoWeb:A Survey on Ontology Tools[EB/OL].http:∥www.aifb.uni-karlsruhe.de,2008-06-02:71-72.
[4]Aditya Kalyanpur,James Hendler,Bijan Parsia.SMORE–Semantic Markup,Ontology,and RDF Editor[EB/OL].http:∥www.mindswap.org/papers,2008-06-02:1-5.
[5]Maria Vargas-Vera, Enrico Motta,John Domingue et al.MnM:Ontology driven semi-automatic and automatic support for semantic mark-up[EB/OL].http:∥kmi.open.ac.uk,2008-06-08:1-6.
[6]F.Ciravegna,A.Dingli,D.Petrelli,Y.Wilks,User-system cooperation in document annotation based on information[EB/OL].http:∥www.aktors.org,2008-06-08:3-12.
[7]P.Kogut,W.Holmes,AeroDAML:applying information extraction to generate DAML annotations from web pages[EB/OL].http:∥semannot2001.aifb.uni-karlsruhe.de,2008-06-10:1-3.
[8]Marcelo Tallis,Semantic Word processing for content authors[EB/OL].http:∥ftp.informatik.rwth-aachen.de,2008-06-15:1-6.
[9]Stephan Bloehdorn,Kosmas Petridis,Carsten Saathoff.Semantic annotation of images and videos for multimedia analysis[EB/OL].http:∥www.acemedia.org,2008-06-15:1-12.
[10]Annotea Project Overview[EB/OL].http:∥www.w3.org,2008-06-20.
[11]OntoWeb:A Survey on Ontology Tools[EB/OL].http:∥www.aifb.uni-karlsruhe.de,2008-06-20:65-66.
[12]鄒亮,廖述梅.基于本体的语义标注工具比较与分析[J].计算机应用,2004,(24):329.
[13]廖述梅.基于本体的语义标注原型评述[J].计算机工程与科学,2006,28(9):124-125.
[14]Victoria Uren,Philipp Cimiano,Jos餰 Iria,Siegfried Handschuh.Semantic annotation for knowledge management:Requirements and a survey of the state of the art[EB/OL].http:∥www.siegfried-handschuh.net,2008-07-08:17-26.
[15]陶皖,李平,廖述梅.当前基于本体的语义标注工具的分析[J].安徽工程科技学院学报,2005,20(2):53.