国内本体研究进展:载文分析和知识基础*
2020-08-11孙雨生付荣荣郭隆敏
孙雨生 付荣荣 郭隆敏
(1.湖北工业大学经济与管理学院 武汉 430068)(2.华南理工大学工商管理学院 广州 510641)
1 引言
作为知识层面描述信息系统的概念建模工具和语义网核心技术,本体技术通过提供共同词汇解决人机信息交换问题、借助本体映射使不同模型方法、软件工具、范例与语言实现互操作、用计算机可理解形式化语言进行知识表示、获取、需求分析等,并广泛用于人工智能、计算机科学、信息系统工程、知识工程、数字图书馆、信息检索、地理、医学、化学、生物、旅游、金融、农林、机械、教育、电子商务、电子政务等领域。目前,本体技术研究已趋成熟并逐步实现工程应用但仍需深入研究:本体建模元语、构建标准等概念性问题达成共识,但本体半自动构建方法与工具、本体评价等尚未形成统一标准。因此,客观、全面分析国内本体技术研究进展,对把握研究主题与热点、突破难点、促进技术发展有重要意义。
本文用文献计量和基于高被引文献的内容分析法,从载文、知识基础两方面揭示国内本体技术研究进展。
2 数据来源、研究框架与方法
2.1 数据来源
为确保结论代表性、准确性和可操作性,笔者以CNKI的期刊论文库为数据源,以“本体”或“ontology”或“本体论”为关键词组合在题名中检索,收集国内本体技术文献(检索时间为2018年7月29日,发表期限截止到2018年6月30日),据笔者统计,现有本体技术研究主要集中在信息科技和经济与管理科学领域,故选择这两个领域,最终共得6190篇文献,剔除无关文献740篇,最终有效文献5450篇,国内本体技术研究最早出现在高济等1996年发表的《基于表示本体论的智能系统开发》一文中。
2.2 研究思路与方法
首先,统计文献数量、基金文献、来源期刊和高被引文献;其次,解析文献年代、基金文献及来源期刊统计结果,得出基本研究状况;结合高被引文献内容分析知识基础。
3 载文分析
3.1 年代分布
文献年代分布一定程度反映领域学术研究水平和发展速度。1996~2018国内本体技术文献年代分布见图1,可看出,文献分布呈钟形曲线,2009年达到峰值,近9年整体呈下降趋势,这与本体技术研究逐步成熟、走向实用、工程化有较大关系,但整体年发文量相对稳定,受关注度仍较高。
图1 1996~2018国内本体技术文献年代分布
3.2 基金文献分布
基金文献体现研究领域受重视度及创新度与前沿动态[1]。5450篇文献中共3093篇受到基金资助(多基金资助文献仅取最高级别基金),约占56.75%,年代分布见图2,和文献年代分布趋势吻合。各类基金资助文献中,国家和教育部等国家级基金文献2293篇,省部级、院校和科研院所基金、军队及国防基金分别为765篇、16篇、19篇,表明国内本体技术研究多受国家、省市部门资助,院校、科研部门及军队也给予一定资助,企事业等社会团体则资助较少,表明本体技术实践应用尚未普及。
图2 1996~2018国内本体技术文献基金资助分布
3.3 来源期刊分布
来源期刊分布主要分析刊载期刊及其发文状况,为读者获取信息、发表文献提供指导,利于主办方把握办刊方向与特点[2]。经统计,5450篇文献发表的期刊多属图书情报、计算机及科技信息领域,其中,载文大于20篇期刊见表1;发文85篇及以上期刊共15种,共载文1991篇,占总量36.5%(约1/3),为该领域文献主要刊载期刊。
4 知识基础分析
高影响力文献(尤其是高被引文献)是新文献理论、方法来源,反映领域知识基础。故笔者通过阅读、归纳高被引文献内容,初步得出本体技术知识基础。
4.1 被引分析
被引频次是评价文献质量重要指标,文献被引频次越高,其观点或方法同行认可度越高,研究水平、价值及影响力越高。经统计,国内本体技术文献共4387篇被引用过,占总量80.50%,被引频次不小于10文献共1241篇,单篇最高被引2359次,指数均较高,表明本体技术受关注度较高且理论基础较好并逐步成熟,同时,根据文献[3],h-b指数可用于确定研究领域高被引文献,经分析,国内本体技术高被引文献共77篇且发表时间均较早(见表2),一方面,文献被引频次与发表时间有关,另一方面,说明近年内该领域无重大理论或技术突破。此外,该领域应用研究文献被引频次均较高,表明随着本体技术成熟,学者关注重点逐步转向应用探索。
4.2 内容分析
分析高被引文献可知,国内本体技术知识基础主要包括发展演绎、理论研究、本体构建与优化、本体应用四方面。
4.2.1 发展演绎
本体起源于哲学,20世纪末引入到人工智能领域[4],后主要用于计算机、网络、软件工程、信息系统、知识工程等领域的自然语言处理、信息交换、互操作、数据库管理、知识获取、表示和管理。国际计算机科学界1998年召开的第一个本体主题会议“信息系统中形式化本体论国际会议”及本体研究成果数量、质量增加标志着该领域研究日趋成熟[5],国内本体技术研究最初多从国外学习借鉴,后逐渐自主创新,目前趋于成熟并用于解决诸多学科领域问题,形成相对标准的领域本体分析、构建、评价方法与工具,本体专业性、详尽性、描述深度、粒度及形式化更强并趋向多元化发展、交叉学科应用。
表1 1996-2018国内刊载本体技术大于20篇期刊
4.2.2 理论研究
国内本体技术研究吸收国外研究成果,重视理论研究,主要包括本体技术演变、定义、分类、描述语言、构建工具等。
1)本体概念
不同领域对本体定义不同。人工智能领域,Neches等认为本体是给出构成相关领域词汇的基本术语和关系及用这些术语和关系构成的规定词汇外延规则的定义[6];B.Chandrasekaran等认为本体研究特定领域知识的对象分类、对象属性和对象间关系,为领域知识描述提供术语[7]。信息科学和知识工程领域,Gruber[6]认为本体是概念模型的明确的规范说明;Borst认为[6]是共享概念模型的形式化规范说明;Guarino等[8]引入“域空间”概念并定义“概念关系”,明确说明本体论和概念化间差别,对“概念化”明确说明;Studer[6]等认为是共享概念模型的明确的形式化规范说明;Fonseca[7]从建模元语方面认为是从特定角度用特定词汇表描述实体、概念、特性和相关功能的理论;William等[7]从特征和形态方面认为是用于描述或表达领域知识的概念或术语集,以组织知识库较高层次抽象或描述特定领域知识。总之,本体主要包含概念模型、明确、形式化和共享四层含义[6]。
2)本体分类
本体按不同标准(如表示形式化度、描述对象、应用领域、目的、主题、是否在线、是否共享等)分类方式各异:Guarino[6]基于详细度(分为详细度高的参考本体及详细度低的共享本体)和领域依赖度(分为顶级本体、领域本体、任务本体和应用本体)分类;按本体形式化程度分高度非形式化本体、非形式化本体、半形式化本体、严格形式化本体[7];按描述对象分特殊领域本体、一般世界知识本体、问题求解本体和知识表示语言本体等[9];按应用领域分为人或组织的通信、系统间互操作和系统工程领域三类[5]。此外,Perez和Benjamins将本体分为[6]知识表示本体、普通本体、顶级本体、元(核心)本体、领域本体、语言本体、任务本体、领域-任务本体、方法本体和应用本体10种有交叉本体。
3)描述语言
本体描述语言应有定义良好的语法、语义、有效推理支持、充分表达能力,以清晰、形式化描述概念,可用自然语言、框架、逻辑语言、语义网络等描述。本体描述语言根据应用及功能各异:基于AI本体描述语言包括KIF(多用于企业级[10])、Ontolingua、Loom、OCML、OKBC、FLogic等[8];基于Web本体描述语言包括SHOE(基于并扩展HTML)、OML、CMKL、OWL(包括 3 个子语言[11]OWL Lite、OWL DL、OWL Full)、XOL、DAML、OIL、RDF、RDF(S)(后6种均基于XML,属W3C本体语言栈中不同层次[10])等,此外,OWL、OIL、DAML+OIL、CMKL基于描述逻辑[8],OWL、DAML+OIL、RDF(S)是 W3C 推荐的标准本体描述语言;基于谓词逻辑本体描述语言包括 Ontolingua、CycL、Loom、OIL、KIF、F-logic、XOL等[9],前三者和具体系统相关,基本只用于相关项目[10];基于图本体描述语言包括WordNet语义网络、概念图、CR、DAG、LSG、LCG等。
4)构建工具
表2 1996-2018国内本体技术研究高被引文献
续表3
按支持语言分两类[12]:基于特定语言并一定程度支持多种基于AI本体描述语言,如基于Ontolingua语言的Ontolingua、基于LOOM语言的OntoSaurus、基于OCML语言的WebOnto等;基于Web本体描述语言构建语义Web本体,如Protégé、WebODE、OntoEdit、OilEd等。按功能分[13]编辑工具(如OntoEdit、OILed、Protégé等)、标注工具(如AeroDAML、OntoAnnotate、COHSE等)和集成工具(如PROMPT、FCA-Merge、ODEMerge等)、本体存储查询工具和学习工具等。
4.2.3 本体构建与优化
1)构建方法
本体构建遵循明确性和客观性、完全性、一致性、最大单调可扩展性、最小承诺等规则[6],主要构建方法有七步法、METHONLOGY法、IDEF5法、TOVE法(又称Gruninger&Fox“评价法”[14]、企业建模法[12])、骨架法(又称 Enterprise ontology法[9])、SENSUS法、KACTUS法[15](又称Berneraset al法[14])、AFM 法[16]、五步循环法[16]、循环获取法[17]、生命周期法[9]和基于领域知识重用的虚拟本体构造法[18]等。
2)建模元语
主要包含类(又称概念)、关系、函数、公理和实例 5 类,概念间基本关系包括 part-of、kind-of、instance-of和attribute-of。实际应用中本体构造无需严格按上述5类元语且概念间关系定义可按应用需求而不限于上述4种基本关系[6]。
3)建模思路
核心包括明确领域中概念、概念属性和约束条件、概念间层次关系等[13]。陈刚等[18]提出重用现有领域知识库知识构建可重用虚拟领域本体思路;王洪伟等[19]提出基于描述逻辑的本体建模思路并构建基于逻辑的形式化本体模型;向阳等[20]根据软件工程原理,提出基于Jena的OWL本体建模思路,包括构建步骤与实现算法;刘宗田[21]等提出构建面向事件的本体模型;丁晟春[22]基于本体工程思想提出基于顶层本体的领域本体构建框架。
4)本体映射
旨在发现不同领域本体概念间相关性,是本体集成、合并、修正、翻译技术基础,可很好解决本体异构问题[23],主要研究本体映射方法、工具、模型等。黄烟波等[24]分类本体映射方法,针对本体定义模型提出基于语法、实例、定义和层次结构的分类,针对映射技术提出基于规则、统计学和机器学习的分类;瞿裕忠等[25]从模型转换途径、映射策略适用范围及映射结果表达形式三方面归纳关系数据库模式与本体映射难点并基于此比较映射工具;唐杰等[26]基于贝叶斯决策理论提出最小风险的本体映射模型RiMOM,提供多策略本体映射方法;高鹏等[27]研究用户需求本体与产品配置本体间映射,以自动获取产品配置模型;徐振宁等[28]提出本体到文档类型定义映射算法和文档类型定义到关系视图映射算法,实现XML文档和数据库视图在语义和结构上对应关系。王宇华[29]等构建本体需求模型到UML原模型映射规则以实现两者转换;刘宗田[21]等提出用事件本体将句子或篇章映射成事件网络。
5)相似度计算
相似度衡量文本中词语可替换度,反映信息检索、信息推荐和过滤中文本或用户查询符合度,广泛用于数据挖掘、机器翻译[30,31]。朱礼军等[32]引入计算语言学中语义距离思想计算领域本体中概念相似度;陈杰等[33]将概念相似度分为概念语义初始相似度层和概念非上下位关系相似度层,加权两层相似度得出最终相似度;徐德智等[34]基于SUMO提出计算概念语义相似度的语义距离法;李文清[35]提出将基于节点信息量的概念语义相似性算法及基于边计算的本体概念语义相似度算法线性加权的算法。李鹏等[31]用本体结构上ISA关系提出本体内部概念间相似度算法;黄果等[30]提出基于领域本体的可量化概念语义相似度计算模型,依类型、密度、深度、强度、属性对有向边权重影响度进行线性加权组合以计算相似度。
6)本体评价
本体评价较难且相关研究相对较少,尚无统一标准。Duineveld A.J[36]构建本体评价框架,从 Ontology、General、Cooperation三方面评估本体构建工具 WebOnto、 Ontolingua、 ODE、 ProtégéWin、KADS22、OntoSaurus;宋丹辉[37]认为本体评价方法包括基于专家法、基于任务法、基于黄金标准法、基于指标体系法和基于文本语料库法等。
4.2.4 本体应用
1)语义Web
本体技术对语义Web研究、应用起重要推动作用。李曼等[38]用领域本体及其推理能力生成优化的服务组合图,提出Web服务动态组合方法;吴健等[39]基于词语间距离度量、义原相似度两种词汇语义相似度算法,提出基于本体论和词汇语义相似度的Web服务发现方法;彭晖等[40]提出基于本体概念相似度(通过概念间语义距离计算)描述服务请求方和发布方的Web服务匹配算法;邓志鸿等[41]分析本体在Web信息集成中应用;周明建[42]等提出基于Web页面的信息项本体和结构项本体的信息提取规则以有效提取Web页面信息;袁柳等[43]提出基于领域本体语义标注Web数据库查询结果以便机器处理和用户理解。
2)信息检索
本体技术可有效提高信息检索系统性能[23]。廖明宏[44]提出基于本体信息检索方法;徐振宁[5]提出基于本体的智能化、个性化语义信息检索系统体系结构;武成岗等[45]提出基于本体和多智能主体、可对用户需求及Internet信息进行领域分类的信息检索服务框架以提高检索结果针对性;万捷等[46]基于本体将用户检索需求扩充成语义集并通过文档分析器过滤检索结果以提高检索质量;丁晟春等[4]分析Jena在语义检索中作用与应用;廖乐健等[47]从知识表示与推理角度提出基于本体与模板规则混合技术,混合本体和树形模板以增强模板语义表达能力,提高信息抽取智能性;宋峻峰等[48]用描述逻辑、tableau算法等语义索引项生成基于本体的文档逻辑视图和用户信息需求逻辑视图改善信息检索性能;陈康等[49]用传统技术收集Web资源中领域信息,基于领域本体将用户检索需求转为本体概念,实现用户以自然语言方式表达检索请求;潘旭伟[50]提出基于情感感知和本体方法实现信息服务自适应个性化;王进[51]用本体刻画不同语言中对应领域知识,提出基于语义的跨语言信息检索模型解决查询语言与检索语言间语义损失及曲解问题。
3)需求分析
张劲松等[52]针对配置建模存在问题,提出基于本体的产品配置建模方法与过程并用面向对象法表达配置模型;高鹏等[27]提出基于本体的用户需求模型和产品配置模型,构建将用户需求知识转成产品配置知识的本体映射规则;金芝[53]以企业信息系统为背景,提出以企业本体和领域本体为基本线索,引导领域用户全面描述现实系统并通过重用领域需求模型,构造应用软件需求模型的基于本体需求获取法;陆汝钤[54]等将对象关联引入到面向对象法中以增强其表达能力,构建自动化需求获取和分析模型。
4)知识工程
顾芳[9]等概述知识工程中本体构建准则、方法、表示语言、代表项目、主要应用等;王英林等[55]提出基于本体重构知识管理系统框架,解决知识管理中知识类型不可扩充局限性;郭鸣等[56]提出基于本体和语义Web、支持知识处理的结构层次化产品信息模型并给出从EXPRESS模式到DAML+OIL映射方法;胡玉杰[57]等基于产品知识表达模型构建流本体和功能本体,进而定义特定领域产品共享、通用知识并提出基于本体的产品知识表达应用模型和集成框架;张东民[58]提出包括多知识源设计知识获取、建模和检索的设计知识管理框架,研究基于本体的设计知识建模方法;周肖彬[59]等提出医学本体构建、知识表示及获取方法;刘炜[60]等分析知识本体对元数据方案的补充、高层互操作作用及知识本体构建一般流程和方法;李勇[61]等提出通用、工程化领域本体构建方法;钟秀琴[62]提出几何学形式本体及知识表示;王文俊[63]基于ABC本体提出应急预案本体及其表示。
4.2.5 其他研究
主要是本体在关系数据库与本体库中不同存储格式间转换问题。李曼等[64]提出将常用本体查询信息按类分别存于不同表以减少本体查询时表连接代价;徐振宁[28]将知识表示和处理引入到Web信息处理,为半结构化Web数据和关系数据库提供统一语义模型,实现基于数据库的Web信息动态发布与多数据源集成。
5 结语
综上,本文用文献计量、内容分析法,从载文、知识基础两方面揭示了国内本体技术研究进展:从载文角度看,国内本体技术研究高度受关注且逐步成熟、走向实用,年发文量、基金文献量均较高且资助中多为国家级基金,表明该领域侧重科学研究、前沿性较强、实践应用尚未普及;来源期刊分布较广,现有成果主要刊载于图书情报、计算机和科技信息类期刊。从知识基础角度看,主要分发展演绎、理论研究、本体构建与优化、本体应用四方面:发展演绎表明本体技术研究趋向多元化发展、交叉学科应用;理论研究较多,虽尚无完全统一标准但基本达成共识,包括本体定义、分类、描述语言、构建工具等,学者主要分布于人工智能、信息科学领域;本体构建与优化涉及构建方法、建模思路、本体映射、相似度计算、本体评价等,本体优化、本体评价、本体半自动构建等将逐步成为研究热点;本体主要用于语义Web、信息检索、需求分析、知识工程等领域。