本体术语学:把术语和知识本体统一起来的范式
2016-07-27邱碧华编译
邱碧华 编译
本体术语学:把术语和知识本体统一起来的范式
邱碧华 编译
(全国科学技术名词审定委员会,北京 100717)
摘 要:术语在现代知识社会中肩负着基础性的作用,现代社会信息技术的应用对术语学理论研究提出新的挑战。信息技术要求术语具有其计算机化的代表物,而旧有的普通术语学理论满足不了现代术语实践的状况;西方的术语学理论家在术语学与信息技术、术语学与知识工程相互碰撞的实践中,构想了“本体术语学”这一术语学理论的新范式,这一构想在具体的术语学实践中产生了积极的成果。文章旨在介绍和分析“本体术语学”的理论渊源和学术成果。
关键词:普通术语学,知识本体,术语,概念,双重符号学三角形,本体术语学
引 言
法国萨瓦大学(Université de Savoie)计算机科学系的C.罗什(C.Roche)教授,是国际标准化组织(the International Organization for Standardization,ISO)术语国际标准ISO 704和ISO 1087制定项目的负责人[1],多年担任国际“术语与知识本体:理论和应用会议”科学委员会的主席,他在术语学与信息技术、术语学与知识工程相碰撞的实践中,于2007年提出了“本体术语学”(Ontoterminology)这一术语学理论的新范式[2]。近年来,他与他的同事M.卡尔贝格-沙洛(M.Calberg-Challot)、L.达马斯(L.Damas)、P.鲁阿尔(P.Rouard)又将这一理论不断充实完善[3],并对国际标准化组织的术语标准ISO 704、ISO 1087-1进行了重新考察,提出了很多科学、合理的修改建议[4]。本文旨在对“本体术语学”思想产生的理论基础和形成过程做简单梳理,以期我们对欧洲术语学理论的多元化发展有更深入的了解。
在日益全球化的信息社会中,术语所肩负的基础性作用毋庸置疑。现代社会信息技术的应用,如:计算机辅助翻译、多语信息检索、专业性百科全书、语义网等等都自然而然要求术语要有其计算机化的代表物。这也对术语学理论的发展提出了新
C.罗什提出的“本体术语学”的新范式[1],说的是:一种“术语总体”,它的概念系统是形式化的“知识本体”,这个“术语总体”有语言学和概念化两个维度,是这两个维度的统一体,但这种新范式强调的是这两个维度的不同之处。“本体术语学”旨在对现代术语学的语言维度和概念维度进行调和,同时又保持它们各自根本性的不同。为了更好地说明这个新范式,罗什提出了“双重符号学三角形”(a double semiotic triangle),它将语言学观点与知识本体的观点联系了起来:一方面,术语作为“能指”与其概念的名称联系了起来;另一方面,术语的“含义”作为“所指”与概念建立了联系。这种术语学的新方法由此引入了两种定义:(1)用自然语言书写的“术语”的定义,它被视为一种语言学上的解释,而不一定要求标准化;(2)用形式语言书写的“概念”的定义,它是一种形式化的和计算机化的规范,以便于“术语”在信息技术中的可操作性。这个“双重符号学三角形”强调构成每个“术语总体”的两个不同的层面——语言符号系统和概念符号系统,表明相遇在现代术语学中的“术语的含义”和领域本体中的“概念”之间存在着不同。
罗什认为[3],在信息技术中实现“术语”的可操作化,这实际上验证了维斯特所创立的普通术语学的科学性本质;但是,旧有术语学不可避免的历史局限性,使得今日的术语学有被专业化的辞典编纂学和知识工程吞并的危险,也就是说,术语学要么被简化成一种纯粹语言现象的研究,要么被简化成计算机化知识的代表物。因此,很有必要对旧有的术语学进行进一步发展和深化。
下文从两个方面对“本体术语学”这个新范式的理论渊源进行追述,然后力求较详细地介绍“本体术语学”这个新范式。
一 从概念出发的传统术语学
20多年来,虽然有不少西方学者质疑术语学作为一门独立学科的地位,也有学者试图把它降低为应用语言学的一部分[6],但是,人们都由衷承认欧根·维斯特(Eugen Wüster)在20世纪创立了现代术语学,并使它以独立学科的姿态屹立于世界[7]。西方学者们都承认,“普通术语学”(the general theory of terminology,GTT)尽管依旧面临很多争议,但无论这种思想是否称得上是理论,也无论这种理论是否成熟,都是前人想对术语做更深入理论探究的一种努力[7]。
依据国际标准化组织的术语标准ISO 1087-1,“术语”被定义为:“属于一种特殊语言的一套名称。”[8]此套标准旨在通过标准化手段剔除科技语言中的“歧义”现象,这也是传统术语学的目标。为了实现这个目标,维斯特的普通术语学提出了“概念优先于名称(术语)”的先决条件,并且认为“概念”具有独立于语言多样性的普遍性。在ISO术语手册中,H.费尔伯(H.Felber)对“terminology”所下的三种定义,都体现了“概念优先于术语”的理念[8]:“处理概念及其代表物(术语、符号等)的学科内部和跨学科的知识领域”;“出版物中某学科的概念系统被术语所代表”;“代表某学科领域被定义概念的常规符号”。在普通术语学里,术语是“专业化的语言单元”,是“由唯一的特征联合体所产生的知识单元”,它为学科领域中的概念定名;而“概念”是“术语的含义”,“概念”不是依其自身存在的,它须依赖于用自然语言书写的术语的定义,或者借助于半形式化的语言(semiformal language)所表达的定义(如公式)才能存在。
虽然在术语学传统思想中,“概念”是普通术语学的核心,但它与现代人工智能中用形式语言表示的“概念”有所不同:在旧有的术语学思想中,概念是通过词汇化的术语定义表达的,并且传统术语学对“概念”进行阐述,也不是为了能对它们进行操作(用计算机处理)。因此,术语工作中对“概念”计算机化代表物的需求,是信息技术发展造成的结果。随着信息技术的发展,在欧洲乃至全球出现了多语的内容管理系统、多语的信息检索技术、专业化的百科全书或者语义网,所有这些现实应用都对术语学理论提出了新的需求。
虽然,体现在国际标准中的普通术语学原则,假设了一些基于相互联系的概念系统的范式,但是,这些范式未能跟上时代的要求,这就给实现术语的计算机可操作化带来了难度;在术语的计算机的实践中,人们感到有必要对普通术语学旧有原则进行重新审视,需要从逻辑上对一些原则进行重新规范,否则,在信息技术时代,运用人工智能原理和方法的“知识工程”(knowledge engineering)大有可能取代旧有的术语学理论。在此背景下,西方学者认为应该向术语学理论中引入一些人工智能的新特色,要将“知识本体”(ontology)融于现代术语学理论。
二 知识工程中的“知识本体”
知识工程中的本体论思想与信息技术时代的术语学,都期望在人类之间或者人与软件之间实现信息交流和知识的共享。二者也依赖着一个相似的原则:拥有的共享要基于标准化,要开发共同的概念系统。法国学者罗什等在实践中发现:在科技交流中,专家们在交流出现歧义或者不通畅时,是概念间的逻辑形式规范或者半形式化的语言(例如公式、图表、图示)使大家达成共识,而不是依靠自然语言形式。由此,罗什等认为:“知识本体”为信息技术时代的术语以及实现其可操作性和共享,提供了最理想和最有用的代表物和手段[1]。
依据美国学者 T.格鲁伯(T.Gruber)的观点[9],“知识本体”是“某领域概念体系的明确规范”,它首先是“对可能存在的概念及其关系的一种描述(就像某种程序的形式规范一样)”,以实现从逻辑或者计算机操作的角度对概念及其关系进行处理。也有学者更进一步表明:“知识本体是可以共享的概念体系的形式规范”[10],“知识本体是对概念体系明确的、形式化的、可共享的规范”[11]。
虽然也有学者认为:“一个明确的知识本体可能采取不同的形式,但是它必须包括术语词汇表和一些有关它们含义的规范(即定义)”[10];但是,“知识本体”归根结底并不是“术语”[1],因为“知识本体”并没有考虑“术语”的语言学维度,“概念”是一种“超语言的”知识[12]。虽然“术语”不能简约成随意性的词汇,也不能将其简单地看成是给“概念”贴上标签,但是,“术语”所应该具有的重要特色,如:术语的用法、术语词汇化的形式(包括术语的变化和缩减、修辞特点)、术语隐含的信息以及语言关系等,“知识本体”都不可能具备。
在知识工程中,对“知识本体”和“概念”进行的定义,直接取决于所使用的形式语言。例如,“描述逻辑”(description logic)是适合于对“知识表示”(knowledge representation)进行描述的逻辑形式;而“框架表示语言”(frame representation language)则提供了半形式化和更具人类可读性的语言。“网络本体语言”(the Web Ontology Language,OWL)综合了这两种方法的优点。
罗什认为,对“知识本体”的定义,实际上应该运用形式(或者半形式化的)语言并遵循这种人工语言的认识论原则[13]。
三 本体术语学
科技文本的写作和知识建模,是两种各自涉及不同语言的不同活动;前者涉及自然语言,而后者涉及形式语言。这两种语言,对我们这个“世界”的定义采用的是不同的观点。近年来,人们常谈论的“领域本体”(domain ontology),指的是对学科概念的一种描述,包括描述学科中的概念、概念的属性、概念间的关系以及属性和关系的约束。由于知识具有显著的领域特性,所以“领域本体”能够更为合理而有效地进行知识的表示[13]。罗什认为,作为科学知识表示的“领域本体”,虽然其有用的信息是从语料库里提取的,但我们对它进行定义时所采用的方法,完全可以与“说”它的各种语言学方法相脱离。
在信息技术背景下的知识概念体系(conceptualisation)远远不仅是简单地对“概念”进行形式化或者计算机化的表示,它需要以认识论原则为指导;术语学不仅仅是关于术语(专业性的词汇单元)的科学,它也是有关对象客体(它们占据着这个世界)的科学,后者决定了术语学也需要认识论的指导。
旧有术语学的原则在信息技术社会条件下,需要引入一种新的理论范式——“本体术语学”:它的概念体系是以认识论为指导的形式化的知识本体。与普通术语学一样,“本体术语学”也是以“名称学”方法为基础的:“专家知识中的‘概念’成为术语学分析的起点。”[1]“本体术语学”依赖两种相关但又分离的系统:(1)语言系统:直接与专业话语和科技语篇相连;(2)概念系统:关心的是领域建模。它首先要对“领域本体”和概念在形式语言层面上进行定义,然后才确定最适合的术语(自然语言形式,优先考虑最新标准化的术语)对概念进行定名。
罗什提到,虽然近十几年在术语工作中存在着其他以知识本体为导向的方法,例如“术语本体编纂学”(termontography)等,但是这些方法是以“语义学”方法为基础的:“文本中的术语(语言学上的表达)成为术语学分析的起点。”[3]“本体术语学”侧重于概念体系的建构,而“术语本体编纂学”侧重的是专业化的词汇。从语料库中抽取出来的词汇化的结构,肯定与由信息专家运用形式语言直接定义的概念结构不一样,即所谓“说话不是建模”(saying is not modeling)[12]。
“本体术语学”中的“概念”和“术语”是以各自独立的方式存在着的。“术语”遵循语言学的法则,而“概念”遵循形式化的逻辑规范。因此术语的定义(用自然语言书写)也是与概念的定义(用形式语言表达)相分离的。这就使得我们可以对“术语总体”在概念维度和语言维度这两个维度上进行管理。这也导致在“本体术语学”中出现了两种定义:(1)在形式上定义“概念”;(2)从语言学角度对“术语”及其用法进行解释[3]。
罗什为“本体术语学”构建了一个“双重符号学三角形”[3]模型(见图1),它是以古典语言学的语义学三角形模型(见图2)[1923年由奥格登(Ogden)和理查兹(Richards)创建,维斯特普通术语学的四部分词语模型也基于此]为基础的。“双重符号学三角形”旨在表述清楚本体术语学中“术语”的语言学含义和“知识本体”层面的“概念”含义并不是完全对等的。这个模型强调了两种不同的符号系统:语言学符号系统和概念符号系统,它标识出在术语构建过程中所牵涉的不同要素及其关系。
图1 双重符号学三角形
图2 古典语言学的语义学三角形
与传统术语学一样,“本体术语学”也能实现语言的标准化。而且,它更加体现了维斯特关于“‘概念’具有独立于语言多样性的普遍性”的思想:“本体术语学”保留了不同实践群体间语言的多样性,而不妨碍它们共享共同的学科领域和标准化的概念体系。实际上,不同语言或者文化背景下的不同术语可以表达同一个概念,借助于这个概念的标识符,我们可以清楚地知道这个概念在“知识本体”中的确切位置。术语的标准化可以借助概念的标识符实现,即使这个标准化术语并没有在现实中使用。罗什举了“电压阈值继电器”这个例子:此概念在英语中俗称voltage replay,标准化写法应该是voltage threshold replay(但并未使用)[13];而在法语中通常书写成relais de tension,标准化术语则是relais à seuil de tension,这两种语言虽然表达形式不同,但所指概念并未改变,都指的是 “电压阈值继电器”。
欧洲的术语学实践,证实了“本体术语学”理论的有效性,它在多语的信息检索系统和使知识资本化(注:即将知识变为资本,知识的资本化是知识经济、网络经济时代的特有现象)的专业性百科全书中得到应用。例如:欧洲加热和冷却应用技术的可持续性项目(ASTECH),此项目旨在为欧洲再生能源技术领域的供应商和用户之间提供共享信息的平台,它的多语言搜索引擎利用的就是“本体术语学”的原则,这个项目的文献和信息可用9种语言进行发布和搜索[14]。
ASTECH项目的第一步,就是先建立一个共同且独立于各种语言的“知识本体”,其中,“概念”由特殊微分法给出定义;第二步,参加项目的合作伙伴给出本民族语言的术语定义,也就是将不同的术语(包括术语变量)与共享的同一个“概念”相连;如果再有新的民族语言需要加入这个项目,只需针对共享的“概念”提出自己特有术语的语言学定义即可。每一种文档,都依据“概念”进行分类,每种“概念”就像一个文件夹,把相关的文档收在一起,而不用去管它的书写语言是什么。人们依照自己的母语进行信息查询即可。利用“术语”之间的语言关系和“概念”之间的形式关系,这个项目可以不断得到改进。
四 结 语
20世纪90年代以来,信息技术给全球化的术语实践工作带来极大的便利,也给术语学理论建设带来极大的挑战。“知识工程”等新生事物的出现,使得旧有的普通术语学理论不能解释现代术语学实践所遇到的新问题,以罗什为代表的信息技术领域的学者,从自己对专业技术领域术语问题的长期观察和思考中,为术语学理论引入了“本体术语学”这种新的范式,它将“知识本体”引入了术语学理论。这种新范式,既将“术语总体”的语言维度和其概念维度相分离,同时又在这两种非同构的维度间建立起科学的联系[2]:(1)“术语总体”的语言成分包括“术语”(规范化的和不规范的专业词汇),它们依照语言关系(例如上下位关系和同义关系等)相互联系着;用自然语言书写的“术语”的定义,可看成是一种语言学上的解释。(2)“术语总体”的概念成分是一种形式化的“知识本体”,它的“概念”是用概念关系相联系的,例如“……是一(种)”(is-a(kind of))和“……的部分”(part of)等,用形式语言表达的“概念”的定义,可看成是一种逻辑的规范。
“本体术语学”强调认识论原则对学科概念体系所起的重要支配作用,强调术语学建设需要科学的方法,其中学科专家所起的关键性作用不容忽视。“本体术语学”理论有助于我们在日益全球化的术语系统中,实现“术语”的“语言维度”和“概念维度”这两种非同构维度的连接。
目前,“本体术语学”理论还在发展完善中,它在信息技术实践中已得到很多应用,例如知识绘图和浏览技术、叙词表编辑技术(OTe-for-Thesaurus)等,在此,“知识本体”被看成是一张概念图,专家可以顺着is-a(kind of)和part-of关系进行定位,以便得到与“概念”相连的信息。
罗什及其同事,近年来又运用“本体术语学”的理念,对国际标准化组织依据原普通术语学理论原则制定的术语标准进行了重新审视,旨在改进其不足之处,达到保留、完善普通术语学科学性本质的目的。
综上所述,如果依照西班牙女学者卡布雷(Cabré)为术语学设计的“多门理论模型”[15],“本体术语学”无疑是通过“术语”的“概念体系”(知识本体)这扇门,进入到“术语学”这个复杂“多面体”的一种通路。我们期待着它在日益全球化的术语学实践中发挥更好的作用。
注释
此文编译自“Ontoterminology:How unify terminology and ontology into a single paradigm”by Christophe Roche. http://www.lrec-conf.org/proceedings/lrec2012/pdf/567_ Paper.pdf
参考文献
[1][EB/OL].(2014-12-23)[2014-1-22].http:// termcoord.eu/termania/why-is-termonology-your-passion/ interview-christophe-roche/.
[2]Roche C.Le terme et le concept:fondements d'une ontoterminologie[EB/OL].(2007-09-10)[2014-12-18]. https://arxiv.org/ftp/arxiv/papers/0801/0801.1275.pdf.
[3]Roche C,Calberg-Challot M,Damas L,Rouard,et al. Ontoterminology:A new paradigm for terminology[EB/ OL].(2011-09-17)[2014-12-15].https://hal-univdiderot.archives-ouvertes.fr/hal-00622132/.
[4]Proceedings of the 10thTerminology and Knowledge Engineering Conference(TKE 2012)[EB/OL]. (20011-11-18)[2014-11-16].http://oeg-lia3.dia. fi.upm.es/c/document_library.
[5]Pavel S,Nolet D.Handbook of Terminology[EB/OL]. (2002-09-17)[2014-12-15].http://itia.ir/farsi/ documents/ha.pdf.
[6]Sageder D.Terminology today:a science,an art or a practice?someaspectsonTerminologyandits development[EB/OL].(2011-02-15)[2015-01-22]. http://www.phil.muni.cz/plonedata/wkaa/BSE/BSE% 202010-36-1/BSE%202010-36-1%20(123-134)% 20Sageder.pdf.
[7]Campo A.The Reception of Eugen Wüster's Work and the Development of Terminology[EB/OL].(2014-11-13)[2015-02-27].https://papyrus.bib.umontreal.ca/ xmlui/bitstream/handle/1866/9198/Campo_Angela_2012 _these.pdf?sequence=2.
[8]Felber H.Terminology Manual[M].Vienna:Infoterm Publishing,1984:1-100.
[9]Gruber T.A Translation Approach to Portable Ontology Specifications[EB/OL].(1993-12-15)[2015-1-22]. http://tomgruber.org/writing/ontolingua-kaj-1993.pdf.
[10]领域本体[EB/OL].(2014-12-15)[2015-1-22]. http://baike.baidu.com/view/4695937.htm.
[11]知识本体[EB/OL].(2013-12-10)[2014-12-27]. http://baike.baidu.com/view/554471.htm.
[12]Roche C.Saying is not modeling[J].Natural Language Processing and Cognitive Science,2007(6):23-56.
[13]Roche C.Multilingual Thesaurus:The Ontoterminology Approach[EB/OL].(2014-11-12)[2015-01-21]. http://www.cidoc2014.de/images/sampledata/cidoc/ papers/F-2_Roche_Damas_Roche_paper.pdf.
[14]Ushold M,Gruninger M.Ontologies:Principles,Methods and Applications[J].Knowledge Engineering Review,1996(11):20-89.
[15]Cabré M T.Theories in Terminology[J].Terminology,2003(9):10-198.
中图分类号:N04;H083
文献标识码:A
DOI:10.3969/j.issn.1673-8578.2016.03.004
收稿日期:2015-12-28
作者简介:邱碧华(1968—),女,全国科学技术名词审定委员会副编审。2003年底到2005年初,在奥地利维也纳大学学习,主要研究术语学等。通信方式:qiubh@cnctst.cn。的挑战。在过去十几年里,很多学者对“知识本体”(ontology)寄予厚望,认为它作为“学科概念体系可共享和形式化的规范”[4]可以作为术语计算机化的代表物。但是,概念系统在本质上是“超语言的”(extra-linguistic)[1,5],一个“知识本体”并不是一个“术语总体”(terminology),因为“术语总体”中的术语是词汇化的概念,是一种自然语言形式;反过来,“术语总体”也不是“知识本体”,因为“知识本体”所说的“概念”,虽然也指术语的“含义”,但却是以形式语言形式表达的。在信息技术时代,术语(尤其是科技术语)的存在要依赖于两种不同的符号系统:(1)语言学的符号系统:在专业语言中体现为科技文献的书写形式;(2)概念符号系统:描述科技领域的专业知识,体现为形式化的语言。这两种系统既彼此分离又相互联系。
Ontoterminology:A Way of Unifying Terminology and Ontology into a Single Paradigm//
translated and edited by QIU Bihua
Abstract:Terminology is assigned to play a more and more important role in the information society,and IT applications raise new challenges for Terminology.Information technology calls for the appearance of the computational representation of terminology,however,the old terminology theories(GTT)cannot bring a satisfactory explanation for modern terminological practice,esp.in the scientific fields.Among these conflicts between Terminology and information technology as well as Knowledge Engineering,a new paradigm of Terminology,i.e.ontoterminology,seems to be the most suitable solution.This paper aims to introduce and analyze the ontoterminology theory and related academic achievements.
Keywords:General Theory of Terminology,ontology,terms,concepts,double semiotic triangle,ontoterminology