国际河流争端事件分面分类词表构建
2019-02-15施国良潘奕慧谢泽宇杨汉钰
施国良,潘奕慧,谢泽宇,杨汉钰
(河海大学商学院,江苏 南京 211100)
在国际河流研究领域,俄勒冈州立大学创建的国际河流水争端数据库(TFDD)是针对所有国际河流建立的数据集合,包括多种针对性的数据集:涉水条约的数据集(IFTD)、流域风险事件数据集(IWED)、流域组织数据集(RBO),以及仍在不断建设中的GIS空间数据分布。此外,还包括对国际河流流域气候特征、地貌、植被数、灌溉面积、水利工程等数据的权威统计[1]。在我国国家图书馆总书库中检索“国际河流”,有《国际河流大词典》《国际河流水域使用的决议》《国际河流航行规章》等22部年鉴工具书词条记录。但是笔者发现这些数据的词与词之间,概念与概念之间缺乏较为系统的分类和关系定义。
分面分类法是构建领域词表的一种方法,它能在知识组织的基础上,实现不同主题之间的相关关联,从而体现概念与概念之间的关系。用分面分类法来对国际河流争端事件数据集进行分面分类词表的开发,也就是说用分面分类表的方法定义国际河流领域中的概念与概念之间的用词关系,提高检索效率[2]。
1 研究背景
1.1 国际河流争端
从国际法意义上说,河流争端是指两个或两个以上国家围绕国际河流的使用和管理发生的争议,核心是国际河流的主权以及主权权利的争议。具体表现为水域划界、水量分配、水源利用和水污染等方面的问题。对于流域国来说,国际河流不仅与本国的淡水资源量密切相关,还会与其他的利益因素结合在一起。河流争端是指因某条国际河流的淡水资源而引发的国家间的政治、法律、事实争执等[3]。在对俄勒冈州立大学的国际跨界河流水争端数据库中所记载的7 100条河流争端事件数据进行系统地分析后,笔者发现上下游国家对国际河流主权的不同主张是争端产生的主要原因。
1.2 分面分类
语义Web是现有Web的扩展。重视领域词表所发挥的日益重要的作用,可推动语义Web的发展,从而推动计算机与人的协同发展。从本质上来看,传统的分类法大多数是线性的,无法准确地反映出事物的多向属性。而分面分类的结构体系是“分面—亚面—类目”,是由各分面内类目之间的组配来表达主题。分面分类表有两个明显的特征:每一个测试对象属于每一个面;每一个测试对象只能在每一个面的一个子节点上找到一个对应关系[4]。
分面分类表在部分领域已经得以应用,在部分网站上有运用分面分类表的知识,来帮助目标客户或信息检索者找到他们想要的信息[4]。一方面,这样的尝试和进步相对于之前单纯的检索而言是有进步的,但是另一方面,他们直接用分面分类表来做导航页,并没有完全遵循分面分类的核心思想,可能会导致分类定义不准确,容易产生误检或漏检的情况。
2 研究意义
联合国及各国政府颁布了许多针对国际河流争端的法律法规,许多著名学者对该领域不断加深研究。通过谈判与合作的方式来解决国际河流争端的问题,也与当今世界和平发展的主题密切相关。由于争端事件涉及的国际河流流域管理与合作等专业术语与实物很多,用分面分析的方法对国际河流争端事件领域的概念关系进行定义,有利于未来图书馆、政府部门、企业等机构以及专家更好地对该领域信息进行组织与检索。
在国际河流领域,中国国家图书馆现有馆藏资源里目前没有找到较完善的相关分类资源,其一般被附属在水利相关资料里被提出,所以没有被细化。得到的分面分类表之前收集的专业术语原始数据可以用作编写该领域主题词表的原始数据与参考;同时,分面分类表的应用和提出有利于推动该领域的智能化发展;在信息组织与检索方面,图书馆可以根据分面分类词表优化国际河流方面相关书籍的网站导航与检索,从而实现精准查找。还可以根据词表对国际河流争端方面的书籍进行分类和编号;水利管理部门等组织机构可以根据分面分类词表优化内部网站检索,从而实现科学分类和保存资料。
笔者主要运用分面分类法,构建出国际河流争端事件的分面分类词表框架,确定争端事件的分面,实现初步构建分面分类词表,为最终实现该领域真正意义上的语义检索奠定基础。
3 基于分面分类的领域词表构建
3.1 构建方法
领域词表的构建与研究的常用方法有[5]:①手动构建:通过专家调研和文献查找等方法确定概念间的关系;②半自动构建:通过现有的领域主题词表来辅助领域词表的构建。
笔者采用的是手动构建与半自动构建相结合的方法,参考《国际河流大词典》《国际河流水域使用的决议》(以名词解释定义为主,为接下来的定义与分类做铺垫)。半自动构建保证了术语收集的相对完整性。同时,参考手动构建的方法,主要是通过访谈向专家咨询河流概念与概念的词间表达是否正确,或者将我们列出的面和属性通过邮件发给专家确认是否恰当。争端事件面中有哪些属性词是需要补充或者修改的。
首先采取文献查询的方法,筛选出与国际河流争端事件相关的专业术语和词汇,对争端事件分类与概念范围的定义;然后将原始数据发给研究国际河流领域的专家,由于参考的原始词表出版年份距离2018年较为久远,为了编写出与时俱进的分面分类表,从新兴词汇和新兴方向入手显得尤为重要。
专家访谈的问题主要包括:对于有争议的术语应该怎么做;国际河流领域的新学科研究方向、新的时事热点、新政策、近年来热点词汇等。再对汇总出来的专业术语和词汇在原有的分类基础上进行调整,从专家角度和目标用户的角度出发,将需求和实用性回归第一位,结合有关构建领域分面分类词表的文献,构建出客观实用的分面分类词表[6]。
3.2 概念图和文字解析
图1为分面分类概念图。
图1 分面分类概念图
图1显示:
a. 综合《国际河流大词典》、流域争端数据库中的流域组织数据集和涉水条约数据集(主要参考专业术语的定义和含义),从而得到初始数据,包括:争端事件的时间、河流名称、所涉及的国家列表、国家数量、争端事件的严重程度以及对该争端事件的简述;
b. 将初始数据按照叙词表中的关系列成Excel表格;
c. 通过专家访谈和表格中的原始数据对词表中的关系和分类进行调整,并定义概念和词间关系;
d. 根据概念与词间关系进行分面分析,构建分面分类框架[7];
e. 通过专家二次访谈,对分面分类框架进行调整,重新测试,从而形成最终的分面分类词表。
3.3 数据收集
3.3.1 客观数据支撑
本文运用的客观数据主要包括:
a. 综合俄勒冈州立大学创建的国际河流水争端数据库(TFDD)中针对所有国际河流建立的数据集合(主要参考专业术语的定义和含义),从而得到初始数据;
b. 参考中国国家图书馆资源,搜索国际河流所得到的相关数据,作为划分国际河流争端事件领域词表的前期基础,使得到的结果具有科学性和系统性。
3.3.2 二次数据收集
a. 第一次收集数据的目的在于:获取国际跨界河流争端领域的基本术语与明确概念间的关系和补充新兴词语(因为大多数词表为专业词汇,出版年份早,无法涵盖新兴词语和学科方向);
b. 第二次数据收集的目的在于:完善初步形成的分面分类词表(由主题词表、专家意见和分面分类对象列表数据共同得出)。
简单来说,第一次数据收集是获得原始数据,并对其进行归类和整理,从而初步定义概念与概念间的关系,构建分面分类词表的框架;第二次收集是在初步构建分面分类词表框架后,对各分面的收集,可以将其看作是分面分类词表的完善。
最后初步确定与国际河流争端事件领域相关的概念与概念间的初步关系。表1展示了部分争端河流最终所注入海洋的概念之间关系。
表1 争端河流最终所注入海洋的概念之间关系(部分)
3.4 对象列表
对象列表是由所建设的国际河流争端事件分面分类词表的目标受益群体决定的[8]。该领域的分面分类词表使用的主要对象为:
a. 跨国公司和国际非政府组织;
b. 国际河流流域国政府办公室、水利管理部门以及相关流域规划部门;
c. 图书馆和领域学者;
d. 社会企业和其他机构组织等。
对检索数据进行分类统计,结合相关数据与对比,我们暂时把面初步确定为:河流、时间、争端起因、所属地区、涉及组织、解决方式6个面。面的概念如下:
a. 河流:发生争端事件的国际河流;
b. 时间:争端事件发生的时间;
c. 争端起因:包括水量、水质、自然灾害、基础设施建设、农业、旅游业、航运;
d. 所属地区:争端事件发生的政区;
e. 涉及组织:包括行政性国际委员会、仲裁当局、流域当局、机构、流域委员会、理事会、合伙人机制;
f. 解决方式:包括谈判协商、威胁使用武力、小规模使用武力、全面战争。
3.5 词表框架
因为构建该领域分面分类词表的直接目的是给水利部门、图书馆、企业等机构的管理人员使用,所以需要从用户的角度出发,充分了解该领域内的目标用户的查找习惯与归纳方式等,从而构建出更具有实用意义的分面分类词表[8]。从该角度出发,在二次专家访谈中着重询问以下问题:
a. 从事的具体职务与国际河流领域重合的地方;
b. 国际河流争端事件的分面分类词表对信息组织与检索的意义;
c. 如果要进行查询相关知识或者从事相关研究,一般需要什么样的数据支持;
d. 一般常用的获取数据的方法与途径;
e. 工作所在组织如何对信息或资料进行定义、划分和储存[9];
f. 如果想在导航处点击进入查找想要的资料,一般会选择哪一个面为主要的筛选条件(即面的重点排序)。
初步整理好的国际河流争端事件分面分类框架如图2所示。
图2 分面分类框架
采访专家的问题不是凭空想象出来的,而是在对主题面进行划分和组织的过程中出现的,在对专家采访之前,要对主题面进行划分和组织,在这个过程中会发现许多待解决的问题[10]:
a. 整理的分类应该如何归纳提炼成主题面的子面;
b. 主题面的各个焦点是否相互排斥;
c. 是否列出了关于主题面的所有焦点;
d. 归纳的子面用词是否专业且易理解。
这些问题需要对于国际河流争端的知识了解和掌握达到一定程度的专家才能够解答,所以需要罗列出这些问题,请求专家帮助解答和给出建议。
3.6 面的组织
3.6.1 河流面
据统计,在全球范围内,目前共有200多条国际河流,其中亚洲有57条,非洲有59条,欧洲有69条,北美洲有40条,中南美洲有38条。在这200多条河流中,有发源于德国西部,流经奥地利、塞尔维亚、罗马尼亚等9个国家的多瑙河;有21条流经国家数较多(超过4个),如湄公河、尼日尔河、尼罗河、刚果河、亚马孙河、莱茵河、恒河等;其中还有148条流经两个国家;有31条流经3个国家,如流经中国、印度和巴基斯坦的印度河[11]。这些河流由于支流数目多、分布广且水资源量大,都是具有一定争端性的国际河流。
根据河流的属性,我们在其面下设置发源地、所在地区、最终注入、维度带、流经国家数、流域面积、流程、所属水系、支流数量、河道特征10个亚面。
3.6.2 时间面
根据流域争端事件数据集中的时间数据记录,争端事件的记载是从1948—2008年。因此。我们在时间面下设置20世纪50年代、60年代、70年代、80年代、90年代和21世纪00年代6个亚面。
3.6.3 争端起因面
国际河流争端的产生和持续发酵受到很多方面的影响,无论是在国际层面还是国家层面上都与流域国的政治、经济方面有密切的联系[12],其中处于河流上游的流域国在河流的开发和使用当中处于主导地位,如果上游国家只顾自己的开发利用,不积极推进河流的治理、不与处于中下游的国家构建合作机制,或者没有建立形成统一的管理机构,则必然会导致国际河流争端问题的产生,使之成为国家间冲突的重要起因[13]。
河流的污染问题是流域国之间产生冲突最常见的起因,比如:1986年莱茵河化工厂污染事件;2000年罗马尼亚金矿氰化物泄漏事件;2005年我国的松花江水污染事件等等。流域水体会因为人们的各种生产活动而产生物质介入,发生物理、化学、生物等方面的变化,使国际河流水体的利用价值大大降低甚至丧失,严重破坏水域生态环境[14]。
流域国没有把握好对河流生态和环境功能的兼顾,造成水域生态的破坏,波及其他流域国,也是产生冲突的常见起因[15]。比如:湄公河干流水电站的建设频繁惹起争议;匈牙利与斯洛伐克之间的多瑙河水坝案;老挝水电站坍塌导致近千人无家可归等等。流域国在各自流域内的水坝、水电站等基础设施建设对河流生态环境的不利影响是不可避免的,对水资源的使用及管理不当会导致开发过度,大坝的设计存在风险且预警系统不足必然会导致悲剧的发生。
通过对争端事件数据集中数据的分析总结,笔者在争端起因面下设置水量、水质、自然灾害、基础设施建设、农业、旅游业、航运7个亚面。
3.6.4 所属地区面
该面下设置流域争端事件数据集中每一条记录所指的争端事件发生所在的政区,这些政区构成的亚面下的类目集合组成争端事件的所属地区面。
3.6.5 涉及组织面
为了符合流域整体开发趋势和可持续发展的理念,国际河流流域组织致力于管理流域国之间的全部或者部分永久型共享淡水资源,涉及能履行各种职能的组织类型。确保公平合理的原则,国际河流流域组织的水规划专家组必须根据流域的整体规划来制定共享水资源的分配规划[16]。通常要根据流域的背景和历史,以及流域成员国授权的机构来确定流域组织的法律框架及章程。按照重要性依次为:首先是数据交换以及技术执行方面的任务;其次是协商职责、没有决策权的国家制度上的补充;最后最重要的是决策职责,表明成员国为了共享水资源组织的利益而对部分主权的让渡[17]。
根据研究现有的、已经成功运行的国际河流流域组织类型,在该面下设行政性国际委员会、仲裁当局、流域当局、机构、流域委员会、理事会、合伙人机制7个亚面。
3.6.6 解决方式面
国际河流开发与管理的主线是水资源的合理利用,而其中最为关键的因素就是关于河流水资源的分配问题,同时这也是解决国际河流争端的核心。而河流流域国国家间的关系不同,对产生何种争端也具有直接且重要的影响[18]。国家间关系若处于友好状态,彼此有战略方面的合作,那么可以通过商议谈判、签订条约来处理水资源方面的问题,双方一般不会发生武装冲突。比如2005年由于中国境内的化工厂发生爆炸而引起的水污染,由黑龙江流入俄罗斯境内,中俄双方立即采取应对措施,加强进一步合作,有效地解决了问题。所以由于国际河流争端问题而引发的武力冲突往往发生在处于非友好状态的国家之间,甚至会导致问题被不断地扩大,迟迟得不到解决[18]。比如在约旦河流域,河流问题由于民族矛盾、边界纠纷、领土争端等因素引起的以色列和阿拉伯之间的武装冲突,一直危及着中东地区的和平[19]。
当今世界的主题是和平与发展,我们主张通过和平谈判、签订条约等方式来解决国际河流的争端问题。流域国应当结合政治、经济、法律、外交、科技等各个方面并且采取多种形式、一步步推进的合作方法来处理争端问题。国际河流问题如果长期得不到有效缓解或解决,就可能会引发不同规模的武装冲突[20]。笔者在解决方式面下设置谈判协商、威胁使用武力、小规模使用武力、全面战争4个亚面。
4 总结与展望
本文用分面分类的方法来定义国际河流争端事件数据集和相关资料中概念与概念之间的关系,规范用词,提高检索效率,同时降低误检率和漏检率。
a. 随着人工智能的发展和语义网的深入研究,领域词表会受到越来越多的重视,以解决词间异构的问题,本文的研究在一定程度上可以促进国际河流领域的智能化发展;
b. 在行业专家、水利机构等参与的情况下构建出的分面分类词表框架,为构建完整的国际河流争端事件词表奠定了基础;
c. 结合专家访谈和文献查找在各个分面下所设置的亚面和类目可以用于实践。
本文研究的局限性在于,由于河流争端事件的分面分类框架是手动构建,可能会存在笔者没有考虑到的方面,对各个面和属性概括得不全面;专家对于访谈问题回答的主观性以及我们对概念术语的不规范表达也是不可避免的。
分面分类法在情报检索领域中的应用比较多,将分面分类词表运用到语义检索的领域本体的构建过程中,这是未来一个很好的研究方向。领域词表作为该领域研究的一部分,可以在一定程度上推动领域本体的发展。笔者接下来将在构建分面分类词表的基础上,运用分面思想在信息组织方面的优势来构建领域本体,以进一步提高国际河流争端领域知识的复用和共享水平。后续笔者还将尝试基于分面思想进一步开发分面导航检索系统。