面向南海问题的智库知识库构建研究
2016-11-26丁晟春史金晶
文/丁晟春 史金晶
面向南海问题的智库知识库构建研究
文/丁晟春 史金晶
“南海问题”主要是指中国南海诸岛主权及其附属海域权益归属问题,是中国与南海周边国家关系中一个复杂而重要的议题。由于南海是太平洋上重要的战略军事要地,南海问题受到了国际上多方力量的关注和影响,国家间的博弈使得南海局势的稳定和问题的最终解决变得更加艰难。因此如何制定出南海问题的最佳解决方案成为我国政府面临的一项重要任务。建立面向南海问题的智库,对南海问题进行深入研究,可以更好地服务我国南海战略。智库高质量产品的“质变”依赖于知识资源的组织、利用和创造。智库作为知识型的组织机构,有效的知识组织和知识管理是智库研究的基础保障。如何对搜集到的数量庞大、资源异构的信息资源进行科学地组织管理是一个需要探讨的问题。TTCSP(Think Tanks and Civil Societies Program)全球性报告中特别强调,迅速变化的信息环境和竞争激烈的行业环境要求智库构建完善的知识库以应对挑战。因此本文将知识工程领域的知识库理论应用到智库中来,面向南海问题构建知识库。
相关工作
知识库(Knowledge Base)是关于某一领域各种知识的集合,用于实现知识的存储、管理和重用。就其内涵而言,知识库是一种基于数据库技术,针对特定领域问题求解的需要进行知识抽取,并且根据一定的知识体系实现知识分类和组织后,针对知识特点和需求存储在计算机中的相互关联的有序化的知识集合,是一种专业化的面向用户需求的知识服务系统。许鑫参照知识库的定义,将智库知识库表述为,通过积累来自各种渠道的和保留自身研究产生的各类信息资源,支持研究人员进行产品开发和咨询服务的平台工具。
知识库的构建研究是知识工程领域内非常重要的问题,国内外相关学者对知识库构建的理论与技术的研究近年来不断深化发展,取得了一定的成果并得到了有效地应用。目前主要有4种常规的构建方法:(1)基于聚类方法的知识库构建方法;(2)基于可拓知识表示的知识库构建方法;(3)基于神经网络的知识库构建方法;(4)基于本体的知识库构建方法。本体是一种共享的概念定义集,能在语义和知识层次上描述概念及概念间的关系,消除领域概念间的混乱与歧义,最大程度地实现知识的共享与重用。国内已有很多领域引入了基于本体的知识库,如产品设计、军事等领域。饶国政认为理想的知识库是应该建立在本体的基础之上的,将本体用于知识库建设有许多突出的优点。本体可以为知识库的构建提供一个基本的结构,既可以描述静态实体,也可以描述事物或概念的运动和变化。在逻辑建模中,本体的使用可以帮助人们清楚地理解特定领域的相关元素、关系和概念,让知识表达更加准确便捷,从而有助于更好地管理和维护领域知识库。
南海问题知识库设计
构建南海问题知识库首先应对信息的来源及信息的要素进行总结归纳。其次针对南海问题研究的目的,分析目标用户对知识库的需求,明确知识库中需要存储的知识以及知识类型,在需求分析的基础上对知识库进行总体结构设计,根据南海问题知识类型的不同,设计知识库的存储模式。最后,完成南海问题本体库和数据库的构建。
(一)南海问题知识库信息源分析
由于网络信息的不同形式,南海问题相关信息的获取来源主要有网站和社交媒体两方面。
1.网站是因特网上发布资讯和提供服务的主要平台,有关南海问题的网络信息主要来源于机构网站和新闻类网站。机构网站是相关机构在网络上发布信息的平台,可以分为政府机构网站和研究机构网站。政府机构网站是官方权威信息发布的主要平台,在这类网站上不仅可以获取南海问题相关的法律法规、最新的国家政策,还可以了解到官方对南海问题重大事件的明确态度。新闻类网站是综合性网络媒体,是以新闻为主的大型网上信息交互平台,具有报道完整、要素齐备等特征。新闻类网站会以专题的形式对重大突发事件进行全方位的报道,为有关南海问题的信息收集提供便利。
2.社交媒体是web2.0时代兴起的新的信息传播途径,主要包括论坛、博客、微博等。近年来微博的用户数量激增,影响力急剧扩大,逐渐成为网络信息传播最重要的载体。微博的传播速度非常快,突发事件一经曝光,短时间内就可以迅速扩散,形成全网大讨论的态势。例如“中菲黄岩岛对峙”事件发生后,微博实时更新事件的进展,网民就此事件展开了激烈的讨论。微博具有评论、转发、点赞等功能,民众可对相关事件发表观点意见,这些舆情信息是南海问题研究的重要内容。
(二)南海问题知识库需求分析
南海问题知识库的目标用户主要是南海问题的研究人员,他们在分析研究过程中需要了解或参考大量的南海问题相关知识。这些底层的信息资源直接影响南海问题分析结果的科学性与客观性,所以对相关知识的完备性与准确性就提出了较高的要求。目前与南海问题相关的知识来源非常广泛、内容多样、数量众多,并且不断地变化更新,根据知识类别的不同,南海问题研究人员的知识需求总结为以下3个方面:
1.南海问题基本信息。南海问题涉及的岛屿及海域的概况:南海是指中国确立九段线内群岛及其附属海域。基本信息主要包括南海诸岛及海域的行政划分、岛屿的地理位置、岛屿名称、目前实际控制状态等。
南海问题的参与主体:南海问题主要涉及南海周边六国,包括中国、菲律宾、文莱、马来西亚、越南和印度尼西亚,在南海问题研究中被称为南海声索国。近来南海问题涉及的主体开始多元化,美国、日本等大国以“自由航行”等借口介入到南海主权争端中。此外,东南亚国家联盟是南海局势稳定的重要影响力量,也成为需要研究的主体之一。
2.南海争端事件信息。由于历史遗留等原因,中国与周边国家在南海主权问题上的争端时有发生。这些争端事件是南海问题研究的重点,研究人员需要了解事件的相关信息及发展态势。包括事件的基本信息,如发生的时间、地点、人物、原因、经过、内容等。同时事件的传播信息也是分析的重要内容,包括事件衍生出的舆情信息、事件关注者的基本信息等。
3.南海问题文献信息。南海问题研究开始于20世纪70年代,从多学科的视角进行深入研究,可总结为历史地理研究领域、法律与国际因素研究领域、中国视角对策研究领域、非传统安全研究领域等。目前国内已涌现了一大批该领域优秀的专家学者,建立了一批以南海问题为研究方向的学术机构。国外研究机构对南海问题也相当关注,主要研究集中在南海问题的根源、解决方案、影响因素和前景等几方面。这些学术研究成果是南海智库重要的知识支撑,因此在南海问题知识库中应该存储有关的文献信息。
(三)南海问题知识库结构设计
南海问题知识库的总体结构包括本体库和数据库两个部分,其中本体库中存储南海地理信息、南海争端事件信息、南海问题中涉及到的国家与关注方的信息,这些信息通过南海争端事件本体建立语义关联。南海问题数据库包括舆情信息库、文献信息库和观点库3个子库,舆情信息库负责存储收集的舆情信息,如网页、博客、微博和网民评论等,文献信息库存储书记、期刊等相关文献资源的著录信息,观点库存储通过相关舆情分析技术处理得到的关注者的观点立场信息。
南海问题本体库构建
南海问题本体主要是对南海问题相关信息进行表示,在本体中体现为类、数据属性、对象属性与实例。根据南海问题智库研究的实际情况和需要,以斯坦福大学的七步法为主体提出了南海问题本体的构建方法,其步骤如下:(1)确定南海问题本体的应用领域,主要用于南海问题的研究,为南海问题智库提供知识支持;(2)考虑现有事件本体的复用性,本文参考ABC共享本体的语义规范来指导南海问题本体的构建;(3)列出领域中重要概念和术语,列举出南海问题研究领域的重要概念和术语;(4)定义类与类的层次,采用自顶向下的方法定义南海问题本体中类的层次结构;(5)根据类的特征定义数据属性和对象属性,规定属性的约束条件;(6)创建实例,在完成上述步骤后为定义的每个类创建实例,并且添加该实例具体的属性值;(7)本体的检验及评价,检验构建的本体中是否存在错误,是否能满足本体构建最初的目标。
(一)南海问题本体概念和类的提取
依据上文所确定的研究领域与范畴,在知识分类的基础上,参考文献资料,对核心概念进行提取。在此基础上,对这些概念进行评估,按照一定的逻辑规则分组,确定从南海争端类、国家类、岛屿类、关注者类这4个方面构建南海问题本体;然后对每一组概念自顶向下进行分层。(1)南海争端类是指南海争端事件,将其分为事件类和过程类。一个事件有一个或多个过程。事件过程类表示一个动态事件的概念,表示事件在某个时间区域上的划分,刻画突发事件在时间演进中的状态。(2)国家类是指南海问题所涉及到的国家。本文以国家在南海问题上的角色为分类标准,将国家类分为利益主体类和一般国家类这两个二级子类。在利益主体类下分为南海声索国类、外部利益国类、联盟类这3个三级子类。(3)关注者类指对南海问题进行报道研究的个人或机构。本文将关注者类分为个人类、研究机构类、媒体类、政府类这4个二级子类。(4)岛屿类是对南海诸岛的概括。本文根据已有的地理区域划分,分为东沙群岛、西沙群岛、南沙群岛、中沙群岛4个二级子类。
(二)数据属性的定义
数据属性是表示类或概念与值的关系。如南海争端类的数据属性有编号、名称、起始时间、结束时间、参与主体、受影响客体、事件性质、手段、内容、来源,岛屿类的数据属性有编号、中文名称、英文名称、别名、所属地区、地理位置。在此基础上进一步定义这些数据属性的约束,用来描述属性的值类型、允许值(领域和范围)、值基准,以及值的其他特性,等等。
(三)非等级关系的定义
本体的对象属性用来表示类之间的相互关系,南海问题中的相互关系有15种,这些关系描述了南海本体类之间以及对应的实例之间的详细联系。部分本体非等级如下:(1)包括与是……的过程关系,这是一对互逆关系,表示事件和过程之间的关系,即事件由多个过程组成,而多个过程的发生形成了整个事件;(2)起因关系,表示南海争端之间的因果关系,表现为南海争端类与南海争端类自身的关联,能够为事件类和过程类继承;(3)继……之后关系,表示过程之间先后顺序发生的关系;(4)介入与被介入关系,这是一组互逆关系,表示国家与南海争端类之间的干涉关系;(5)发起与发起国关系,这是一组互逆关系,表示某一南海争端是由哪国首先挑起的;(6)发生地点关系,表示南海争端类与岛屿类之间的争端或侵占情况。
结语
在当今大数据背景下,基于本体的方法构建南海问题知识库来管理智库信息资源,对南海问题相关知识进行有效的搜集、组织、存储和管理,为专业智库决策提供坚实的知识基础,这是专业智库未来发展的一个方向。
(丁晟春系南京理工大学经济管理学院副教授,史金晶系南京理工大学经济管理学院硕士研究生;摘自《智库理论与实践》2016年第2期)