APP下载

国史学科知识组织体系研究和应用*

2022-02-27

高校图书馆工作 2022年1期
关键词:学理国史类目

●雷 枫

(中国社会科学院 北京 100009)

1 学科知识组织体系研究是构建高质量学科文献资源的基础工作

1.1 国史学科文献资源开发和利用现状

经过20年的信息化发展,国史学科文献资源建设虽已取得较为丰硕的成果,但由于信息组织方法上的缺陷,这些资源在整合和利用效率上受到极大限制。

(1)学科门户。第一,仅提供基于栏目的线性导航和全文检索,信息提供受到栏目规划的约束,以栏目导航为主的粗放分类模式也制约了网站发展。第二,尽管设立数百个栏目,某些子栏目还是包含了数千篇文献,海量文献梳理迫在眉睫。第三,栏目设置具有时效性随机性,如果不对文献进行主题标引,栏目增删将耗费巨大工作量,改版空间受限。第四,缺乏对网站以外急剧增长的web资源(网页、多媒体、其他相关学科文献系统)的统一组织整合。

(2)学科数据库。第一,因文献类型、检索功能、软件代际和元数据标准不同,数据库都是异质异构的独立系统,围绕某一主题的检索需逐库进行。第二,对文献内容采用关键词标引,检索功能停留在字面匹配,使得系统不能区分同一词义的不同表达,检索结果既宽泛又不准确,主题有交叉关联的信息不能被有机揭示出来。第三,只能提供全文和版权字段检索,不能基于用户知识需求主动提供相关资源线索。

1.2 将学科文献信息组织上升为知识组织是提高资源整合利用效率的唯一途径[1-2]

上述学科文献资源采用传统信息组织方法,以文献为单元,通过设置标题、作者、出版等属性字段揭示文献版权特征,仅有的关键词字段不能充分挖掘文献内容的知识内涵,这种粗粒度的文献揭示与序化虽免除了传统图书馆的分类排架和目录组织,但也随之丧失了按学科门类和知识体系进行检索和浏览的手段,无法适应海量信息的应用要求,在面对用户基于知识的深层次文献利用需求时捉襟见肘,成为资源整合利用的瓶颈。解决上述问题需要改造信息管理模式,深入文献内部,对文献资源按照学科知识体系进行重组,分析挖掘其中的独立知识单元及其语义关联,深度揭示其知识特征,并通过建立知识与文献的映射来深化资源的整合,最终实现知识服务。因此,研究构建知识元的抽取和关联规则——学科知识组织范式并应用于实践,成为实现学科文献由信息组织上升为知识组织的迫切而重要的课题。

1.3 传统分类法和主题法对国史学科表现不足[3-4]

当前,比较成熟的学科知识组织范式有分类法和主题法,作为知识组织的人工语言,二者在描述文献内在知识特征方面的区别在于揭示事物的角度不同:前者着眼于文献内容所属学科分支,反映学科派生和隶属关系,强调知识的系统性,支持按学科方向进行系统探索;后者着眼于文献内容的主题范畴,强调知识的专指性,支持按照某一主题进行特定事物的研究。传统的分类法和主题法体系结构庞大、规则复杂,对特定学科表现缺乏针对性,例如,《中图法》是按单线顺序层层划分的等级列举式知识体系,适用于藏书排架和目录组织,欠缺对特定学科文献的传承关系的系统揭示,特别对国史这个二级学科,学理概念列类离散,没有系统的种属和并列关系,学科的客观本质属性及相互联系得不到科学反映,同时其分类标引规则也不适合网络资源检索的思路,不能满足用户多属性入口检索同一主题的需求。《学科分类与代码》虽具有较为领先的“学科分类”理论和方法,但在历史学科中,将时代纵横分割,以大专题事件列类,将专门史研究列入“政治”“经济”等专门学科之下,割裂了国史学科的完整性。《汉表》对概念间语义关系表现欠严谨(如将“人口”与“常住人口、城市人口、平均人口”等归于属种关系,属下并列的类目分类标准不一致),对国史这一新兴学科的许多术语(如“一带一路”“两山理念”)没有体现,人物和组织机构附表也有待扩展。

2 国史学科知识组织体系研究[4-8]

2.1 学科分类体系

(1)类表编制。以国史重要文献和资料为知识来源,笔者深入文本分析了国史学理概念及其关系的知识逻辑,研究澄清了国史学科性质。以此为依据,一方面全面挖掘其中的学理概念,另一方面遴选《汉表》中适用的概念,并析取传统类表中相关的离散类目,对其属性及内涵与外延进行梳理,划分了学科分支及种属和并列关系,建立了国史学理概念等级结构,设计了学科体系类表。为加深学科结合,这一过程吸收了大量领域专家参与,对概念层次与关系、类目设置及其展开逻辑、学理术语选择进行反复论证和科学把握。

类表将国史中的专门史及其研究理论方法一并纳入,划分了3个层次、定义了7个顶级类和44个二级类、320个三级类,顶级类选用“理论与方法”“政治史”“经济史”“文化史”“社会史”“国防史”“外交和一国两制史”作为类名,二级类采用标准的学理主题词或其组合作为类名,三级类则采用富有时代特色、概念清晰、单义规范的学理主题词及其组合。

整个过程基于学科性质,依据概念划分与概括原理和基本级别律,遵循完整性、科学性、严密性,将概括学科学理属性的概念类目组成层层隶属、详细列举的等级结构体系,为尽可能析出不同的学理维度,反映学科全貌,采用“体系分类与分面分类相结合”的方法,对一级类目进行概念分析,进一步析出理论、方法、思想、结构、制度、管理、实践等分面,并遵循从理论到实践、从抽象到具体、从一般到特殊、从宏观到微观的逻辑扩展类目。

如经济史按理论、思想、体制、管理与实践等分面,划分了经济史研究理论方法、社会主义经济思想、基本经济制度、经济管理体制、宏观经济调控、经济发展战略与规划、产业政策与产业结构以及产业运行等二级类。文化史方面,由于文化概念较为丰富,将其分支成教育史、科技史、学术史、文学艺术史、体育史等专门史,各专门史再按思想、制度体制、建设运行的逻辑展开类目;社会史则划分了社会史研究理论与方法、社会建设思想、人口与社会结构、社会生活、社会管理体制、社会建设实践等二级类。文化史分类(不完整)、社会史分类(不完整)如表1和表2所示。国史理论分类、政治史分类(不完整)如表3和表4所示。

表1 文化史分类(不完整)

表2 社会史分类(不完整)

表3 国史理论分类

表4 政治史分类(不完整)

(2)类表实用性处理。在具体编制中,类表在类目设置上兼顾整体框架的平衡和用户查阅资料的习惯,体现了“科学性与实用性相结合”的原则,具体表现为:将内涵丰富、子类目多、文献资源较多的低一级类目上调一级,突出列类,如社会史的三级类目“社会精神生活”下的“社会风尚与风俗”“社会文化与生活方式”等直接调升为三级类目,以提高该主题文献的导航发现率以及文献检准率。对具有多重归属的下级类目交叉列类,充分揭示主题概念间联系,既保持学科体系完整性,又不至于分散同一内容的文献资源,从而满足网络环境下多属性主题文献多途径检索的需要,如“基层群众自治制度和城乡基层民主”在“政治史——政治制度”和“社会史——社会管理”处交叉列类;对某些横断各一级类的概念类目采用与各学科类组配的方式,形成各大类交叉入口的导航类,同时辅以设置“综合专题”辅表进行处理。

2.2 学科主题词表

(1)词表编制。除了学理属性,国史文献所涉的事实对象(如人物、重大事件)反映了另一类学科的主题概念。为全面反映文献的内在主题特征,《文献主题标引规则》将文献主题构成要素概括为主体因素、空间和时间因素、文献类型因素等多个范畴,并以此作为“主题分面分析与概括”的标准。因此,国史学科主题词表从学科文献的研究对象面、时空面着手揭示主题。

为理清研究对象的全貌,笔者通过文献学习研究、挖掘、遴选规范术语,将领域内丰富的历史文献和权威史料工具书如国史实录、国史百科、国史编年和大事记、人物名录、机构名录等均列为应参考的知识成果。同时,筛选学科核心期刊数万篇论文的事实对象关键词,获取大量标准词、同义词、别名。另汲取《汉表》及附表中与国史有关的词汇,如政区和自然行政区划名称、组织机构名称、人物和事件名称等,最终拟定“人物”“事件”“组织机构”“会议”“历史文献”“时间”和“地点”7个核心概念,将提取的术语按这7个概念分面归类,形成“国史人物表”“国史重大事件表”“国史组织机构表”“国史重要会议表”“国史文献表”“国史重大分期表”“地区或区域表(包括行政和经济地理区域)”等主题词表。词表中的术语排列规则综合了字顺、范畴、等级等规律,如人物表分成党和国家领导人、英雄劳模、教科文卫体杰出人物、重要民主人士等范畴,范畴内按字顺排列;组织机构表则按上下等级关系将机构名称组成词簇,按簇首词字顺排列。表5是国史重大事件表(部分),设置了“重大事件”“子事件”两个等级。

表5 国史重大事件表(部分)

除了词表,一个规范的主题术语系统还应包括参照系统,通过设置主题词层级、同义和参照关系,在概念间建立等级、等同和相关等关系,以改善研究对象的语义组织:第一,主题词的层级位置体现概念间的等级关系,即上下位关系或属种关系。如“机构表”中“中央机构”是“党中央”“国务院”的上位词,“国家发改委”“财政部”是“国务院”的下位词;“事件表”中大事件是子事件的上位词,如“土改运动”与“《土地法》颁布”“少数民族地区民主改革”是上下位关系。第二,表示同一主题概念的多个术语体现出概念间等同或同义关系,体现为“见”参照。如“天安门事件”见“四五运动”、“双百方针”见“百花齐放百家争鸣”。主题词一般采用普遍公认的常用术语,并作为索引该概念的最优显示,其同义词(全称、别称)作为入口词。第三,相关关系用于反映有较强语义相关性的不同范畴概念间的关系。如事件“真理标准大讨论”与国史文献“《实践是检验真理的唯一标准》”以及人物“邓小平”之间的相关关系。参照系统有助于避免术语混淆、明确概念范围、揭示不同分面概念间的内在关联,呈现出术语间规范化、弱结构化的知识内涵。

词表着眼于直观揭示特定事物,采用“分面分析”的方法,将概括文献内容的事实对象作为主题概念,组成“分面(亚面)—类目”结构体系,一个分面揭示一个主题,多个分面揭示多个主题。

(2)词表扩展性。在遴选研究对象术语中,有大量没有找到明确归属的词汇,经过数据清洗、人工聚类后,还可析取出新的事实概念分面,如“小康社会”“两弹一星”“为人民服务”“抗疫精神”等,从而创建国史特殊术语、国史理念等分面。采用这种滚雪球的方法,随着文献学习内容的丰富和历史的不断演进,概念分面和词汇会越来越多。对于综合性专题或跨越各个时期的重大历史进程,如“三农工作”“对外开放”“深化改革”等术语,通过设置“综合专题”、创建“国史综合专题词表”来处理。采用这种“分面分析与概括”的主题分析方法构造分面词表有很强的扩展性,可随时增补新的主题概念分面,随时编制分面词表。

2.3 文献类型表

作为文献主题的另一构成要素,文献类型也可成为分类浏览检索的途径。国史文献史料门类繁多,有公开出版的图书、报刊,半公开出版的政府出版物和内部资料,以及未出版但可查阅的解密档案,在国史研究中发挥着不同的作用,比如文选著作、年谱回忆录有助于研究领导人的治国理政思想,也可用于为国史人物列传,政府档案则是国家经济社会管理活动的珍贵记录。为揭示学科文献类型,笔者通过分析研究成果引文,借鉴权威史料学研究成果,从文献知识特征和功能等属性进行归类,整理出“国史文献类型分类表”如表6所示。在实践中,将分类和主题相结合辅以文献类型分类来标引国史文献,就能从多个维度准确畅达地揭示专深复杂的内容主题和形式。

表6 国史文献类型分类表

2.4 国史学科知识组织体系及其可持续发展

(1)学科知识组织体系。体系类表和分面词表作为一个整体,构成了国史学科知识组织体系,其编制方法总结如表7所示。前者是从学科性质出发建立的学科知识树视图,其构建过程就是为学科学理结构建模的过程,类名就是学理主题词或其组合,一二级类名相当于高端族首词,三级类名则是下位词。类表建立了学理主题词之间的联系,系统展示了学理主题概念的派生、隶属和平行关系,便于研究者“鸟瞰全貌”,快速进行知识定位,便于从文献学科属性来类分或进行族性检索及分类统计。后者是学科事实主题词表,便于研究者通过事件、人物等范畴来组织和查找文献中的专指信息,进行具体事物研究。二者的组合建立了“以学理和事实主题”为中心的知识体系,迎合了学者按对象和问题检索文献的习惯。

表7 国史学科知识体系编制方法

(2)国史知识体系的可持续性发展。为适应体系分类的动态变化,可采用本体技术构造形式化类表,反映树视图中各种学理概念的亲疏远近关系(如上下位、平行、相关和族性聚类等),并通过建立“动态节点——学理概念对应表”实现树状节点标识体系与类目主题词对应关系的动态改变。对于内涵特别丰富的三级类目,通过链接其细分的学理主题词簇以丰富体系树,有助于提高用户学理分类辨识效率。如对于文献中显而易见的“劳动教养制度”“人民陪审员制度”“人民监督员制度”“法律援助制度”“人民调解制度”等主题词,可借助形式化类表链接直达体系树中的“公检法制度和司法民主”分支。

主题词表中术语总体呈现为离散状态,等同、等级、相关等语义关系在揭示人物与事件、思想理念等概念间的内在关联方面是模糊的,但通过采用本体技术定义核心概念及其属性、设计概念间关系,从而构建形式化主题词表,使得主题法能按历史的本来面目把离散的词表术语组织起来,反映词与词间精确的学科语义逻辑关系。将这些语义关系映射到学科文献资源,能大大促进数据知识化、知识有序化。

国史学科内涵将随着时代不断丰富,新的分支和学理维度一定会不断出现(比如“生态文明史”分支),主题词表也将呈现很强的成长特征,采用本体技术构造的形式化国史学理本体和事实本体,既建立起结构清晰的学理和事实多元化概念视图,又呈现出很好的开放性和可扩展性,具有适应学科成长的特性,但这是另一个语义技术研究课题了。

3 国史学科知识体系应用价值[1-2][8]

3.1 为国史学科文献的知识管理提供解决方案

(1)实现对文献内部知识对象及其关系的标引。网络环境下,国史知识体系提供了对文献中蕴含的丰富知识的分解与组合极为便利的标引方案,通过对其分类和主题特征进行标注,使得信息组织的控制单元不再局限于文献层次而深入到内容中的知识单元。同时在制定数据规范时,除了设置用于揭示文献外部特征和版权特征的一般元数据项,还设置了揭示文献知识特征的知识主题元数据(语义元数据)和文献类型元数据,以加强对文献内容的“学科分类”“相关人物、事件”“文献类型”等主题的组配标引,深度揭示文献知识内涵,文献与知识单元相互映射也会产生极大的知识增殖,为实现对文献细粒度组织和知识服务奠定基础。

(2)实现基于体系分类和主题词表的知识检索。学科知识体系可改进对文献内容单纯的全文索引机制,建立包括多分面主题索引和分类索引甚至基于主题参照系统的相关性索引的多维深层索引。由于元数据将分类法与主题法自然地融于一体,大大改善了文献信息系统的检索功能,使最终用户能利用主题和分类词汇术语的组配,从多个维度进行主题、分类等组合检索,精确定位所需信息,减轻信息过载,检索结果也呈现出从简单排序到基于知识体系聚类的分面分层立体展示。通过点击类表树视图中的相应类目定位到相关资源,也可满足族性检索的需求。

在实践中可将分类体系概念族和分面词表及其参照系统作为知识核心层(KOS)嵌入文献信息系统,联机提供分类类目及其属分关系、主题词及语义关系等概念网络,为标引员实现对文献的语义元数据组配标引,为用户获取检索词的同义词、上下位词及相关词,形成语义扩展检索式,从而达到词义消歧、同义和相关扩检的目的。

3.2 对海量异构数据进行语义级集成检索

多年来国史学界不同机构建立的学科文献系统呈现出异构性分布式特点。异构性表现在数据类型、库管理系统、操作系统以及元数据模式等方面,对这些系统的互操作一般在信息内容集成、信息检索集成和信息服务集成三个层次上解决,其中检索集成与内容集成互为依存。在加强对文献内容知识对象及其关系的标引和揭示基础上,一般采用中间件技术,通过构建全局通用语义数据模式,设置包含知识特征的全局元数据项,并建立各单库学科知识术语映射系统,解决分布系统元数据冗余和不一致性。全局通用语义数据模式本质上是学科知识网关,国史知识体系是构造网关的知识基础,用户无需对每一个库进行遍历式检索词匹配搜索,只需定位KOS相应概念即可一站找到所需文献。这种基于元数据的语义内容集成检索使得分布环境的跨库集成检索成为可能。

3.3 应用于学科网站知识导航

由于国史知识体系对学科网资源的知识主题的多维揭示,所有被语义元数据标引的文献资源都组织到知识体系(KOS)中,在改进文献内容的多维索引指标体系、实现数据的深层索引基础上,领域知识在使用过程中的有效性有很大改观,为基于多角度主题和学科属性的文献聚类提供了解决思路。一方面,可构建基于学科分类树类目体系的文献资源族姓聚类,用户可遵循学科等级的学理概念间属分语义关系进行浏览,实现基于分类的知识导航;另一方面,可设立基于分面主题导航的主题浏览体系,一个主题一个栏目,集中关于这个主题的全部资源,定位相应主题概念就可找到所需文献。由于这些获得知识增值的文献资源在网络环境下的全局调用成为可能,因此能够灵活地根据学科热点,检索知识体系(KOS)中与该主题相关的概念,调取被这些概念“编目”过的文献资源,并根据需要进行分面分层汇聚,从而搭建有关人物、历史事件等国史专题。

3.4 应用于编制国史图书索引

国史学科知识体系可应用于《国史编年》中编制书后索引。例如,采用分面主题词表,在机器上对编年文本中的人物、组织机构、会议、历史文献等相关字符串进行关键词索引标记,不同分面的关键词标记不同,加了标记的文本则按类别生成专门索引,如以人物姓名为标目生成《重要国史人物索引》,以重要会议名称为标目生成《国史重要会议索引》等,这些索引将为读者提供基于人物、重要会议等的检索途径。索引体例包括规范主题词、主题词与自由词的“见”关联(如会议全称和简称)、主题词之间的参照关系(如人物与事件之间的关联)及其页码。这一工作基于分面主题词表通过设计工具程序自动生成。需要说明的是,和以上“抽词索引”不同,由于“重大事件”索引项是隐性索引,可采取“赋词索引”方法,由编年作者基于《国史重大事件主题词表》将相关索引项在编年文本中所在的页码采用人工填入。

国史分面主题词表是保证索引标目尽可能专指并前后一致地采用同一个词语的基础,也是实现“赋词索引”“抽词索引”、支持“见”参照的数据基础。主题词表的规范术语表达以及“见”关联还可用于《编年》统稿,各册作者可反过来按照规范化的表达修改书稿,减少不同编者对同一知识单元表达用语不一致的情况,同理也为其他国史工具书的编写提供标准,提高文本质量。

4 结语

国史学科概念歧义性大,随着历史演进也在动态成长,而规范的、严格受控的学科分类体系和主题词表的编制和修订都需要依赖领域专家,相对于能迅速适应学科成长变化的网络信息资源,该知识体系的结构和内容的自动更新也将会滞后。尽管存在以上风险和不确定性,分类法和主题法仍是学科文献知识组织体系的要义。基于分面和体系分类方法构建的国史学科分类体系和主题词表,面向国史和地方史志资源、面向信息人员和用户,为实现以资源为中心的信息管理向以知识体系为中心的知识管理的演进提供了技术基础,将打破领域文献资源建设各立门户、自编自用的局限性,实现学科资源在网络环境下的互联互通和共建共享。

(本论文的“国史学科分类体系”章节在部分参考陈标、张淇玉、张洪注、侯汉清、秦明等学者研究成果的基础上,主要得到了中国社会科学院当代中国研究所国史研究专家的智力支持。)

猜你喜欢

学理国史类目
Plasma-assisted ammonia synthesis in a packed-bed dielectric barrier discharge reactor:roles of dielectric constant and thermal conductivity of packing materials
本期练习题类目参考答案及提示
CLC与LCC类目同现映射方法研究
——以图情领域为例*
中国关工委138个关心下一代党史国史教育基地网络地图
国史新记
学理审思:真实情境写作之中考命题
双回单训释教学新法的学理依据
《中图法》(5版)“K历史、地理”大类的修订
铭记——山东省党史国史教育活动荟萃 前言
以社会主义核心价值观为引领,深入开展党史国史教育活动