古籍中人物史料的关联组织研究
——以《汉书·艺文志》中西汉经学家群体为例
2023-03-12程结晶王璞钰
程结晶,王璞钰
0 引言
经学泛指先秦各家的学术要义,其作为古代传统学术思想的主体,对古代文化乃至现今社会的传统道德理念都起着不可或缺的作用,而经学家则是指阐释、注解、研究与宣传先秦各家学术要义与经典的学者。由于秦始皇“焚书”以及汉初上层统治集团对儒生经学的鄙夷,特别是汉高祖刘邦本人对儒生经学持“诸客冠儒冠来者,沛公辄解其冠,溲溺其中”的态度,因此西汉初年经学家及经学思想势力普遍较弱[1]。自西汉武帝“罢黜百家,独尊儒术”以来,经学便成为汉代统治阶级的官方思想,得到了快速的发展,经学家也从民间走向官方,纷纷由“避世”走向“出仕”,研究西汉时期的经学家群体能很好地观察这一时期经学的发展以及经学派内部学术思想的交流、冲突与融合[2]。
本文引入关联数据对原始数据分散的知识元素进行有序化组织,使其不再纯粹依靠文本考证进行知识研究,而是将含有人物知识元素的史料资源转化为数据资源,在此基础上实现知识关联,以此推动西汉经学家史料挖掘的广度与深度。所谓的古籍人物知识关联,便是指基于数字化的史籍资料与碎片化的人物数据,且有一定数据组织方式与体系的,核心实体记载于同一古籍中,具有相似特性的历史人物描述性信息的语义化网络开放数据集。此数据集最大的意义在于将原先分散在同一古籍中不同章节的相关知识元素汇聚到一起,以方便他人的使用,且可通过数据导出来进行社会网络分析、统计分析或地理空间分析等深入的数据挖掘[3-4]。现今,如何挖掘古籍资料中的历史文化知识内容,已成为新文科背景下古籍数字化研究的重要内容。
为方便数据收集与关系抽取,本文以《汉书·艺文志》(以下简称《艺文志》)中所记载的西汉经学家为例进行研究。《艺文志》作为现存最早的历史编年史目录文献,位列《汉书》十志之一[5-6],兼具文献学、历史学、文学、思想学以及图书馆学等多重学科研究价值。清代史学大家王鸣盛认为《艺文志》乃学问之眉目,著述之门户[7]。《艺文志》作为汉代最具有代表性的史志书目,记载的各家学者均具时期代表性,具有人物研究价值,能直观反映西汉时期各家学术的渊源、发展走向。《艺文志》所记载的人物甚多,仅《六艺略》中就记有人物110多个,既包括孔子、汉武帝、司马相如等高度知名人物,也包括张禹、王同、大小夏侯等不知名却有一定学术研究价值的人物。为切合研究主题以及便于数据收集工作,笔者将以《艺文志》中记载的经学家群体为研究对象,构建知识关联的组织框架,旨在通过聚合重构知识元素来方便相关用户群体与社会大众的利用,同时也为其他古籍中人物群体史料的语义化知识组织研究提供参考借鉴[8]。
1 相关研究
截至2021年7月31日,在知网、维普、万方等文献检索平台所检索得到的《艺文志》西汉经学家相关研究成果较少。因此,为扩大参考文献资料来源,提高研究的科学性,资料收集与文献梳理工作将围绕西汉经学家与历史文化领域的知识关联、语义化知识组织等方面展开。西汉经学家作为西汉时期一个重要的士人群体,其学术思想具有较高的研究价值。此外,西汉经学家也可视为一个专有的历史人物群体,历代也不乏这类人物群体,如明清的进士群体、民国初年的上海女医生群体等。诸多学者从不同研究视角,以不同的研究重心,对西汉经学家与历史文化领域的知识关联进行细致的研究与剖析,为本次研究提供了参考价值极高的文献资料。对历史人物群体人文知识的深入了解是进行史料资源知识关联组织的重要前提,其他领域研究知识关联、知识组织的文献资料对本研究也具有重要的借鉴价值。
1.1 西汉经学家人物群体研究
西汉经学家群体作为此次研究的主要对象,在进行数据化前,需要尽可能地了解该群体的历史变迁、生活环境、社会活动等相关人文知识。近年来,诸多学者进行了相关领域的研究。孔现红通过展示西汉经学家从西汉初年至西汉末年人生道路选择的变化过程,引出经学在西汉一朝的盛衰起伏趋势,从而揭示经学地位与经学家命运之间的关联[9]。胡建军则对西汉知名经学家族——韦贤家族进行研究,通过家族世系的考证与诠释,引出西汉韦贤家族的形成演变,进而指出韦贤家族在西汉经学发展中的地位,以此促进西汉经学研究的进步[10]。现阶段,学界关于西汉经学家研究已有较多的理论成果,促进了笔者对西汉经学家及其历史变迁、社会活动等方面的了解,但在研究方法上仍以传统意义上的文本考证为主,极少用到数据分析、统计分析等新文科所倡导的社会科学计算手段。
1.2 历史文化领域的知识关联研究
中国是一个拥有几千年优秀传统文化的大国,有无数的历史人物和历史文化知识承载着中华优秀传统文化。诸多学者以不同的研究视角,对历史人物和历史文化知识进行重构、聚合、关联。贾君枝等从发展的视角出发,构建以SKOS模型化、RDF关联化、关联数据发布为主的知识组织框架,并系统概括了这一知识关联对传统文化知识的应用价值[11];在历史文化领域的知识关联研究中,部分学者将重点放在知识关联的资源关联与服务功能的研究上,李永卉等为构建地方诗词资源的关联组织,基于Drupal平台,结合XAMPP集成包实现地方诗词资源关联数据平台的搭建,使其可以进行可视化展示与语义推理服务[12];徐晨飞等构建了《方志物产》语义化知识组织的框架,并以此系统探讨了实体识别、实体关联、可视化展示等方志物产关联数据发布的全过程[13]。现阶段知识关联在人文学科中的应用研究,仍以“物”为主,“人”的研究较少,但众多从不同视角和维度探讨历史文化知识资源语义化组织的研究,已经为后人研究历史人物知识的关联组织提供了参考价值极高的研究方法与视角。为实现《艺文志》西汉经学家人物知识资源的价值最大化,需要对其进行语义组织化,在完成实体属性分析、词表构建、本体模型确定的基础上,完成知识组织框架的最终确定。
知识关联在历史文化研究中已有较多的研究成果,尽管历史人物方面研究成果较少,但已有部分学者逐步涉足历史人物的知识关联研究。现阶段,基于关联组织的历史人物史料方面也有一定的实践成果,如中国历代人物传记资料库平台、上海图书馆家谱知识服务平台等,为此次研究提供价值丰富的实例参考。基于上述学者研究成果与国内实践成果,本文将构建基于关联数据的《艺文志》历史人物史料语义化知识组织框架。
2 《艺文志》西汉经学家人物知识的实体属性与本体构建
2.1 数据分类
本次研究所采用的《艺文志》西汉经学家人物数据,不仅包含《艺文志》西汉经学家人物信息,还囊括《艺文志》西汉经学家相关事件信息、地理信息等诸多相关知识要素。基于数据类型、来源与表达方式的不同对数据进行梳理,梳理后的数据可归纳为4类,即《艺文志》西汉经学家人物对象数据、事件数据、地点数据、著述数据。
(1)《艺文志》西汉经学家人物对象数据:指含有人物相关信息的数据集,包括来自经古籍考证的人名词条的网络文本数据、班固所著的《汉书·儒林传》与司马迁所著的《史记·儒林列传》等关于西汉经学家的数字化文本。
(2)《艺文志》西汉经学家相关事件数据:该数据集以含有《艺文志》西汉经学家相关事件要素的各类型数据为主,主要为来自经古籍考证的事件词条的网络文本数据、叶长青的《汉书·艺文志问答》与徐建委的《汉书·艺文志·六艺略笺证》等书籍的数字化文本。
(3)《艺文志》西汉经学家相关地点数据:此类数据囊括含有相关地点信息的各类数据,以中国历史地理信息平台、中国历史地理GIS数据库等查找到的时空地名录、相关古代地理数据、经纬数据等为主[14]。
(4)《艺文志》西汉经学家相关著述数据:此类数据涵盖《艺文志》西汉经学家相关著述的信息内容,数据主要来自上海图书馆开放数据平台中文古籍联合目录及循证目录所检索的馆藏著述数据、版本数据等。
2.2 实体属性
本文所研究的《艺文志》西汉经学家人物知识主要强调特定时期与学术群体等属性特征,即将时间限制于西汉,将学术群体限制于《艺文志》所记的经学家,将基础文本限制于《艺文志》,其最大的意义在于可通过社会计量分析、统计分析或地理空间分析来进行深入的知识挖掘。该知识集合的分类表达基于上文的数据来源分析进行延伸,分别是人物、事件、地点、著述,且各类知识的数据来源在上文数据来源分析皆对应表述清楚,在此不做赘述。人物为知识中的主体内容与基础,是知识的核心,本质上是对人物的描述性内容,方便对人物的进一步了解,是事件、著述的生成者,也是地点的触发者。该集合可包括人物介绍、姓、异名、字、仕途、生年、卒年等;事件、著述是该知识的重要组成,一个事件中经常会关联到不同的人物、地点,著述也是如此,事件可包括时间、事件影响等,而著述则包含作者、标题、内容、体裁、版本、创作时间、时代背景等,事件主要指的是该学者所经历的重要事件,著述则是该学者一生所做的学术作品;地点则是该知识的重要补充内容,可包括地点名称、别名、介绍、经纬等,地点是学者一生所经历的重要地点。基于知识分析得出的具体实体属性如图1所示。
图1 《艺文志》西汉经学家人物知识的实体属性
2.3 本体模型
本体可视为特定领域之中某套知识概念以及其相互之间关系形式化表达的抽象模型,常用于形容特定领域中的知识,其定义为共享概念模型的明确的形式化规范说明[15]。现阶段本体构建在文史知识工程中得到广泛的应用。本体构建涉及特定领域中知识的开放共享,结合图1中的实体属性,本研究的知识划分为人物、事件、地点、著述4个部分。为贴合该知识多本体的特点,本文将选择多本体型构建方式构建本体。在本文已有本体模型理论与国内相关学者本体模型研究成果的基础上,对本体服务中心(ONTHUB.NET)提供的本体进行选择性复用。本体服务中心作为一个开放的本体数据库,既可为用户提供国内外诸多知名本体(如上海图书馆家谱知识库本体、中国历代人物传记资料库关联数据系统本体、EMR本体等),也可为用户提供本体的校验功能。综合多方因素,构建了《艺文志》西汉经学家人物知识的本体模型。
根据本研究的知识关联特点,遵循复用原则,选择FOAF、SHLNames、LOV、DC、EVENT、GeoNames等国内外词表进行复用,结合实际情况引入额外构建词表(Character Knowledge Resources,CKR)。FOAF是一个致力于使用网络连接人和信息的项目,可视为一种基于W3C框架与RDF技术的命名属性和类的词典,主要用于描述人物与学术关系内容;SHLNames基于FOAF项目的属性描述,对人物本体类和属性间的关系做了很大程度上的补充;LOV(Linked Open Vocabularies)即关联开放词表,是一个专为可用词表而设计的词表库,对各领域、行业、类型的本体及其属性进行了描述;DC(Dublin Core Metadata Initiative)即都柏林核心元数据计划,主要指包括属性、词汇编码模式、语法编码模式和类在内的用于描述数字文献的元数据术语的最新规范;EVENT(The Event Ontology)则是专用于描述事件概念的本体,该本体仅有6个一级类;GeoNames(The Geonames Ontology)主要针对GeoNames.org数据库中定义的地理属性进行描述,该本体常被用于地理区域本体的复用中。然而,尽管本文尽可能复用词表,但在实际构建时复用的本体词表往往无法满足实际需要,因此需要根据研究的实践需求构建CKR,以对《艺文志》西汉经学家人物知识的实体属性做进一步补充与完善,完成本体模型属性的确定。通过各本体间属性的相互映射,实现本体间的关联[16]。
《艺文志》西汉经学家人物知识的4类核心实体在本体模型中均以类(class)来表示,即人物类(ckr:Person)、事件类(ckr:Event)、地点类(ckr:Place)、著述类(ckr:Work),且均按照自身特点与复用的词表进行属性内容的补充。人物类为本体中的核心、主体内容与基础,其本质是对人物的介绍性描述,其知识书写模式应叙述人名并作简要文字描述且不等同于小传,不做介绍;介绍则作为属性来描述,即小传(shl:brief-Biography),该类主要参照FOAF、SHLNames词表来对《艺文志》西汉经学家人物属性进行描述,并对人物类中的关联数据标注属性标签即生地(shl:birthplace)、卒地(shl:deathplace)、创作著述(ckr:creatorOf)等,使其与其他实体内容相关联。著述、事件类则是本体的重要构成者,主要复用了SHLNames、DC、EVENT,并利用自建词表进行属性内容的补充与完善;著述类、事件类的知识书写模式均无介绍性文字仅叙述著述名、事件名,其时间属性则与外部数据平台实体关联,知识书写模式将表示为“朝代+年号”。以上两种类的信息描述均体现了知识的特殊性;地点类是本体的重要内容补充,地名属性将与中国历史地理信息平台、中国历史地理GIS数据库等外部数据平台链接,将地理的现今地名映射为古代地名,且附上对应朝代。该实体使用的主要是GeoNames与自建词表(CKR),以此来对完成属性内容的描述,由此体现知识的创新性[17]。最终确定的本体类及其属性如表1所示。
表1 《艺文志》西汉经学家人物知识的本体类及其属性
基于本体词表的设定与相关属性概念的定义说明,并借鉴李永卉等[12]《地方诗词资源的关联组织研究——以苏轼镇江诗词为例》一文中的本体模型构建思路,最终确定知识本体模型(如图2所示),以此描述《艺文志》西汉经学家人物知识的基本属性特征,且该模型具备一定的可延伸性与复用性。对知识的数据分析、实体属性分析、词表构建以及本体模型确定,为《艺文志》西汉经学家知识关联的组织框架构建做好基础工作。
图2 《艺文志》西汉经学家人物知识本体模型
3 《艺文志》西汉经学家人物知识关联的组织框架
知识关联最大的优势是将原始资料集中分散的知识元素进行深度序化组织,关联外部异构知识源,从而形成一个具备强大扩展性、共享性、复用性和聚合性的有机整体。通过对国内相关文献的分析,结合上文提出的实体属性分析、自建词表以及本体模型构建,所构建的《艺文志》西汉经学家人物知识关联的组织框架将涵盖源数据层的数据收集与处理、数据转换层的RDF数据生成、数据关联层的实体关联与关联发布以及知识应用层的服务与利用等4个层次,如图3所示。为提高研究的真实性与科学性,将以《艺文志》中《易》部分为基础数据集,代入知识关联组织框架的各步骤以开展实证研究。
图3 《艺文志》西汉经学家人物知识关联组织框架
3.1 源数据层
源数据层的主要任务是收集作为知识关联基础的数据资料,以数字化的《艺文志》西汉经学家文献资料集为基础,结合领域的相关数据资料尽可能进行补充完善。因此,源数据层收集的数据资料呈多层级、异构化的特点,数据资料来源见上文的数据分类部分。为提高源数据质量,减少冗余、杂乱、过时、缺失甚至错误等问题的发生,通过深度学习的方式来对源数据进行分类、去重,即训练计算机学习样本数据的内在规律与表示层次,使其可识别文本数据集,并进行自动识别处理[18]。
在诸多深度学习模型中,堆叠降噪自动编码器(SDAs)可基于单个类别的组合来进行多项类别的人物识别与关系抽取,组合性强、灵活度高。现阶段,西藏大学计算机科学系珠杰[16]便以SDAs为基础设计了人物关系抽取方法,并对类似于本文研究文本的人物关系语料进行了人物特征与关系抽取。为验证SDAs应用于多层神经网络的可行性,珠杰等进行了网络深度实验,实验结果显示一至四层神经网络的召回率(Recall)与F值(F-Measure)一直处于叠增状态,由此可知,相较于单层神经网络,多层神经网络对SDAs的适用性更强,应对关系抽取、实体识别、实体抽取等复杂问题的能力也更突出[16]。此外,Bi-LSTM-CRF+BERT模型也适用于相应实体的识别工作,并通过人工校对的方式提高实体识别工作的质量。
《艺文志》中《易》部分文本语料主要包括《艺文志》原文、经古籍考证的人名词条数据以及数字化的相关文献。由于现阶段《艺文志》经学家资料分布呈分散化的态势,难以收集,因此所用的TXT文本语料内容层级还较为薄弱,其主要目的是用于测试命名实体识别模型的功效。本次研究实际使用的命名实体识别模型为Bi-LSTM-CRF+BERT模型,主要任务是将每一行文本中的人名实体抽取出来,经过处理从2万余字共284条文本数据中抽取出539个人名实体,识别结果(取两位小数)如表2所示。由于文言文文本语料较难识别,因此尚存在部分文本语料识别错误或是识别不出的问题,实例如图4所示,图中对一条文本数据进行识别,所抽取出的人名“杜陵田”“王孙”存在错误,应通过文本语料的上下文语境以及古籍佐证将其重新规范标注为“田何”与“周王孙”。因此,需要投入大量的人力与时间对识别结果进行人工校对与重新标注,去除重复与无关人名实体。经此数据预处理,提取出人物、著述、事件、地点等一系列的命名实体数据,并形成人物、著述、事件及地点数据表存储于关系型数据库(RDB)中,形成一个基于关系模型、具有多层级结构的数据库。该层作为关联组织中的基础层,决定了知识关联的质量。
图4 人名实体识别示例
表2 识别结果统计
3.2 数据转换层
数据抽取层的主要任务是通过相应的本体模型将源数据层形成的关系型数据库进行实体抽取,以转换为RDF数据格式并存储于相应数据库中。RDF数据作为一般关联数据所采用的数据模型,常以“实体—属性—值”三元组的形式描述。通过上文构建的知识本体模型与自建词表,本文所研究的《艺文志》西汉经学家人物知识的各类实体对象均已得到规范描述。为进一步凸显本研究的科学性与严谨性,在进行RDF数据格式转换前,需要进行属性的构建,并需要借助库中内置模块进行内容类型与节点的设计。参照上文本体模型的设计,将内容类型设计为4类,即人物、地点、事件、著述,并以事件内容为例,对属性的字段类型进行了添加,如field_agent代表事件介绍,field_product代表事件影响,field_releventWork代表相关著述。为进行内部数据关联,将相关著述、相关人物、发生地点及子事件等设置为Note Reference字段来关联相关数据,以事件部分为实例的内容节点设置如表3所示。本研究的内容节点类型可包括文本、长文本、长文本和摘要、节点模块元素以及Node Reference等,内容节点总计39个,其中节点模块要素4个,文本9个,长文本9个,长文本和摘要4个,Node Reference共13个。
表3 《艺文志》西汉经学家人物知识的内容节点设置(事件部分)
为将存放于关系型数据库的数据资源抽取、转换、映射为RDF数据,本文将采用RDB2RDF进行直接映射。Direct Mapping映射语言可将关系型数据库的结构直接映射为RDF词表,并将关系型数据库中的数据表转换为RDF类(class),字段转换RDF属性(property),且遵循一对一对应原则[19-20]。关系型数据库中的4个表所对应本体中的类及其数据属性,在上文本体模型与词表构建中已有详细阐述,在此不做赘述。由于D2RQ第三方RDF转化工具应用灵活性强、适用于市面上的大部分主流关系型数据库,且支持Direct Mapping映射语言,更适用于本次研究[21]。经实体抽取、关系抽取、属性抽取等处理生成的三元组数据将以XML格式存储于Graph DB数据库中,该数据库内置的“前向链”(forwardchaining)推理机,能够对导出知识进行同步推理更新,以此对知识进行动态存储,为下一步知识关联做好准备。
3.3 数据关联层
数据关联层的主要任务是数据的实体关联与关联发布,是语义化知识组织框架的核心。实体关联的技术特点在于与外部数据集进行语义链接,以扩充西汉经学家人物知识的广度,从而进一步完善领域知识内容。本文可通过多个开放数据平台来进行关联,如上海图书馆开放数据平台“人名规范库”与“中国历史纪年表”以及北京大学中国古代史研究中心“中国历代人物传记资料库(CBDB)项目”等。以上海图书馆开放数据平台“中国历史纪年表”为例,“中国历史纪年表”包括上古至今各个时期的朝代君王、君王姓名、君王年号、年号名称、年号开始及结束时间等属性。通过上海图书馆“中国历史纪年表”对应条目SPARQL语句的在线查询,并设置对象属性与实体关系,由此将检索得的资源URI(即“http://...”的形式)与人物实体进行关联,如表4所示。以《艺文志》中经学家京房的生卒年份“-77”“-37”为关键词进行检索,可得到相关URI及其中的朝代君王、君王名称及年号属性,“-77”检索结果为西汉昭帝刘弗陵元凤四年,“-37”检索结果为西汉元帝刘奭建昭二年。京房其人于公元前45年方才举孝廉出仕,检索得其在西汉元帝刘奭初元二年出仕,结合其生卒年及本人将阴阳学说与政治相勾连的治学从政思想,因此可推理出这位经学大师的主要活动在西汉元帝刘奭时期。
表4 京房生卒年年份与上海图书馆“中国历史纪年表”的匹配[13]
除京房外,其他西汉经学家人物的生卒年也可获得相对应的中国历史纪年与君王年号等信息。为进一步佐证实体关联的可靠性,将人物实体“京房”,地点实体“长安”,事件实体“奏考功课吏法”,著述实体“《京房易传》”代入本体模型进行验证。如图5所示,通过该实例进一步表明了实体关联的可靠性与可行性。在完成实体关联后,可通过配置服务器并遵循关联数据发布四原则向社会大众进行知识关联发布。该原则在2006年由Tim Berners Lee提出,内容包括所有事物需对应赋予一个URI,使用HTTP URIs便于人们访问资源,通过标准RDF为人们查找HTTP URIs提供信息等。由此进行对外的关联数据发布,为知识应用提供一个可靠的开放数据平台。
图5 《艺文志》西汉经学家人物知识实体关联实例
3.4 知识应用层
知识应用层的主要任务是为用户提供《艺文志》西汉经学家人物知识的利用服务,是知识关联的最终目的。基于数据关联层形成的开放服务平台,为用户提供知识的语义检索与浏览、知识挖掘、知识推荐、知识检索、专题服务、知识推理、可视化分析、知识图谱等服务,核心在于提升用户的体验,优化知识共享。
本文所构建的《艺文志》西汉经学家人物知识关联的组织框架包括源数据层、数据转换层、数据关联层、知识应用层。从基础的数据收集与预处理到数据转换层的本体构建、实体抽取及RDF转换,再到数据关联层的实体关联与关联发布,最后到基于开放数据平台的知识应用,形成一个结构严密、流程完整的知识关联语义化组织框架。
4 《艺文志》西汉经学家人物知识关联组织的实践价值
4.1 提供参考借鉴与实践探索路径
综上,《艺文志》西汉经学家人物知识的实体属性、本体模型以及知识关联的组织框架可广泛应用于人文社科领域的相关研究中。本文图1中实体属性不仅可对本文知识进行属性定义,也可为档案学领域中的家谱档案、作家档案、名人档案等涉及人物主题的知识图谱构建提供属性定义的复用,图3中源数据层的数据资料收集工作也可为文学领域中的名著人物关系图谱构建、人物影响力分析等研究提供参考借鉴。此外,本文图2中本体模型及表1的本体类及其属性均可为数字人文领域中古籍本体与词表构建提供复用功能,历史人文研究领域中历史文化知识资源的语义化组织研究也可复用图3中的知识关联框架。以上对实体属性、本体模型及知识关联的组织框架及其相关要素的复用的最大好处是减少研究人员在精力、时间上的浪费,推动知识的共享与传播,同时也加快科研领域的探索。
4.2 加快新技术理念与传统历史文化工作领域的深度融合
数字人文作为一门数字技术与传统人文学科相交叉的新型学科,最初被称为人文计算,即通过计算机的高速计算功能辅助并解决人文学科的问题,然而随着时间的发展与自身在人文学科领域的全方位渗透,现如今只要是涉及计算机和数字化的人文学科研究,均可被认为是数字人文[22]。本文在此次研究中利用到知识关联、本体构建、数据发布等常见的信息技术及相关的信息研究方法。本文所构建的知识关联组织框架,其各层均体现了数字技术与传统文化工作相结合的理念,图3中数据关联层基于实体关联的分类来扩充传统文化知识内容,体现了数字技术与传统文化工作的深度融合。通过将数字领域的技术、方法与理念应用于传统文化工作中,拓宽了传统历史文化工作领域的研究路径与思路。
4.3 推动传统历史文化知识弘扬、传播与扩散
数字人文这一概念的提出,在为传统文化工作提供新的理念、技术和方法的同时,也促进了传统历史文化知识的传播与扩散。本文图3中数据关联层在优化知识结构与内容的同时,也方便了用户的知识检索、发现与获取[23]。此外,图3中知识应用层也进一步推动传统历史人物文化知识的共享,如其中的知识推荐便是基于大数据相关思维,通过开放数据平台来向相关群体提供所需要的历史人物知识,或是借助网站内置的知识推荐系统向感兴趣的用户提供知识信息。此外,也可借助多媒体软件来进行动态的历史人物知识展示,以此提高受众群体的接受满意度,进一步推动知识的传播与共享。
5 总结与展望
中华传统文化作为中华民族数千年历史沉淀下来的精华,是民族赖以生存和发展的根基,是民族兴旺发达的精神支柱。历史人物作为传统文化的重要倡导者,对历史文化的发展起着推动作用。然而,只对个别历史人物进行研究,势必会夸大个人的作用,进而否定历史发展规律。因此,在对历史人物进行研究时,要关注历史人物的社会活动,将历史人物与社会活动、历史环境与他人关联在一起,避免人物个体与社会产生割裂。经学作为中国古代学术思想的主体[24],蕴含了丰富的人文价值。西汉经学家们阐释、注解、研究与宣传经学,对中国古代经学的发展起到了不可或缺的作用,而《艺文志》所记载的西汉经学家更具代表性。研究其相关知识,观察其社会活动,有利于对西汉经学发展史进行知识挖掘。早前,由于技术、时代、年代等因素,西汉经学家的人物知识难以进行聚合,影响到对知识的整理与挖掘。笔者在本文中根据《艺文志》西汉经学家人物数据来源分析,结合相关领域学者的研究思路,设计了《艺文志》西汉经学家人物知识的实体属性与本体模型,并通过本体词表进行描述。在此基础上,设计了《艺文志》西汉经学家人物知识关联的语义化知识组织框架,并对源数据层、数据转换层、数据关联层、知识应用层等自下而上的各层级进行阐述,由此探讨了《艺文志》西汉经学家人物知识关联的实践价值。
本文也存在较多的不足之处:其一,西汉一朝经学家人物众多,但笔者为方便研究,仅选择《艺文志》中所记载且知识内容较为完整的人物进行研究,而对于一些信息残缺的人物并没有利用知识推理来进行完善,以将其作为研究对象,若条件允许,残缺或佚失人物也应当纳入研究对象中。其二,受制于技术条件,在进行数据关联层描述时,未利用开放数据平台对其进行可视化展示等。其三,由于笔者知识领域有限,词表构建时除去词表中的复用部分,部分自建词表的真实性及可用性有待检验。另外,由于各大开放历史人文数据库中的西汉经学家相关记载较少,且本框架仍处于本体验证阶段,因此未能对本文提出的知识关联的语义化知识组织框架做进一步的实证分析。