基于本体方法构建《伤寒论》版本知识图谱❋
2023-11-03林睿凡周洪伟刘亮亮
林睿凡,周洪伟,刘亮亮,谢 琪
(1.中国中医科学院中医临床基础医学研究所,北京 100700;2.上海对外经贸大学统计与信息学院,上海 200000;3.中国中医科学院学术管理处,北京 100700)
中医药学是中国古代科学的瑰宝,中医文献是中医药学传承的载体。现存中医药文献约一万三千种,其中的经典医籍流传甚广。读书须从目录问途,版本源流研究是古代文献整理中不可或缺的重要工作,具有读书治学、古籍整理、管理编目、收藏与流通等四方面重要意义[1]。钱锺书提出,版本选择作为古籍研究的起始步骤看似细枝末节,但实际上由于不同版本的内容差异巨大,最终所选版本对于研究结果也有至关重要的影响[2]。《伤寒论》成书后由于古代印刷技术所限,主要以抄本传世,历经历代学者、收藏家和医家不断传抄、整理和刊行,演变为不同版本。《伤寒论》历经长久时间的流传,其版本包括唐本、金匮玉函经、高继冲本、宋本、敦煌残卷及安政本等众多版本[3]。这些版本在历史上不同时期经由不同之手传承,版本之间内容的差异,来源的不同,藏于不同书阁,甚至存在书名的多次变更,存世的先后顺序均值得进一步汇总整理。也正是由于版本信息之混杂,在学习《伤寒论》时,版本选择是学者们面临的首要挑战,因此直观而有效地展示伤寒论版本流传知识很有必要。
近年来伴随古籍数字化飞速发展,有学者开始尝试探索构建中国历代存世典籍知识图谱,拓展古籍知识服务内涵[4]。通过建立《伤寒论》版本的本体和知识图谱,追本溯源,通过知识图谱和本体共同搭建的框架,展示《伤寒论》版本流传的路径,可以为《伤寒论》版本研究提供重要的参考。
本体捕获特定领域的知识模型,允许描述概念以及概念之间的关系。因此本体可以看作在决策过程中起重要作用的元数据。通过构建本体不但可以完成概念分类,避免歧义的产生,还可以通过概念关系实现对于真实世界的描述。知识图谱由于概念之间关系被准确定义,因此可以明确显示推理过程,从而为推荐系统带来解释性。《伤寒论》版本流传情况基于本体方法通过知识图谱的形式展示,能够还原版本之间概念与概念的关系,展示版本流传的原貌以及版本基本信息。因此,本研究基于本体方法构建《伤寒论》版本知识图谱,以期满足用户对中医古籍目录知识表达和知识呈现的最新需求。
1 资料与方法
1.1 文献检索策略
以主题“伤寒论”and主题“版本”作为检索词,检索PubMed、SinoMed、中国学术期刊全文数据库(CNKI)、万方数据库(WanFang)、重庆维普数据库(VIP),检索日期截止至2022年4月。
1.2 文献纳入标准
明确阐述《伤寒论》流传情况的文献予以纳入。
1.3 文献排除标准
《伤寒论》阐释类著作不纳入研究范畴;阐述《金匮要略》版本流传情况的文献不纳入研究;对于同一版本的流传情况阐述相悖者,取论述最充分者予以纳入。
1.4 缺失信息补充
参考已出版的中医古籍书目《中国中医古籍总目》[5]《宋以前医籍考》[6]《中国医籍考》[7]《中国医籍通考》[8]《中国医籍大辞典》[9]《中国医籍补考》[10]等补充版本信息。
1.5 版本概念获取
参考《GB/T 3792.7-2008古籍著录规则》[11]《中医古籍整理规范》[12]《图书馆·情报与文献学名词》[13]《中国古籍版本学》[14],对其未收录的概念遵循原文语料阐述进行提取。提取原则包括合理性和准确性,其中合理性为“与权威文献所归纳概念相比较后,提出能够真实反映《伤寒论》流传知识的复合实体”; 准确性为“所收录的版本概念 应保证用词准确且无歧义,是中医古籍领域所认可的常用概念”。
1.6 版本概念关系获取
参考学者经验,直接复用现有古籍版本概念关系[15-16]。获得“组成”“包含”“校注”“底本”“传本”等已明确定义的概念关系,用于支持《伤寒论》版本概念关系的构建。本体的来源包括3个,分别为复用现有本体;收集整理包括字典、国标以及国际标准等在内的权威文献的古籍术语;对已发表文献提出的术语进行进一步概括,用于《伤寒论》版本概念及概念关系的描述。
其余未给出准确定义的概念关系通过归纳、分析现有文献概括出相应含义。以“离析为”举例说明。关系“离析为”的定义域和值域所包括的体量差别较大,或者说经离析后,一本书籍拆分为两本不同的书籍。例如《金匮玉函经》和《杂病》经由《张仲景方》离析而来。依据为经钱超尘教授考证《张仲景方》离析为八种二十六卷[17],《金匮玉函经》和《杂病》仅占其中两卷,因此《张仲景方》所载内容十分丰富,只是其他内容目前未见或已将亡轶。经与《图书馆·情报与文献学名词》的概念关系“析出文献”进行比对后可将“离析为”概念关系定义为“文献从整本(套)文献中析出,形成具有独立著者、独立篇名的著作”。
《伤寒论》概念关系获取的提取原则主要包括以下三点。①定义准确:概念关系的获取需要在明确关系定义的基础上完成,所以定义概念关系的用词选择既要能够反映概念之间联系的本质,也要符合汉语语义和古籍流传的用词规范,不给读者造成歧义。②用词简洁:基于现有古籍版本学的专业术语,概况和提取中医版本的概念关系,一方面便于专业人员对概念关系理解,同时也避免了用词冗余繁琐的问题。③使用范围明确:通过限定概念关系的定义域和值域划定概念关系的使用场景。
1.7 采用“领域本体七步法”构建《伤寒论》版本的本体。
通过查阅文献,考查复用现有版本本体的可能性;参考《中医古籍整理规范》[12]《书目记录的功能需求》[18](FRBR)等定义《伤寒论》版本类和类的等级体系;采用Neo4j构建工具进行储存;形成《伤寒论》版本知识本体。
1.8 基于《伤寒论》版本本体的实例,构建版本的知识图谱。
基于本体将对实例进行抽取,共获得133个三元组。将“位置戳”和“地点戳”的概念引入,主要用于解决四元组的知识表示问题。例如,华希闲于 1763 年购买《千金翼方》。三元组表示为:
P1=(《千金翼方》,购买人,华希闲)
(《千金翼方》,收购时间,1763)
此句子将会以上述嵌套关系出现。同样还包括以下几种情况:《太平圣惠和剂局方》于公元 992 年收录淳化本《伤寒论》、 2005 年《伤寒论》南宋闽刻本收录《海外回归中医古籍善本集萃》、《伤寒杂病论》 收录于《脉经》的七八卷等。不论是古籍还是现代文献常见时间、地点等多元关系,采用打标签的形式标注《伤寒论》版本知识图谱能够解决上述多元关系表示困难的问题。因此提出“成书时间”“发行时间”等属性标签,能够帮助版本知识图谱更加高效推断古籍的相关知识。
2 结果
2.1 《伤寒论》版本概念
获得21个概念,见表1。
表1 《伤寒论》版本概念
2.2 概念关系
获得关系共16种,含有4种属性关系,其种类和相应定义见表2。
表2 《伤寒论》版本的概念关系及定义
2.3 《伤寒论》版本类和类的等级体系
获得《伤寒论》版本类和类的等级体系,如图1所示,其中:
图1 《伤寒论》版本类和类的等级体系
①版本类[15-16]。版本是古籍内容的载体,是内容的物理体现,可理解为“同书异本”。其分类包括刻本等。
②人物类[15-16]。人物类别通过不同方式与版本相关联,例如对经书字句的注解为注疏者,因此可将“注疏者”划分至人物类。
③团体类[18]。团体即是机构,由于《书目记录的功能需求》已明确给出术语“团体”,因此将其采纳。主要表示为不同版本所产生的机构,例如“收藏机构”可划分为“团体类”。
④作品类[18]。将古籍作品内容进行概况,获得其所属的具体类别。用于概况文献主体。例如《崇文总目》六十六卷按四部分四十五类,因此属于为书目类别,故将书目凝练为“作品类”。
⑤流传版本类[12,15-16]。古籍经由底本流传为传本,因此底本为工作基础,传本形成不同流传体系,因此底本和传本是时间先后的体现,故划分至流传版本类。
2.4 《伤寒论》版本知识框架
底本以及传本是针对古籍版本传承先后顺序的定义,包括刻本、抄本等多种存在形式,通过将版本进行分类能够作为判断内容准确性的依据;将责任者按照作者、收藏人、进献人等不同类别进行分类,可以反映不同版本的是以怎样的方式进行流传的,能够作为判断内容完整的依据;团体类别下包括收藏机构、翻刻机构和重印机构,根据上述机构不同职能分型可以明晰版本的处理情况。
《伤寒论》版本的流传通过底本和传本之间的顺承关系体现,根据流传关系的定义可以区分底本和传本之间的差异程度,例如“流传为”是古籍本身以相对完整的形式流传。而“校勘为”旨在保留古籍原貌,虽然对于原文有所改动通过谬误或订正,并将原本正确的内容予以保留,前后所关联的底本和传本有差异,且经过详细校勘,因此更有可能贴近古籍原貌,详见图2。
2.5 《伤寒论》版本知识图谱
《伤寒论》版本知识图谱包括133个实体关系对,相较于传统的三元组增加时间戳、位置戳和地点戳的概念。通过增加此类概念可解决时间,位置和地点类多元关系的表示问题。将“成书时间”“发行时间”等属性添加到三元组中能够便于计算机推测图谱中书籍的大致成书时间,见表3、图3。
图3 《伤寒论》版本知识图谱示例
表3 《伤寒论》版本知识图谱部分实体关系对比
3 讨论
中医古籍是信息时代中医学传播的重要载体,梳理古籍的流传情况对于今后中医应用有着十分重要的意义。但由于技术所限,自张仲景完成底本后便以各种形式流传于世,且多未经系统整理[19]。1954年中央文化委员会在《关于改进中医工作问题给中央的报告》提出“整理出版中医古籍,包括编辑和翻印古典和近代医书”,其后《伤寒论》纳入古籍整理工作的一部分。时至今日,本体和知识图谱技术作为知识表示的一种新技术有利古籍版本的相关知识的呈现,借助于上述两种技术能够将《伤寒论》流传情况概括为本体,具体知识通过概念关系相关联,以图谱的形式呈现,不仅能够充分展示《伤寒论》流传情况,为选本提供参考建议,还能实现其他古籍版本流传信息的自动获取,简化人工整理工作,梳理其他古籍版本的流传情况。
本体的主要功能在于概括客观世界,并通过概念关系将概念相关联,用于刻画某一领域相关知识。而客观世界除了静态知识外还包括各种动态事件,因此即使是同一领域,知识可归属于静态,也有可能呈现动态性,那么描述不同情态下的知识所使用的本体也不尽相同。例如当本体的作用为构建古籍版本数据库时属于静态本体,其核心为描述单一古籍的基本情况,就包括明确刻画古籍的出版时间、版本编号,相关作者的姓名、籍贯等[20],因此构建静态本体的重点在于囊括概念类别。版本流传着重体现古籍衍变情况,因此其中也会涉及部分古籍知识,核心术语包括作者、古籍和内容表达。版本流传围绕同种古籍进行,也就是说主要强调古籍流传过程中的时间属性和同种版本变化情况,相比于静态描述古籍的性质和内容,版本流传本体着重强调动态,因此仅使用“版本”“人物”“时间”等概念描述版本并不能完全概括不同版本古籍的流传情况,所以应该在服务于构建版本流传知识图谱的基础上,提出新的本体模型。
时间戳作为递归事件网络的一种序列标签,可以与其他概念关系相关联,将时间明确地合并到实体关系中。这种序列标签通常能够解决常用复杂句式中的状语图谱化的问题。通过添加序列标签的形式一方面能够以简洁明了的方式展示更多的原文信息,减少失真,另一方面也能够作为知识图谱推理的依据,结合时间相关属如“成书时间”“发行时间”等属性,以推测成书时间缺失的古籍的大致诞生时间。基于“时间戳”同时提出“位置戳”“地点戳”等表示方式,用于解决多元关系的表示方法问题。