基于本体的中医学术传承脉络构建*
2018-01-19中国中医科学院中国医史文献研究所北京100700
中国中医科学院中国医史文献研究所(北京,100700)
丁 侃 张丽君△
中医学术的传承,离不开“书”与“人”,即大致依靠了“文献整理”和“师徒授受”两种传承方式。因此我们认为中医学所有的文献以及知识的源与流,均可以归结到这两大脉络上。本研究基于本体的理论和方法,对中医学术传承涉及的“书”与“人”的概念和关系进行知识组织,对概念所涉及的属性应用元数据进行语义描述,从而全方位地关联出中医学术传承的脉络,并尝试通过此脉络,对异构的中医古籍数字资源进行深度聚合。
现状与需求分析
中医古籍数字化工作,起步于20世纪80年代,经过30余年的发展,积累了相当数量的数字资源。然而相关的资源可能分散在异构的多个数据库中,难以实现一体化获取和利用,同一数据库中的资源,也未必做到了合理的“整序”。
以中医经典著作《伤寒论》相关的资源为例:①古籍原物衍生的数字资源,至少包括“明万历二十七年己亥(1599年)赵开美校刻仲景全书本”、“日本宽政三年辛亥(1791年)观理药室影刻本”、“清光绪二十五年己亥(1899年)石印本”等;②古籍点校本原物衍生的数字资源,至少包括人民卫生出版社、中医古籍出版社等出版的众多点校本;③参照不同底本、校本点校的诸多《伤寒论》全文文本资源;④《注解伤寒论》、《伤寒来苏集》等《伤寒论》相关的注释文献的资源;⑤从《伤寒论》中抽取出的桂枝汤、小柴胡汤、太阳中风证、阳明经证等碎片化(结构化)的方剂、病证等资源;⑥《伤寒论》中的病证、方剂知识在后世文献中被反复转载、注释、发挥、应用(可视为《伤寒论》知识的传承过程)产生的相关资源;⑦另外还包括与《伤寒论》相关的人物,如张仲景、王叔和、林亿的信息。这些相关资源如同“孤岛”分布在不同的数据库中,难以被有效地利用。只有将组织松散、异地分布的异构资源进行有序化再组织,才能实现一体化获取和利用。
关于资源的再组织,近年来有学者提出了“资源聚合”的概念,资源聚合侧重于基于知识的内容发现和数据管理,强调通过概念分析、引证关系等手段发现并用可视化手段呈现出数字资源中蕴含的知识结构[1]。其中所强调的“引证关系”,正是中医学术传承的表征。
中医古籍数字资源深度聚合以何种方式展开,聚合的资源、知识如何组织序化,这是领域专家需要思考的问题,由此我们提出了按照传承脉络进行聚合的思路。而传承脉络的构建,需要借助本体的理论和方法。
基于元数据的本体设计
本体(Ontology)一词源于哲学领域,是关于存在的理论。在信息科学领域,定义为概念体系的明确的、形式化、可共享的规范说明[2]。元数据(Metadata)是描述其他数据的数据,或者说是用于提供某种资源的有关信息的结构数据[3]。
资源的组织在微观层面都是依据各种规范的元数据方案,资源之间的宏观联系依据知识本体所形式化的联系模型,知识本体使各类元数据方案联系成一个立体的知识网络[4]。
不同时期、不同主体,在不同理念、参数、标准指导下建设起来的诸多中医古籍数据平台,其元数据方案设计、元素设置各不相同。为此,我们首先参考了《国家图书馆古籍元数据规范与著录规则》[5]、“中医古籍书目元数据”[6]、“中医古籍元数据”、“中医语义元数据”[7],张文勇的“人物数据库元数据设计规范”[8]、王楠定义的“人物概念及属性”[9]这些已有的元数据方案,同时梳理总结了众多数字化平台、产品的数据结构、资源特色,最终确定了本研究文献、人物本体构建中采用的元数据方案。
通过构建基于元数据的本体,对各种现有异构的元数据规范进行语义强化,以实现语义层面的资源关联和知识聚合。
中医文献本体构建
1.构建参考
在中医文献本体构建过程中,我们以《中医文献辞典》作为参考。该书由余瀛鳌先生主编,收录了重要的中医文献6100余条,对于少数民族医药文献亦有收载。每一条目相当于该书的内容提要,提纲挈领,尽举特长优点,叙述十分醇正[10]。该书尤其重视考证文献学术传承的关系,对于医学人物之间的关系,亦有所涉猎。
2.元数据方案
书名:文献的名称,包括异名以及卷数和存佚情况。
主要责任者:对创建古籍负主要责任的实体。此项著录主要责任者名称、别称、国别、所处时代以及责任方式。此项可链接人物本体。
其他责任者:对古籍资源的创建有贡献的实体。此项可链接人物本体。
成书时间:古籍结集成书的时间。此项著录古籍成书的朝代、年号纪年、公元纪年。
主题:使用特定词汇对古籍资源内容的归纳描述。分类参考《中国中医古籍总目》,包括:医经、基础理论、伤寒金匮、诊法、针灸推拿、本草、方书、临证各科、养生、医案医话医论、医史、综合性著作。有些一级分类下有二级乃至三级分类。
时空范围:文献内容所涉及的地域范围和时间范围。此项著录地名、年代。
相关文献:链接与所著录文献相关联的其他文献本体。此项著录书名及相应的文献关系。定义的文献关系:引录、选录、增编、续编、改编、仿体例、注释、全注、分类注释、集注、发挥、影响、评述、单行、翻译、歌诀化、图表化、并称、比较。
附注:记录未在其他元素项著录又有必要补充说明的内容。包括著录附注、丛编附注、子目附注、合刊附注等。
现存资源:链接文献现存的资源。
语种:文献内容所使用的语言种类。
参考:著录文献所参考的资料。
3.知识通过文献传承的脉络
通过时代、分类、分科、分级、时空范围等信息,展示文献在各个维度上的分布情况。通过文献之间的关系,诸如引录、注释、发挥等展示文献之间的传承脉络,以及通过同一文献的多个责任者,发现学者的合作及传承关系。通过一本一本的书,构建学术传承的脉络,其中每本书(文献本体)作为脉络上的节点。
中医人物本体构建
1.构建参考
在中医人物本体构建过程中,我们以《中医人物词典》作为参考。该书由李经纬先生主编,收录人物多达6200余条,每位医家详述其履历籍贯、医术渊源及其世系师承、医学思想及贡献、医学著述及其卷数存佚等。后附有“人名字号、别名及师徒、后裔索引”、“中医书名索引”[11]。
2.元数据方案
人名:人物的名称,包括字、号等别称。
生卒:人物所处的朝代,以及生卒年份。
类别:根据人物的性别、信仰、民族、专业、职业等人物特征进行的分类。通过对《中医人物词典》数据的分析,确定的类别包括:女性、儒医、释医、道医、医官、官员、圣贤帝王、藏医、维医、蒙医、巫医、法医。
里籍:人物籍贯以及经常活动的地域。涉及的古地名参考《中国古今地名大辞典》。
学派:人物所属的学术流派。
专科:人物所属的科别。
专长:人物擅长治疗的疾病种类。
著述:人物所著述的文献。此项可链接与人物责任相关的文献本体。
相关人物:链接与所著录人物相关联的其他人物本体。此项著录人名及相应的人物关系。定义的人物关系:师承、门人、推崇、影响、祖先、后人。
收载:收载人物信息的文献。
3.知识通过人物传承的脉络
通过时代、类别、里籍、学派、专科、专长等信息,展示人物各个维度上的分布情况。通过人物之间的关系,诸如师承、门人、推崇、影响、祖先、后人等展示人物之间的传承脉络。通过一个一个的人,构建学术传承的脉络,其中每个人(人物本体)作为脉络上的节点,相关资源、知识聚合到相应节点上。
讨 论
1.构建传承脉络的目的
深度聚合,不仅要揭示概念实体与实例之间、实例与实例之间的关系,即揭示资源在外延上的相似关系,特别是同一资源在不同层级的关系,更要通过共同属性元素的挖掘,发现更多相似属性的内部和外部资源,揭示概念实体之间的关系,实现从资源整合向知识聚合的转变[12]。
基于中医学术传承的两大脉络——“人”与“书”,本研究探讨如何将不同来源、多种类型、各种模式的中医古籍数字化资源,尤其是经过深度加工碎片化的知识(知识体),在这两条脉络上建立起多层面的关联,以实现资源整合与共享(被整合)。从而梳理传承脉络,定位各类中医知识在学术发展过程中时间、空间、来源坐标,达到知识序化的目的。
2.本体构建方法
本研究中,本体构建采用了循环获取法(Cyclic Acquisition Process)[13]。由于中医古籍领域数据开放程度不高,前期研究过程中未找到合适复用的本体和叙词表,因此我们采用了手工构建的方式。一般的知识获取手段不能确保领域知识的完备性,因此选用专业词典,利用词典的定义和分类体系,进行知识获取,是手工建立本体常采用的方案[14]。《中医文献辞典》与《中医人物词典》互为姐妹篇,前者侧重文献,后者侧重人物,同时又互为补充,作为领域权威的资源,可以满足我们构建初级本体的需要。
在文献本体的构建过程中,对于文献间关系的定义是本研究的难点;在人物本体的构建过程中,人物相关属性的定义是本研究的难点,关于人物间关系的定义,我们参考了何时希先生的《中国历代医家传录》中总结的“十种关系”。
3.本体的迭代
本体的开发和完善是一个反反复复不断补充的迭代过程[15]。IDEF- 5方法和循环获取法等经典的本体构建方法,均提到了本体优化的观点。
本研究仅是提出了基于《中医文献辞典》与《中医人物词典》构建文献和人物初级本体的方案,在此基础上还要经过反复的迭代过程,才能贴近于专业领域中的客观实体和关系法则。在今后的工作中,我们还需要参考更多的领域内权威的辞典资料,以及复用可能的相关本体和叙词表,更为重要的是在资源聚合的实践中验证并修正本体,使得文献人物本体日臻完善,才能使由此勾画出的中医学术传承的脉络,日益清晰丰富。