中医古籍图像标引方案设计*
2015-01-23中国中医科学院中国医史文献研究所北京00700张丽君胡晓峰
中国中医科学院中国医史文献研究所(北京,00700) 丁 侃 张丽君 胡晓峰
·学术探讨·
中医古籍图像标引方案设计*
中国中医科学院中国医史文献研究所(北京,100700) 丁 侃 张丽君 胡晓峰1
本文介绍了中医古籍图像标引的基本方案,通过定义、说明和示例的形式对古籍信息、版本信息、图像本体三类元数据进行了逐条的解析;并对标引工作中的出处标引、规范制定、提高识图能力、细化释图文字标引等重点、难点问题进行了讨论。
中医 古籍 插图 标引 元数据
本研究中的“中医古籍图像”,主要是指各类中医古籍中所刊载的承载中医知识的各类插图而言。2009年、2013年、2014年,中国中医科学院持续立项资助了中医古籍图像相关研究工作,共查阅12类中医古籍计2773种,登记图像41,831幅,收集整理编辑图像29,428幅[1]。
为了管理好这些资源,方便用户查找,更为后续研究工作的深入开展奠定基础,我们拟采用标引的手段达到上述目的。标是标记,引是指引。标引就是通过标记指引人们方便、快捷地找到所需要的信息。
在前期古籍图像资源搜集工作基本完成的基础上,随着“中医古籍图像标引系统”开发完成,按照《中医古籍图像数据平台构建方案》的具体要求[2],我们拟定了如下标引方案。
书目信息的标引
书目信息用以揭示图像源自何种古籍,分“古籍信息”和“作者信息”两组进行标引。
1.古籍信息
总目序号 古籍在《中国中医古籍总目》[3](以下简称《总目》)中的顺序号,为古籍在此系统中的唯一标识。如《外科心法要诀》一书,总目序号标引为“9387”。
书名 此项标引一般参照《总目》上所著录的书名。①书名无需加书名号,如“外科心法要诀”;②书名中有卷数的,卷数与书名之间需要空一格,如“黄帝内经素问十二卷”。
又名 古籍的其他名称。此项可重复标引。
成书年代 此项标引一般参照《总目》及《宋元明清医籍年表》[4]。①年代可考者,一般标引为公元纪年;②具体年代不可考者,只能断定朝代,按照方括号中加该朝代灭亡年代的格式标引,如明朝成书的古籍,标引为“[1644]”。
2.作者信息
一种古籍的作者及注释整理者等可以有多位,此组可重复标引。
作者 作者的姓名。
别称 作者的别称,包括字、号、尊称、谥号、官职等。此项可重复标引。如朱丹溪的别称有“彦修”、“震亨”等。
朝代 作者生活的朝代。①此项标引参照《中国医学史》[5]中附录的“中国历史年代简表”;②若作者为外国人,则此项视为“国别”,如《疡科秘录》作者日人本间救,此项标引为“日”。
责任方式 作者对该书的责任方式。
版本信息的标引
版本信息用以揭示图像所出之具体版本。分“版本信息”、“馆藏信息”、“调研信息”、“备注信息”四组进行标引。
1.版本信息
版本 此项标引一般参照《总目》中著录的版本名称。格式一般为∶朝代+年号纪年+干支纪年(公元纪年)+刊刻地点+刊刻者+版本类别。如《(徐评)外科正宗》选用的版本为“清咸丰十年庚申(1860年)海宁许氏刻本”。
题名 收集古籍在牌记、卷首、卷末等处的不同题名。此项可重复标引。如《外科心法要诀》在卷首的题名为“编辑外科心法要诀”。
刊刻年代 此项标引与“成书年代”的格式要求基本相同。
所属丛书 该版本所属的丛书。
2.馆藏信息
收藏馆 此项标引参照《总目》中的“收藏馆代号表”。如中国中医科学院图书馆所藏,则标引为“139”。
索书号 该古籍在其所在图书馆的索书号。
3.调研信息
此组标引在图书馆实地查阅过程中,《中医古籍图像调查表》上所填写的原始调研记录。
4.备注信息
版本形态 版本形态,或称之为版本制度,包括行款、装订方式和板框形制等。
任务备注 关于此标引任务的备注说明。包括任务中,关于图像种类、数据完整性、拟分配标引人员等备注信息。
图像本体的标引
此为图像标引的重点。将图像本体所蕴涵的信息,即其所承载的中医药知识,分如下9项逐条标引析出。
资源标识符 图像在系统中的唯一编码。由系统根据总目序号、版本以及图像流水号等要素自动生成。
正名 此项标引是对无名图进行命名,有名图进行规范的过程。
图名 ①此项客观标引图像原有的名称,原则上对原图名不作改动;②本无图名的图,此项不必标引;③对于本无图名,但相关的篇名等显然适合作为图名的情况,可对篇名适当取舍,作为图名标引。
分类 此项可重复标引。
主题 此项可重复标引。
图中文字 图像中起到标记、指示等作用的文字。图中文字重复的(如图中对称的穴位名称),只需标引一次即可。
释图文字 图像外对其本体起到解释、阐释等作用的文字。允许参考其他相关资料标引本页中没有的释图文字。
相关图像 与标引对象有关联的其他图像。如不同版本刊载的同一图像、同名图像、过程图、组图等,彼此之间建立关联及顺序。
备注 关于图像本体需要备注说明的内容。
讨论
由于目前对于古籍图像的标引尚无成熟的方案可供借鉴,故本研究主要基于前期对“中医古籍图像数据平台”所作的需求分析,方案设计参考了以都柏林核心(Dublin Core,DC)元数据为代表的国际上通用的元数据方案∶书目和版本信息的标引主要参考了DC元数据[6]、《国家图书馆古籍元数据规范及著录规则》[7];图像本体的标引主要参考了《基于知识元信息技术的中医古籍元数据研究》[8]所提供的方案。
尽管目前关于图像自动标引的研究方兴未艾,并取得了一定的进展[9],但由于图像低层特征和高层语义之间存在着难以逾越的鸿沟[10],中医古籍图像语义的特殊复杂性,以及图像的数量相对有限,不具有“快速增长”的特性,因此我们选择了更为稳妥、可行的人工分布式标引方案,将标引与图像研究过程融为一体。
我们的体会
1.对于图像出处的标引十分必要
通过对书目信息的标引,可以将单幅的图像定位于中医学术传承发展的大背景中进行考量;通过对版本信息的标引,可以藉此探究版本之间的差异以及图像在刊刻过程中的衍化传承关系。
2.正名、分类、主题是揭示图像本体的核心元素
所谓“物之具名,本自有义,循名责实,义自明矣”[11]。然而古人对于图像的命名并不统一,若要达到通过名称以区分不同事物(图像)的目的,就必须对每一幅图像给予一个规范化的正名。为此,课题组拟定了《中医古籍图像命名规范》,其中对正名所含的各种要素分别进行了规范。
分类是对知识体系的次序化,为此课题组拟定了《中医古籍图像分类标准》,该标准设定了疾病图、诊断图、医疗图、药物图、器具图、养生图、脏腑图、经穴图、部位图、理论图、符咒图、人物图12个一级类目,其下设有相应的二级、三级类目。
主题标引是揭示图像所承载知识点的有效方法。我们拟参考《中国中医药主题词表》[12]对图像主题进行标引,以此更规范地抽取图像所承载的中医知识,同时起到优化检索的目的。
3.图中文字、释图文字、相关图像标引是深入研究的基础
图中文字指图像中起到标记、指示等作用的文字。标引过程中我们发现,即使具有现代中医学高等教育背景的一般标引人员,对于运气、卦象、符咒等图像的识读,仍然相对困难。
释图文字指图像外对其本体起到解释、阐释等作用的文字。释图文字往往不仅出现在图像当前页,前后页中也常有大段的释图文字,将古籍图像从整部书中割裂出来,可能造成图像相关信息的缺失,为此特设此项加以弥补。此外,根据特定研究工作的需要,我们还可以针对不同类型图像的释图文字,制定相应的扩展元数据。如针对疾病图,我们设置了证候表现、辨证分析、治则治法、处方用药等扩展元数据。
相关图像指与标引对象有关联的其他图像。通过相关图像的标引,在现有纵向分类基础上,可以进一步建立横向的关联,形成关系网络。
4.中医古籍图像标引将是一项持续性的工作
标引不是最终目的,我们将其作为图像研究的一种手段来看待,标引什么、如何标引要服务于图像研究的最终目标或特定目标。随着图像研究的不断深入,针对某些专题化、定制化的需求,我们将陆续制定并实施一系列标引方案。
依托现有工作基础,我们希望探索一种数据共享、平台开放、专题定制的研究机制,让更多的有志同道参与到研究工作中来,共同开拓中医古籍图像更广阔的研究领域。
[1]秦秋.我国首次开展中医古籍图像研究[N].中国中医药报,2011-12-16(001).
[2]丁侃,胡晓峰,张丽君.中医古籍图像数据平台构建方案探讨[J].中国医药导报,2012,9(14):123-124.
[3]薛清录.中国中医古籍总目[M].上海:上海辞书出版社,2007.
[4]刘时觉.宋元明清医籍年表[M].北京:人民卫生出版社,2005.
[5]甄志亚.中国医学史[M].第2版.上海:上海科学技术出版社,1997:187.
[6]吴建中.DC元数据[M].上海:上海科学技术文献出版社,2001.
[7]肖珑,苏品红,刘大军.国家图书馆古籍元数据规范与著录规则[M].北京:国家图书馆出版社,2014.
[8]丁侃.基于知识元信息技术的中医古籍元数据研究[D].北京:中国中医科学院,2009.
[9]汪丹.基于内容的图像标引与检索创新[J].现代情报,2005,(4):59-62.
[10]谢书娟.SVM理论在图书馆馆藏图像标引方面的应用[J].甘肃科技,2010,26(1):118,119,128.
[11]金丽.考证名物与中医古籍阅读[J].江西中医学院学报,2008,20(6):25-27.
[12]吴兰成.中国中医药主题词表[M].北京:中医古籍出版社,1996.
Design on Image Index Project of Ancient Chinese Books
DING Kan,ZHANG Li-jun,HU Xiao-feng
(Chinese Medical History and Literature Research Institute,China Academy of Chinese Medical Sciences,Beijing 100700,China)
Traditional Chinese Medicine;ancient books;illustration;index;metadata
G254;R2
:A
:1006-4737(2015)03-0026-03
2015-04-01)
中央级公益性科研院所基本科研业务费专项资金资助项目“中医古籍图像数据库示范性研究”(编号:ZZ030706);“中医古籍图像分类整理研究(第二期)”(编号:ZZ090503)
1通讯作者
Abstrac:This article is to introduce a basic indexing project of images in ancient Chinese books.Metadata is analyzed item by item on ancient books,visions,objects of pictures through definition,illustration and demonstration.Also,key notes and difficult points are discussed on index citation,indexing standards,capability of recognizing images,refinement of captions.