APP下载

解析“中医古籍图像数据库”的图像标引*

2016-02-21丁侃胡晓峰张丽君

西部中医药 2016年5期
关键词:标引总目古籍

丁侃,胡晓峰,张丽君

中国中医科学院中国医史文献研究所,北京100700

解析“中医古籍图像数据库”的图像标引*

丁侃,胡晓峰,张丽君△

中国中医科学院中国医史文献研究所,北京100700

通过对中国中医科学院中国医史文献研究所在“中医古籍图像数据库”建设过程中的图像标引工作的介绍,探讨标引规则的制定;对书目、版本、图像本体3类共26项元数据进行详尽说明,辅以必要的示例;并对出处标引、规范制定、提高识图能力、细化释图文字标引等重点、难点问题进行讨论。

中医;古籍;插图;标引;图像数据库

本研究中的“中医古籍图像”,主要是指各类中医古籍中所刊载的承载中医知识的各类插图。2009年、2013年、2014年,中国中医科学院持续立项资助了中医古籍图像相关研究,前期研究共查阅诊法、本草、针灸、推拿、内科、女科、儿科、外科、伤科、五官科、养生、基础12类中医古籍共2 773种,登记图像41 831幅,收集整理编辑图像29 428幅[1]。至此中医界第一次系统掌握了中医古籍图像资源。

为此,本研究拟建设“中医古籍图像数据库”[2],以更好地管理该资源,方便用户查找、浏览、使用该图像,更为后续研究工作的开展奠定基础。数据库建设通过标引过程完成,在对图像识读、分析的基础上,选用确切的检索标识,以此反映该图像所承载的中医知识内容。

由于中医古籍图像专题数据库建设、针对图像内容的深度标引在业内均属首次,具有探索性质,因此本研究对该过程加以详细介绍,以期为相关研究提供借鉴依据。

1 对象与方法

1.1标引对象本研究对象为中医古籍图像,标引粒度为“幅”,即将一幅明确、完整的古籍图像作为标引的对象。此处引入两个概念,即“自然页”与“标引页”。“自然页”是通过扫描或拍照得到的古籍图像的数字文件,一般为古籍中的半页(半版);“标引页”是标引的基本单位,刊载有一幅明确、完整图像的古籍图像文件作为一张标引页。一般情况,若一张自然页中仅包含有一幅插图,则标引页≈自然页。而如果一张自然页中包含有多幅插图,或是一幅完整的插图分布刊刻于多张自然页上,则标引页就需要在一张或多张自然页基础上,通过“框选”或“拼接”等操作加工获得。

1.2标引方法所有图像的标引工作均在“中医古籍图像标引系统”中完成,标引步骤大致如下:首先,在系统中创建一种古籍,标引书名、作者等书目信息;其次,在一种古籍之下分别建立其若干版本,标引题名、版本、馆藏等版本信息;再次,上传图像文件,系统将每一个版本所刊载的一包图像文件作为一个任务进行管理;以上新建任务与数据上传工作完成后,根据设定的图像元数据(基本元数据及扩展元数据),对图像本体所蕴涵的信息逐条进行抽取标引,包括图名、分类、主题以及与之相关的其他图像等。

2 书目信息的标引

书目信息用以揭示图像源自何种古籍,分“古籍信息”和“作者信息”2组进行标引。

2.1古籍信息

2.1.1总目序号古籍在《中国中医古籍总目》[3](以下简称《总目》)中的顺序号为古籍在此系统中的唯一标识。标引说明:如《外科心法要诀》一书,总目序号标引为“9387”。对于《总目》未收录的古籍,以“2”开头单独为其依次编号,如“20001”“20002”……“2XXXX”,并经课题组备案。

2.1.2书名——古籍通用的名称标引说明:此项标引一般参照《总目》上所著录的书名。1)书名无需加书名号,如“外科心法要诀”;2)书名中有卷数的,卷数与书名之间需要空一格,如“黄帝内经素问十二卷”。

2.1.3又名——古籍的其他名称标引说明:古籍的又名可以为多种,此项可重复标引。

2.1.4成书年代——古籍成书的年代标引说明:此项标引一般参照《总目》及《宋元明清医籍年表》[4]。1)年代可考者,一般标引为公元纪年;2)具体年代不可考者,只能断定朝代,按照方括号中加该朝代灭亡年代的格式标引,如明朝成书的古籍,标引为“[1644]”。

2.2作者信息每本古籍的作者及注释整理者等可以有多位,此组可重复标引。

2.2.1作者作者的姓名。

2.2.2别称作者的别称。包括字、号、尊称、谥号、官职等。标引说明:此项可重复标引。如朱丹溪的别称有“彦修”“震亨”等。

2.2.3朝代作者生活的朝代。标引说明:1)此项标引参照《中国医学史》[5]中附录的“中国历史年代简表”;2)若作者为外国人,则此项视为“国别”,如《疡科秘录》作者为日人本间救,此项标引为“日”。

2.2.4责任方式作者对该书的责任方式。标引说明:常见的责任方式包括:撰著、纂、修、注、辑注、编辑、校注、编注、图注、集注、编、辑、译、绘、书、篆刻等。

3 版本信息的标引

版本信息用以揭示图像所出之具体版本。分“版本信息”“馆藏信息”“调研信息”“备注信息”4组进行标引。

3.1版本信息

3.1.1版本版本的名称。标引说明:此项标引一般参照《总目》中著录的版本名称。格式一般为:朝代+年号纪年+干支纪年(公元纪年)+刊刻地点+刊刻者+版本类别。如《(徐评)外科正宗》选用的版本为“清咸丰10年庚申(1860)海宁许氏刻本”。

3.1.2题名古籍的题名。标引说明:收集古籍在牌记、卷首、卷末等处的不同题名。此项可重复标引。如《外科心法要诀》在卷首的题名为“编辑外科心法要诀”。

3.1.3刊刻年代古籍该版本的刊刻年代。标引说明:此项标引与“成书年代”的格式要求基本相同。

3.1.4所属丛书该版本所属的丛书。标引说明:该版本如果不是单行本,则列出所属丛书。

3.2馆藏信息

3.2.1收藏馆该版本古籍所藏的图书馆。标引说明:此项标引参照《总目》中的“收藏馆代号表”。如中国中医科学院图书馆所藏,则标引为“139”;《总目》中未列出的图书馆,以“10”开头单独为其依次编号,如“1001”“1002”……“10XX”,并经课题组备案。

3.2.2索书号该古籍所在图书馆的索书号。标引说明:一般为图书馆自行编制。

3.3调研信息此组标引在图书馆实地查阅过程中,《中医古籍图像调查表》上所填写的原始调研记录。包括每本古籍中所刊载的图总数、获图总数、墨线插图数、彩绘插图数、书影总数。单位均为“幅”。3.4备注信息

3.4.1版本形态对于书本实体形态的描述。标引说明:版本形态,或称之为版本制度,包括行款、装订方式和板框形制等。

3.4.2任务备注关于此标引任务的备注说明。标引说明:包括任务中,关于图像种类、数据完整性、拟分配标引人员等备注信息。

4 图像本体的标引

此为图像标引的重点。将图像本体所蕴涵的信息,即其所承载的中医药知识,分为“资源标识符”“正名”“图名”“分类”“主题”“图中文字”“释图文字”“相关图像”“备注”,共9项逐条标引析出。

4.1资源标识符图像在系统中的唯一编码。标引说明:由系统根据总目序号、版本以及图像流水号等要素自动生成。

4.2正名图像的正式名称。标引说明:此项标引是对无名图进行命名、有名图进行规范的过程,参照课题组拟定的《中医古籍图像命名规范》进行。

4.3图名图像的名称。标引说明:1)此项客观标引图像原有的名称,原则上对原图名不作改动;2)本无图名的图,此项不必标引;3)对于本无图名,但相关的篇名等适合作为图名的情况,可对篇名适当取舍,作为图名标引。

4.4分类图像所属的分类。标引说明:此项可重复标引,参照课题组拟定的《中医古籍图像分类标准》进行。

4.5主题图像反映的主题。标引说明:此项可重复标引,主要参照《中国中医药主题词表》[6]进行。主题词之间用空格隔开,中间不加标点。

4.6图中文字图像中起到标记、指示等作用的文字。标引说明:原则上,图像线条之内的、图像边框之内的文字一般视为“图中文字”。或文字不在图内,但指示的为图中位置,亦视为“图中文字”。1)不连续的图中文字之间用空格隔开;2)图中文字的标引顺序以符合常规的阅读顺序为原则,一般采用从上至下,由右向左的顺序;3)图中文字重复者(如图中对称的穴位名称),只需标引一次即可;4)成句、成段的图中文字,中间加标点;5)文字统一为简体。

4.7释图文字图像外对其本体起到解释、阐释等作用的文字。标引说明:“释图文字”通常不仅存在于图像所在本页,还有可能出现在其前后页的上下文中。1)不连续的释图文字之间(段句之间)用空格隔开;2)释图文字的标引顺序以符合常规的阅读顺序为原则,一般采用从上至下,由右向左的顺序;3)成句、成段的图中文字,中间加标点;4)允许参考其他相关资料标引本页中没有的释图文字;5)文字统一为简体。此外,根据特定研究工作的需要,还可进一步对释图文字进行必要的细化标引,针对不同类型图像的释图文字,制定相应的扩展元数据。如针对疾病图设置证候表现、辨证分析、治则治法、处方用药等扩展元数据。

4.8相关图像与标引对象有关联的其他图像。标引说明:如不同版本刊载的同一图像、同名图像、过程图、组图等,彼此之间建立关联及顺序。

4.9备注关于图像本体需要备注说明的内容。标引说明:对已有图像元数据标引未尽的信息,可填入备注中。1)对于标引对象残损不全者备注为“残损”;2)对于标引对象模糊不清者备注为“模糊”。

5 讨论

5.1图像出处的标引在数据库建设中十分必要通过对书目信息的标引,不但可以清楚地知道图像出自何种古籍;更可藉此了解图像出现的时代背景、学术渊源、流传脉络,将单幅的图像定位于中医学术传承发展的大背景中进行考量。通过对版本信息的标引,不但可进一步明确图像出自哪个版本;更可藉此探究版本之间的差异以及图像在刊刻过程中的衍化传承关系。此外馆藏信息可为后续研究者实地调阅相关资料提供便利;调研信息不仅可用于调研数据、采集数据、标引数据之间的相互核实,还可排除大量无图像刊载的古籍,为后续研究者缩小查找范围。为此,在《国家图书馆古籍元数据规范及著录规则》[7]以及相关研究[8]的基础上,根据实际工作需要设置了如上古籍元数据和版本元数据。

5.2正名、分类、主题的标引是数据库建设的主要任务

5.2.1正名正名指图像的正式名称。所谓“物之具名,本自有义,循名责实,义自明矣”[9],然而古人对图像的命名并不统一,同样一幅图(完全相同或非常相似)常标有不同的图名,此外对图像不命名的情况在古籍中也普遍存在。若要达到通过名称区分不同事物(图像)的目的,就必须对每一幅图像给予规范化正名。为此,课题组拟定了《中医古籍图像命名规范》,其中对正名所含的各种要素分别进行规范。

5.2.2分类分类指图像所属的分类。分类是对知识体系的次序化,没有有效的分类,简单累加的大量古籍图像将不可能被有效利用。为此,课题组拟定了《中医古籍图像分类标准》,该标准设定了疾病图、诊断图、医疗图、药物图、器具图、养生图、脏腑图、经穴图、部位图、理论图、符咒图、人物图共12个一级类目,其下设有相应的二级、三级类目。

5.2.3主题主题指图像反映的主题。主题标引是揭示图像所承载知识点的有效方法。本课题拟参考《中国中医药主题词表》对图像主题进行标引,以此更规范地抽取图像所承载的中医知识,同时起到优化检索的目的。

以上标准规范,尚需在标引实践过程中不断加以调整、补充、完善,最终将成为图像研究的主要成果之一。

5.3图中文字、释图文字、相关图像标引是深入研究的基础图中文字指图像中起到标记、指示等作用的文字。标引过程中发现具有现代中医学高度教育背景的标引人员,对于脏腑图、疾病图、经穴图等的标引基本不存在障碍,但对于运气、卦象、符咒等图像的识读,则相对困难,需要相关领域专家指导,以及标引人员自身加强相关知识的学习积累。释图文字指图像外对其本体起到解释、阐释等作用的文字。释图文字通常不仅出现在图像当前页(自然页),前后页中也常有大段的释图文字。启动古籍图像研究之初,既已意识到将古籍图像从整部书中割裂出来可能造成图像相关信息的缺失,但限于研究条件,尚无法做到将图像及其相关的上下文古籍书影进行厘定,并采集完整的相关图像数据。为此特设此项,以弥补相关信息的缺失。相关图像指与标引对象有关联的其他图像。通过相关图像的标引,在现有纵向分类基础上,可以进一步建立横向的关联,形成关系网络,为图像的对比、图形刊刻演变研究打下基础。

前期研究中收集了大量的图像数据,研发了相关的工具软件,制定了相应的规范,形成了较为成熟的标引方案,完成了对3 860幅外科类古籍图像的标引工作,为图像的研究工作奠定了较好基础。

依托现有工作基础,希望探索一种数据共享、平台开放、专题定制的研究机制,让更多的有志同道参与到研究工作中,共同开拓中医古籍图像更广阔的研究领域。

[1]秦秋.我国首次开展中医古籍图像研究[N].中国中医药报,2011-12-16(01).

[2]丁侃,胡晓峰,张丽君.中医古籍图像数据平台构建方案探讨[J].中国医药导报,2012,9(14):123-124.

[3]薛清录.中国中医古籍总目[M].上海:上海辞书出版社,2007:1-999.

[4]刘时觉.宋元明清医籍年表[M].北京:人民卫生出版社,2005:306-347.

[5]甄志亚.中国医学史[M].2版.上海:上海科学技术出版社,1997:187.

[6]吴兰成.中国中医药主题词表[M].北京:中医古籍出版社,1996:111-213.

[7]肖珑,苏品红,刘大军.国家图书馆古籍元数据规范与著录规则[M].北京:国家图书馆出版社,2014:3-37.

[8]丁侃.基于知识元信息技术的中医古籍元数据研究[D].北京:中国中医科学院,2009.

[9]金丽.考证名物与中医古籍阅读[J].江西中医学院学报,2008,20(6):25-27.

Analysis on Image Indexing of″TCM Ancient Books Image Database″

DING Kan,HU Xiaofeng,ZHANG Lijun△
Institute of Medical History and Literature in China Academy of Chinese Medical Sciences,Beijing 100700,China

By introducing image indexing in the construction period of“TCM Ancient Books Image Database”,the establishment of indexing regulations are explored;26 items of metadata about the book,edition and image were elaborately explained,accompanied by necessary typical examples;the important and difficult problems including the reference and indexing,regulation establishment,raising the ability of image identification,refining figure legends were discussed.

TCM;ancient books;illustration;indexing;image database

R-092

A

1004-6852(2016)05-0048-04

2015-05-19

中国中医科学院基本科研业务费自主选题项目(编号ZZ070504,ZZ090503)。

丁侃(1982—),男,博士学位,助理研究员。研究方向:中医古籍整理与数字化。

张丽君(1982—),女,硕士学位,助理研究员。研究方向:中医古籍图像整理。

猜你喜欢

标引总目古籍
中医古籍“疒”部俗字考辨举隅
总目次
关于版本学的问答——《古籍善本》修订重版说明
第36 卷总目次
档案主题标引与分类标引的比较分析
关于古籍保护人才培养的若干思考
我是古籍修复师
大数据时代数字资源的主题标引研究
关于关键词标引的要求
关于关键词标引的要求