中文古籍数字化成果辅助人文学术研究功能的调查
2019-06-25卢彤李明杰
卢彤 李明杰
摘 要:文章通过网络访问、亲身体验与文献调研,考察了中文古籍数字化成果辅助人文学术研究的功能。根据数据库形态,将调查对象分为典藏检索型数据库、量化分析型数据库与数字人文平台,以表格形式展示了各类型古籍数字化成果,从系统功能角度分析归纳各类型数据库的研究辅助功能,并指出在文史专家与信息科学家的协作下,结合文献整理学术传统与现代信息技术,以专业问题为导向的数字人文研究平台的开发模式是未来古籍数字化的发展方向。
关键词:古籍数字化;研究辅助功能;数字人文
中图分类号:G255.1;C3 文献标识码:A DOI:10.11968/tsyqb.1003-6938.2019010
Abstract By network access, hands-on experience and literature research, the authors investigates on functions of digital productions of Chinese ancient books in assisting humanities research. Target databases are classified into 3 categories: collection retrieval database, quantitative analysis database and digital humanity platform. Tabulations are used to help illustrate characteristics of different types of digitization products. The paper analyzes functions of assisting research of different databases from the perspective of system function and looks into the future. The development direction of ancient book digitalization is a research-oriented digital humanities platform that combines academic tradition of literature sorting and modern information technology, which calls for cooperation between humanists and information scientists.
Key words ancient book digitalization; function of assisting research; digital humanities
隨着数字人文的兴起,人文学者开始接触与使用各种数字技术来处理人文科学数据。古籍数字化产品慢慢由资源库向研究平台转变,以满足人文学者不断提出的辅助其研究的新需求。而传统的人文研究方法在全文数据库强大的检索功能辅助下,虽在技术上提升了检索效率,但如何获取和有效组织文献数据,则依旧仰赖于人文学者在各自领域中经年累月的训练所培养的基本功。古籍数字化成果究竟能在多大程度上辅助传统的人文学术研究,目前尚存疑问。鉴于此,本文通过网络访问、亲身体验、文献调研等方式,对我国现有古籍数字化产品功能进行调查,分析其满足人文学者专业研究需求的程度,以探讨古籍数字化产品功能的研发方向。借鉴申斌和杨培娜[1]对辅助历史研究的功能层次的划分,本文从典藏检索型数据库、量化分析型数据库、数字人文研究平台三个方面展开调查(仅揭示图书馆馆藏的书目型、图像型数据库不在此次调查范围之内)。
1 典藏检索型数据库及其辅助人文学术研究功能
典藏检索型数据库从藏与用的目的出发,在对传统纸质古籍进行校勘整理的基础上,利用计算机技术将其编码转换,再根据文献特性进行组织与元数据标引,从而实现古籍内容的数字化保存与传播,同时借助计算机技术与数据库环境发挥索引功能的优势,实现分类浏览与字段检索、全文检索甚至语义关联检索的功能,因而是一种具备检索功能的数字化文本存储环境。本次调查的结果:典藏检索型数据库共79种,其中以图书馆、学术机构、数字出版商为主要开发者的分别有13种、16种和50种。
1.1 图书馆开发的典藏检索型数据库
从古籍数字化三大主体的成果总量来看,图书馆虽是最多的,但其所建的古籍数字化系统大多只能进行一般的书目检索或书影浏览,尚停留在揭示馆藏的层面[2]。笔者对这些成果进行定期跟踪,发现它们大多在资源更新与维护上并不及时,且未能跟进新的数字化技术,导致这类产品无法同时具备典藏与检索的功能。根据跟踪调研的结果,笔者选取内容经全文转码且具有检索功能的产品,按其来源、成果名称、分类浏览、检索与显示功能、嵌入工具及知识增值功能等情况统计出概况(见表1)。
调查结果显示,在选题上,图书馆开发的典藏检索型数据库主要以馆藏古籍和地方特色文献为主,其中方志、家谱较为常见;在功能上,根据文献内容本身的特色进行分类浏览,借助标引实现字段检索功能。然而,无论是分类浏览或全文检索,其原理都是通过著录文献外部特征以达到检索文献的目的,仅有少数数据库具有初级的研究辅助功能,如“中华再造善本数据库”可据不同底本进行版本对照。
1.2 学术机构开发的典藏检索型数据库
通过调研汇总了学术机构开发的典藏检索型数据库的概况(见表2)。首先,在选题上,由于学术机构不受馆藏与地域的限制,因而所建的典藏检索型数据库更具专题性与实用性,也更符合专业研究者的需求。但此类数据库多是课题研究的结果,新的数字化技术的应用都带有一定的试验性,且存在重复选题的现象;其次,在研究功能上,学术机构开发的此类古籍数字化产品在当时都具有一定的前瞻性。相较于只提供基础性检索功能的图书馆数据库,这些系统又开发出新的辅助研究功能。
(1)检索结果显示与对比。初级的结果显示功能是藉由计算机技术将影像或文字经过一定处理,在显示界面为读者提供文本及图像的对比环境,常见且已趋成熟的功能有图文对照、繁简转换,两者都是保留底本原貌的一种手段;进阶的结果显示功能是根据文献本身内容与形式之间的联系所设计,更能发挥数字化环境的优势,如台湾大学数字人文研究中心“春秋三传对读系统”,能将《左传》《公羊传》《谷梁传》根据《春秋》的编年时序进行文本条目的对应,并将一传的检索结果与其他二传结果并列显示,以便比较研究。
(2)知识库构建与检索扩展。古籍数字化产品常见的知识库有人名、地名、职官、异体字等内容,是由专家对本领域知识以一定的规则进行组织整序,形成一种内部知识相互关联的网络结构,一方面扩大检索入口,提高检全率;另一方面为用户提供知识链接的环境。如北京大学数据分析研究中心的“廿五史研习系统”,其联想式检索是一种在全局环境下(包括自建知识库与文献库中的全文、注释)的一键式检索功能,用户可在阅读环境下选择文本中的任意字词进行知识链接;台湾地区“中央研究院”历史语言研究所的“明实录、朝鲜王朝实录、清实录数据库”则是链接该所与台北故宫博物院共同研发的“明清档案人名权威资料”,用户可在阅读时随时了解文中出现人物的生平与履历信息。
(3)嵌入外部知识工具。常见的外部知识工具有古汉语字典、人名与地名词典、生僻字输入工具、时间换算法(古今纪年、干支公元换算)等。本次调研发现,由台湾地区“中央研究院”历史语言研究所开发的“汉代简牍数字典藏数据库”嵌入了“史语所藏居延汉简遗址查询系统”,可借助GIS呈现遗址及简牍发现位置。不过,此类功能在学术机构研发的典藏检索型数据库中仍较少见。
1.3 数字出版商开发的典藏检索型数据库
数字出版商依托图书馆的古籍善本资源,或吸纳文史专业研究人员参与研发,或与高校学术机构联合成立电子文献研究所,大规模、成系统地将常用基本古籍数字化,其规模和总量在三类主体中居首位(见表3)。在本次调研中,所有数字出版商所开发的古籍数字化产品皆属于典藏检索型数据库,但新技術的应用尚不充分,其各具特色的内容资源尚未得到充分挖掘。
数字出版商开发的古籍数字化产品以大型综合性数据库和丛书数据库为特色,涵盖史学、文学、宗教、医学等领域常见古籍,很大程度上满足了专业研究人员的需要,但各开发主体间缺乏协作,因此选题重复率较高。在辅助研究功能上,它们开发的古籍数字化产品有以下特点:
(1)基本检索功能成熟。多数产品具有分类浏览功能,用户可根据各系统的分类组织方式掌握资源概况以类求书,其功能更偏重于资源的组织与展示;字段检索通过对古籍外部特征进行数据描述得以实现,常见字段见表3,但大多不支持检索扩展或智能检索。这就要求用户对各数据库的元数据著录规范有充分的掌握,对用户的检索能力要求较高。同时由于标引的深度不够,无法发现古籍内容中潜在的知识;全文检索功能虽在一定程度上弥补了字段检索在内容检索上的缺陷,但因对知识组织与关联技术的引入不够,目前的全文检索功能实际上仍停留在字词索引阶段,导致用户在检索专题资料时仍需耗费大量精力来设计全面的检索式,以获得更高的检全率。
(2)嵌入的知识工具同质性高。调查显示,嵌入的知识工具仍在字词典、纪年换算的范围,其中爱如生与书同文公司所开发的产品大多配备统一的嵌入工具,一些有专门需求的数据库则未根据文献特色开发出相应的辅助工具。值得一提的是,书同文公司开发的三维助检系统及关联汉字检索较具特色,前者可在书同文公司自建的知识库中查询历史地名、人名与职官信息,也可在阅读环境中通过超链接直接获取相关知识信息;后者根据内建字体知识库,帮助用户将检索词扩展至异体字、简繁体等变体,其效果类似截词检索,在技术上利用知识库与布尔逻辑规则弥补了单纯全文检索在变体字检索上的缺陷。
(3)知识增值功能少且单一。调查显示,此类型数据库的知识增值功能主要以版本对照与查询为主,但仅限于古籍数字化底本与文本的对照,而其他版本只能查询其馆藏出处,仍无法做到传统文献整理所要求的“广罗异本”,更无法满足将一切有校勘价值的文献资料提供给专业研究者的需求。加上未能有效结合前人的版本考订成果,读者对开发商选用底本的依据无从知晓。个别数据库能提供多个版本的图像对照,但限于显示环境,对比翻检困难。另外,相关研究整合与国学宝典嵌入的知网结节功能藉由人工与引文分析的方法,可帮助研究者快速获得相关课题的研究成果。
综上所述,不同主体开发的典藏检索型古籍数据库在选题上各有不同,但在研究功能上都以检索功能为主,字段检索与全文检索相互辅助能有效地获取原始文献内容,但文本内的知识组织与利用较为欠缺。
2 量化分析型数据库及其辅助人文学术研究功能
量化分析型数据库是将古籍内容或整理成果转化为可制表分析的量化形式,不仅包含类似人口、产量、价格等数字信息,“其他描述性的信息,也应通过某种形式转换为可量化分析的数据,这是历史文献数据化的理想状态”[3]。与典藏检索型数据库相比,量化分析型数据库打破了古籍原有的内容结构,经过重组的文献内容以新的文本形态或数据结构呈现,在不同研究者、不同研究工具与研究视角下可能触发新的研究灵感。本次调研涉及量化分析型数据库16种,依其数据来源可分为单纯将纸质古籍整理成果进行转化的数字化索引、具备研究辅助功能的分析平台两种类型。
2.1 数字化索引型的量化分析数据库
具有量化分析功能的索引是由专家根据不同文献的特点对其内容进行提取并重新整序,形成高度结构化与规范化的组织形式,有利于计算机进行大规模的统计分析。而将既有古籍整理成果转化为可制表的量化形式,则是对传统文献整理成果在数字环境下的增值利用。数字化索引多是先有纸本古籍整理成果,然后形成数据库(见表4),因此在内容组织与索引对象上大致不脱离原书范围,但以其强大的检索功能大大缩短了翻检时间。在研究功能上,这类数据库在开发时因元数据方案受制于原书体例,检索功能较为单一,未能充分发挥计算机数据处理与结果呈现方面的优势,因此辅助研究的功能不强。另外,经过数字化转换后的原始数据被存储在数据库中,用户只能通过特定的接口才能访问,无法获得原始数据,从而限制了这类数据库的使用效率。
2.2 分析平台型的量化分析数据库
与数字化索引不同,分析平台在数据来源上并不局限于特定的古籍整理成果,而是更多的来自未经整理的民间文书、地契、档案与相关历史文献。因文献整理与数据库构建同时进行,开发人员与文史专家得以带着研究课题与特定假设开展工作,这使得文史专家能根据特定要求制定相应的元数据方案与文献整理规范。经整理的文献多能按照规范的数据结构严格著录,或以人名权威档的形式将传主的基本数据与履历信息制表呈现出来,较传统的文献整理成果更利于计算机进行大规模数据处理和做相关性的分析。因此,这类将研究问题、文献整理方式与数据库设计三者有机结合的数据库因其量化数据与二次信息的特性,降低了不同学科研究者在阅读与理解跨学科文献过程中所耗费的精力,促进了跨学科研究的发展。在研究功能上,该类数据库有以下特点:
(1)检索过程简化,检索字段更符合研究需要。因文献整理方式与数据表结构充分发挥数据库的优势,目前此类数据库在检索接口多采用下拉列表的字段检索方式,可轻易实现多维检索。由于文献整理过程中充分结合研究问题,使得可供检索的字段彼此之间具有强关联性的内容特征,而非仅是传统文献著录的外部特征,研究者可对不同的检索结果列表以原始的数据表形式导出,再以各自的研究视角与研究工具进行分析解读。此外,相较于典藏检索型数据库,下拉列表检索简化了检索过程,也降低了数据库对用户检索技巧与文献特征理解的要求。
(2)知识增值功能发挥量化数据在统计与可视化上的优势。如上海交通大学历史系与图书馆开发的《中国地方历史文献数据库》[4],其检索结果统计功能可对检得文献的地域分布、年代排序、类型分布及事主进行统计,而关联文献聚合功能可根据标引内容,将与检得文献同属同一批次、地域、归户或同一事主的文献一并呈现;又如台湾“中研院”《清代粮价数据库》[5],用户输入起讫年月、省府别、粮别后可获得粮价数据,查询结果会以表格、点状图及柱状图呈现。表格内每月粮价有最高价和最低价两种,点状图以不同颜色代表最高粮价及最低粮价,柱状图则显示价差。
综上所述,量化分析型数据库与典藏检索型数据库在构建理念与文献整理方法上存在诸多差异,其中最大的不同在于它打破了文献内容原有的组织方式,以数据表的形式呈现经过提取的二次信息。此法虽利于计算机处理数据与呈现结果,但由于用户直接使用的是结构化的文献内容,因此在利用这些数据时仍须将其重新放回到所在文本乃至当时的社会背景下进行综合考虑,以免得出武断的结论。
3 数字人文平台及其辅助人文学术研究功能
数字人文平台是一种基于典藏检索型数据库与量化分析型数据库发展而来的学术研究环境,既具备前者的全文检索与典藏功能及透过深度的元数据标引实现多维度检索与检索后的分类功能,又兼具后者的数据化特性,即文献整理时依据文献特性与研究者需求将所提取文献信息以结构化方式呈现,发挥计算机数据统计的优势。一方面,作为一种研究环境,数字人文平台的目的是除检索功能外,能提供研究者“观察”史料的工具,即借由信息技术帮助已有自身问题意识的研究者轻易地从史料中找到论证对象;另一方面,帮助研究者挖掘一些意料之外的学术问题,开拓出新的研究视野[6]。
本次调研共发现15个可称之为数字人文平台的中文古籍数据库,为便于分析其功能,笔者将以文本处理与字频统计功能为主的文本分析工具归为一类(见表6),而将整合了多种功能并能呈现可视化的研究平台归为一类(见表7)。
3.1 文本分析工具的研究辅助功能
文本分析工具由典藏检索型数据库发展而来,在检索功能上延续了其基于外部特征的字段检索与分类浏览功能,此外在全文数据库的基础上借助N-gram模型解决了古代汉语的分词问题,借由计算机自动处理全文,实现字频统计与文本分析的功能。从文本分析工具成果表可发现,目前常见的文本分析是相似度对比,它一般直接忽略文本内容的语义,采用自然语言处理(NPL)模型(如N-gram模型、向量空间模型)对文句建模并进行相似度比较。此类功能根据不同的研究需求有不同的应用场景,如文学领域可用于语言风格分析,以定量方法判定作者归属和文学流派;文献学领域可用于分析文献之间的引用关系或文献校勘。对文风和遣词造句习惯的分析,还可为文献辨伪提供参考。
另一类常见的文本分析功能是字词频分析。调查显示,《全唐诗分析系统》《全宋诗分析系统》的用户只需要根据所选格律、声调、体裁输入检索词,系统便可统计检索词在全库中各作者诗作中的使用频次;《近代史料全文数据库》可同时支持5个词汇的检索,以折线图形式呈现检索词在文献集中的出现次数;《中国哲学书电子化计划》嵌入的Text Tools插件,可将检索词的出现频次与共现关系以图表、词云或网络图形式呈现。此外,诗詞格律是文学领域中特有的研究内容,利用前人对诗作整理与格律标引成果,并借助计算机的帮助,可实现对大量诗作的格律分析,如《全唐诗分析系统》《全宋诗分析系统》可根据每首诗的数据化格律信息找出相似格律的诗作。相反,也可找出《全唐诗》与《全宋诗》中的重出诗与误收诗。
然而,不论是词频统计或是相似性分析,其结果并不能也不该直接得出任何结论[7]。因为这类从文本中提取出的数据终究无法涵盖文献本身的所有信息,而文献本身又是基于特定时空背景下所产生的,文本分析工具虽可帮助研究者发现文献中事件、人物、时间等因素之间在传统文本条件下难以发现的关联性,但这些关联性背后深层次的原因仍需要文史研究者以其经过专业训练所形成的史才、史学与史识加以阐述与论证。
3.2 数字人文平台的研究辅助功能
数字人文平台构建的文献来源十分丰富,包括文集、方志、书目、民间文书、档案数据与人物传记数据等。这些文史数据经过适当的整理与标引后,再结合平台的系统功能,可为研究者建立一个虚拟的历史环境,帮助研究者发现文献各部分内容、各历史人物、各历史事件之间通过人工难以发现的内在关联;在功能上,平台集成不同类型的功能于一体,如GIS系统、文本分析功能、可视化功能、嵌入知识库与社会网络分析等功能。
“中国历代人物传记数据库(CBDB)”是由哈佛大学、台湾地区“中央研究院”与北京大学合作开发的一个关系型数据库,旨在收录公元7-19世纪中国历史上所有重要的人物传记资料。通过大范围收集数据,CBDB提供许多检视过去个人或群体生平的方法,即群体传记学(Prosopography)[8],同时基于数据的完备与规模,为研究者提供了人际网络分析(Social Network Analysis)与地理信息學(Geo-information Science)的研究环境。其中,群体传记学的目的是想找出某一群体所共享的身份,如教育背景、出生地、任官履历等,并藉此分析背后的社会原因;人际网络分析注重的是人物之间一对一关系组构而成的复杂网络。以上两种研究方法一直是文史学者所关心的问题,如今结合计算机与地理信息系统的帮助,使得以往局限于人工环境而难以发现的隐藏关系或不确定的模糊概念,都可借助数字人文的研究方法获得新的研究空间。
“中国历代典籍总目分析系统(HBCC)”是一款由北京大学数据分析研究中心开发的基于FRBR理念与知识本体构建的综合性古籍文献知识库,内容涵盖我国经典书目,采用自然语言处理技术,完成目录原数据的自动标注、切分、信息抽取工作和数据语义规范,以人工审校确保数据质量,由此完成将书目信息转化为品种、版本、印次、藏本、分类信息与责任者等模块的数据化处理[9]。该系统囊括古今各类书目,并综合分析存世文献和历史文献的著录数据,在一定意义上与郑樵所提出的“会通观”“编次必记亡书”等文献整理理念暗合。HBCC具有以下功能:(1)成书年代分布。系统按书目层次描述古籍文献本体,自动统计分析古籍文献成书年代,并以可视化图表呈现,借由大规模书目信息形成不同类目文献的成书年代分布图,从定量分析的角度为研究学术发展史提供佐证;(2)责任者相关性多维分析。在对责任行为分类的基础上,分析责任人或责任机构基于同一作品因责任行为所产生的联系;(3)层次聚类分析。参照国际图联FRBR标准,将品种、版本、印次、藏本四种实体层级根据书名、书目范围、分类、书目层级、版本类型、版本时代、责任等属性进行聚类,有助于研究者快速掌握某一作品的所有衍生型式。
台湾大学数字人文研究中心开发的“台湾历史数字图书馆(THDL)”是一个以“明清时期的台湾历史”为主题的研究平台。由于开发人员在平台构建之初便预设系统收录的档案之间蕴藏着一种既开放、又具有各种不同连结的多元脉络,因此开发了一系列基于“群体”概念的研究辅助工具,主动为研究者分析检索结果“整体”呈现的特征。系统主要功能有[10]:(1)检索结果分类。以年代、出处、作者、性质四种方式对检索结果分类,借此表现检索结果的组成成分,并可对年代后分类的结果可视化呈现;(2)集中关联文献。相关文书、奏折与地契都具有往复、流转的特性,因此若能将同一事件的往返奏折,或同一块土地的不同交易行为的契约进行关联,则有助于了解整体事件的历史,目前已建成“上下手契”“原契与契尾”“阄分契多份”“契书内容”的关联关系;(3)检出相似文献。古契书可能因阄分契一式多份、契书重复抄写或格式雷同等造成契书的相似,THDL可针对两两文件全文计算相似度,将同种文献的不同文本一并检出。
4 结语
本次对中文古籍数字化成果辅助人文学术研究功能的调研显示,典藏检索型数据库的辅助研究功能仍以检索为主,大多数系统只能从古籍外部特征获取文献线索,其内在知识内容仍难以为研究者所用;量化分析型数据库利用前人的古籍整理成果作为基础,或以基于研究需要的文献整理方式对古籍内容进行再组织,有效地将计算机的统计分析优势应用于人文学术研究,但因为受文献本身特性和标引深度的限制,使得根据数据化文本得出的结果仍需文史学者的介入与考证;数字人文研究已然成为新趋势,在此背景下,人文学者对研究工具的功能提出了新的要求,即尽可能以“辨章学术、考镜源流”“会通观”等文献整理学术传统为参照,因为这些传统早已被证明是与人文学术研究相适应的。这就要求数字人文研究平台的开发必须依靠文史专家与信息工程师的全程协作,从古籍数字化之初就共同参与到系统的开发之中,以专业问题为导向,以符合人文学科研究的需求为出发点。这种将学术传统与信息技术融合在一起的开发模式,将是未来古籍数字化的发展方向。
参考文献:
[1] 申斌,杨培娜.数字技术与史学观念——中国历史数据库与史学理念方法关系探析[J].史学理论研究,2017(2):87-95,159.
[2] 李明杰,俞优优.中文古籍数字化的主体构成及协作机制初探[J].图书与情报,2010(1):40-50.
[3] 赵思渊.地方历史文献的数字化、数据化与文本挖掘:以《中国地方历史文献数据库》为例[J].清史研究,2016(4):26-35.
[4] 上海交通大学图书馆.中国地方历史文献数据库[DB/OL].[2018-10-29].http://dfwx.datahistory.cn/pc.
[5] 台湾地区“中央研究院”近代史研究所.清代粮价数据库[DB/OL].[2018-10-29].http://mhdb.mh.sinica.edu.tw/foodprice/index.php.
[6] 项洁,翁稷安.关于数位人文的思考:理论与方法[A].项洁.数位人文研究的新视野:基础与想象[M].台北:台湾大学出版中心,2011:9-18.
[7] 项洁,涂丰恩.什么是数字人文[A].项洁.从保存到创造:开启数位人文研究[M].台北:台湾大学出版中心,2011:9-28.
[8] 傅君劢.中国历代人物传记数据库用户指南[EB/OL].[2018-11-07].http://projects.iq.harvard.edu/files/chinesecbdb/files/cbdb_users_guide_ch_170126.pdf.
[9] 北京大学数据分析研究中心.中国历代典籍总目分析系统(HBCC v1.0)产品说明[EB/OL].[2018-11-07].https://wenku.baidu.com/view/1f6739a2f524ccbff1218486.html.
[10] 台湾大学数字人文研究中心,杜协昌,项洁.台湾历史数字图书馆[DB/OL].[2018-11-07].http://doi.airiti.com/LandingPage/NTURCDH/10.6681/NTURCDH.DB_THDL/Text.
作者简介:卢彤,男,武汉大学信息管理学院硕士研究生,研究方向:古籍数字化;李明杰,男,武汉大学信息管理学院、武汉大学数字图书馆研究所教授,博士生导师,研究方向:古典文献学、中国图书文化史。