语义出版在农学古籍整理中的应用研究
2023-02-06李明杰
李明杰 刘 峰
(武汉大学信息管理学院,武汉,430072)
1 引 言
1949年至今,我国古籍整理事业取得了辉煌成就,但对于古代科技文献仍存在整体发展不充分、学科分布不平衡、利用方式不鲜活等问题:公开出版的整理成果约2000种,不足现存古代科技文献总量的1/10;绝大多数成果为中医药典籍,无法反映先贤智慧的全貌[1];已有的古代科技文献整理成果大多停留在文本复原、内容组织的层面,未能充分阐释其时代价值,特别是在与当下乡村振兴、健康中国等重大战略相结合的活化利用方面存在明显不足。
当前,国家正在推进古籍整理向“文本结构化、知识体系化、利用智能化”转型[2],而语义出版所具有的内容结构化、数据融合化、信息可视化、对象关联化、阅读个性化[3]等特征,正好与之相契合。作为结合自然语言处理、本体可视化等技术发展起来的一种新兴出版形态,语义出版在古代科技文献整理中的应用,恰可弥补古代科技文献活化利用的不足。而且,古代科技文献在语义出版的适用性方面,具备了一定基础:有的古代科技文献内部形成了独立的知识分类体系(如《本草纲目》就建立了1个16部、60类的药物分类法);有的古代科技文献之间因为著述过程中的采摭与编录,形成了错综复杂的引证关系;另外,还构建了《中国中医药学主题词表》这样的专业性知识组织系统。
有鉴于此,笔者以自编的《中国古代科技文献总目(农学卷)》(以下简称《总目》,稿本)为书目本体的数据来源,探讨语义出版在农学古籍整理中的应用途径与方法,以期为其他学科门类的古代科技文献的整理提供一定的参考。
2 农学古籍数字化及汉文古籍语义出版进展
2001年6月,由南京农业大学整合中国农业遗产研究室在内的相关学科力量成立的中华农业文明研究院,承担了中央级科研院所科技基础性工作专项“中国农业典籍的搜集、整理与保存”项目,拉开了农学古籍数字化的序幕。该项目历时两年,除编纂出版《中国农业古籍目录》(收编存目农书2084种,新增书目1441种)外,并设计制作了包括《齐民要术》《农政全书》等16种善本书在内的农学古籍的电子光盘版[4]。此后,中华农业文明研究院还建成了包括《古农书题录数据库》《农业古籍全文库》在内的首个中国农史学科信息门户[5],并在该项目实践基础上对农学古籍数字化的理念、技术、服务等各方面进行了探研[6][7][8][9][10]。同时推进的项目还有国家科研院所社会公益性研究专项“中国农业科技遗产数字化保护与利用研究”、中央级公益性科研院所基本科研业务费专项资金项目“中国传统农业资料搜集与整理研究”等。
清华大学科技史暨古文献研究所在CALIS一、二期特色库项目资助下先后建成“中国工程技术史料数据库”(2001)、“中国水利史数字图书馆模型”(2008)等,后将资源整合成为“中国科技史数字图书馆资料库”,其子库“科技典籍全文库”的工程技术类和“中国工程发明史专题库”的农业机械类目均包含有农学古籍[11]。
2002年,中国农业大学图书馆利用清华同方专业数据库制作管理系统(Tongfang Professional Information System,TPI)开发了“农书古籍图片库”,包括9种农学古籍的电子光盘,后又将其网络化为“农书古籍图片数据库”和“农书古籍全文图片数据库”。中国农业科学院农业信息研究所承担的2004—2006年度国家科技基础性工作专项“农业古籍珍藏及全文数字化研究与建设”,依托其下辖国家农业图书馆所藏的农书、史书、志书、类书,利用清华同方专业数据库制作管理系统首次进行了大规模的农学古籍数字化,著录了13044册古籍的书目信息,链接了6000余册古籍的数字对象[12]。该项目的理论成果较多着眼于组织管理和方案设计[13][14][15][16][17],较少涉及清华同方专业数据库制作管理系统的技术实现[18][19]。
随着Web2.0在我国的推广,农业古籍数字化也逐渐从文本的复原性逐步向语义的阐释性和内容的组织性整理转移:南京农业大学侯汉清教授的团队承担的2009—2011年度国家社会科学基金重点项目“文化典籍整理与开发的智能技术研究”对农业古籍的自动断句标点、自动编纂等取得突破性进展[20][21],西南大学承担的国家“十一五”文化发展规划重要项目《中华大典·农业典》6个分典借助媒介技术和数字化系统,实现了数字化编纂[22]。丰富的农学古籍数字化实践活动推动了可视化、元数据、云计算、大数据等关键技术的研究和应用进展[23][24][25]。
近年来“数字人文”的兴起促进了跨学科研究,农学古籍数字化研究的主体也不再局限于农林或科技史学者,如山东大学儒学高等研究院王加华教授团队承担的2020年度国家社会科学基金重大项目“中国古代农耕图像的搜集、整理与研究”最终将以数据库的形式予以呈现[26],武汉大学信息管理学院吴平教授的团队承担的2021年度国家社会科学基金重大项目“中国古农书的搜集、整理与研究”将探索古农书创造性转化和创新性传播的路径、构建古农书资源开放共享与知识服务平台作为预期成果[27]。
与古籍数字化相比,古籍的语义出版尚处于起步阶段。陋见所及,仅有中华书局古联数字传媒科技有限公司开发的“中华经典古籍库”具备语义出版的概念特征[28],但该库是以已经整理出版的古籍点校本为基础,还不是真正意义上的语义出版[29]。其内容组织和服务形态有如下特色:第一,标引人名、篇目、事件、地点、职官、纪年等专名,并建立分类主题词表,在此基础上实现繁简字、异体字、异称等不同语词指向同一概念的关联检索;第二,内嵌“联机词典”“纪年换算”功能,通过字典、年表等工具书实现古籍文本的语义化增强,在某些特定情况下可以视为自动注释;第三,可选定某段文本进行全库检索,方便查找参考文献、引证文献和共引文献等,从而实现多维度、跨学科的语义关联。
3 语义出版在农学古籍整理中的应用
3.1 农学古籍数字资源的语义组织
作为数字出版的高级阶段,语义出版要求将农学古籍转换成数字形态作为基础资源。而为了实现农学古籍数字资源的大规模组织、管理和利用,就需要开发农学古籍知识库。利用元数据标准将农学古籍数字资源纳入RDF的知识表示是建立农学古籍知识库的首要步骤,因此笔者参考《古籍类元数据规范》[30],设计出能突出农学古籍数字资源特点并满足农林或科技史知识组织和检索需求的“农学古籍元数据(Metadata for Ancient Agricultural Books,MAAB)”,如表 1 所示。
表1 农学古籍元数据的17个元素构成
3.1.1 农学古籍知识单元的识别
知识单元是客观知识系统中具有实际意义的基本单位,具有意义完整性、表达独立性、粒度多元性等特征[31]。根据开发农学古籍知识库的实际需求,农学古籍的知识单元被划分为3种类型,即以文献整体为陈述对象的粗粒度知识单元、以文献中具备查考价值篇章为陈述对象的中粒度知识单元和以人、时、地、事、物要素为陈述对象的细粒度知识单元。
粗粒度知识单元分为2个模块:第一,单种农学古籍或古农书丛集的描述,例如《神农》二十篇“其内容应该是关于农耕技术的”、《农圃四书》四卷“有《稻品》《蚕经》《鱼经》《艺菊书》各一卷”;第二,多种农学古籍或古农书丛集的相关文物,例如包含了《农圃四书》四卷、《农桑辑要》七卷等在内的《格致丛书》。
中粒度知识单元分为4个模块:第一,农田水利地图,例如光绪刻本《山东黄河全图》一册为地图集、《江苏水利图说》二卷每篇卷首绘有一幅地图并附以简要文字;第二,人、事、物图像,例如诸本王祯《农书·农器图谱》有281幅至306幅不等的插图、光绪刻本《武林掌故丛编·捍海塘志》有《武肃王像》等;第三,表谱,例如天启刻崇祯增修本《南河志》卷二《年表》、万历《古香斋宝藏蔡帖》本《荔枝谱》第七篇载有建安荔枝的32个品种;第四,手册,例如元刻本《蕃牧纂验方》卷上有“四时调适法”等、明刻本《问水集》卷一有“植柳六法”等。
细粒度知识单元分为3个模块:第一,创作,例如《水经》三卷的创作者为桑钦,创作方式为撰,创作时间为东汉,创作地点为洛阳;第二,版本,包括当前的所在位置和过往的出版发行、流传经历,例如木活字本《种田杂说》一卷现藏中国国家图书馆,出版时间为清光绪二十九年(1903),出版地点为抚郡学堂;第三,科技遗产,包括但不限于农业科技遗产,例如《赵氏》五篇的相关知识“代田法”,乾隆《武英殿聚珍版丛书》本《农书》的相关知识“木活字印刷术”。
上述9个模块的知识单元有助于处理农学古籍中不完整、不明确的信息,并将其纳入通用的语义关联模型[32]。
3.1.2 创建农学古籍的语义关联
上述知识单元构成了农学古籍知识库的节点(node),语义关联则为其边(edge)。农学古籍的语义关联可以分为内部关联和外部关联两类,前者指知识单元之间固有的实体、属性之间的关系,后者借助网络本体和知识组织系统实现知识单元的有序化、网络化。
第一,内部关联。
实体关系。美国国会图书馆的芭芭拉·蒂利特(Barbara Tillett)博士曾从“文物—作品”“等同—衍生”两个向度区分了23种书目实体之间的关系[33],对于农学古籍而言,可以简化为表2所示的18种关系。
表2 农学古籍的18种书目实体关系
属性关系。通过提取、分析和匹配描述性元素的属性值,可以发现共有相关知识、相关文物等关系,见图1,但是创作者、创作时间等节点仅为字面量而非本体。
图1 农学古籍元数据的数据模型
第二,外部关联。
科技遗产的本体化。《农业科学叙词表》和《中国农业百科全书》是我国农业农村部指定的知识组织系统,前者已经设计出结构严谨、模块齐全、功能完备、使用友好的叙词库系统[34],后者仅有委托数字出版商制作的网络版,故采用前者为主、后者为辅的做法。先将标识农业科技遗产的语词与《农业科学叙词表》正式或非正式叙词进行模式匹配,若有未命中的语词,再利用《中国农业百科全书》进行手动查询。
人物的本体化。农学古籍涉及到的人物主要有创作者、出版者、印刷者和旧藏者,但是人物之间固有的语义关联较少,不具备知识组织和检索的意义。调用《上海图书馆人名规范库》的应用程序编程接口(Application on Programming Interface,API)[35], 可 以 自 动生成特定人物关系图谱。笔者以《蚕桑备要》的作者盛宣怀为例,建立了人物本体,见图2。
图2 盛宣怀的人物关系图谱
时间的本体化。时间本体不仅有实体识别、语义标注和标签构建等应用[36],而且能使表谱的知识内容有序化、可视化:调用《中国历史纪年表》的应用程序编程接口构建时间轴[37],将表谱的文字通过OCR技术保留排版格式识别,将朝代、纪年文字与时间轴匹配,而较低一格的文字作为时间轴上发生的事、存在的物,见图3。
图3 《泉河史》卷之五《职官表·宁阳分司》可视化
地理名称的本体化。流传经历和所在地理位置的属性值中含有大量的收藏机构,但是处于分散状态,故不“足以备学者顾问”[38]。根据《收藏机构名录》提供的“馆藏机构—所在地区—地理名词”三元组和《开放街图》提供的地理空间数据[39][40],实现农学古籍收藏机构的地理分布的可视化,见图4。可视化的意义不仅在于提供更多检索入口,更对特色馆藏建设、馆际资源共享等图书馆工作的开展大有助益。
图4 我国农学古籍的收藏数量分布图
地理名称的本体化过程较为复杂;首先要通过“创作时间”这一修饰词对地图进行断代,然后OCR技术识别地图中的文字说明,接着调用《中国历史地理信息系统》应用程序编程接口进行自动匹配[41],最终得到农田水利地图和断代历史地图叠加的图层,见图5。
图5 《太湖全图》和清宣统三年(1911)历史地图
3.2 构建农学古籍知识库的服务模式
开发农学古籍知识库的最终目的是提供智能服务,使用户能够根据需求和情境获取信息,故笔者设计了3种服务模式:语义检索、情境感知和关系推理。
3.2.1 语义检索模式
语义检索是基于概念的检索技术,它使用存储在被检索数据集外的附加语义信息提高检索效率、优化经典模型[42]。语义检索的优势首先体现在联想查询(Prediction Queries):第一,外来语词拓宽了用户群体,通过传教士的外文原名、古人姓名的汉语拼音进行检索,方便海外学者使用;第二,同义词提高了查全率,通过字、号等人物异称检索人物知识单元;第三,准同义词揭示了相关科技遗产,例如“旱”的近义词为“干”,泛指词为“灾”,反义词为“涝”。
语义检索实现了知识单元的词义消歧(Word Sense Disambiguation):在检索结果较多的情况下,推荐使用限义词在检索界面区分二者,如检索“大顺元年”即出现“大顺元年(唐代)”和“大顺元年(张献忠)”两个选项;在检索结果较少的情况下,用户可以通过人物关系、地理位置等可视化图谱自行甄别所需信息。
语义检索提供了多分面的浏览式检索(Index Browsing):第一,书目类表不仅显示古籍分类法固有的等级关系,而且揭示古籍及其不同版本之间的书目关系,有助于研究古代农林或科技史、考辨农学古籍版本源流;第二,创作时间和出版时间都尽量显示准确年份,与仅显示朝代的汉文古籍数据库相比,更加充分地体现了农学知识和社会背景的互动关系。
3.2.2 情境感知模式
所谓情境是指任何一个有助于刻画用户目前所处状态的信息,可以是个体、设备、任务和时空等要素的存在方式或运动状态[43]。情境感知能适应不同用户的治学兴趣和信息需求,从而提高农学古籍知识库的利用率。原则上,情境可以映射任何一个元素,但出于用户界面易用性的考虑,仅设计了下列4种情境感知模型,见表3。
表3 情境感知模型
3.2.3 关系推理模式
关系推理通过推理引擎将逻辑规则运用到知识库中,实现信息挖掘从而为用户的自然语言检索式提供解决方案[44],具体应用到农学古籍知识库有知识补全、语义纠错和智能问答3种场景。
知识补全是基于现有知识单元和语义关联推断出新关系的过程,主要运用了演绎推理的逻辑规则。以人物关系为例:已知盛宣怀和谢庭芝在晚清义赈中为合作关系,而且谢庭芝为谢家福之侄,则可以推知谢庭芝为清末民初人。
语义纠错实现了半自动检测并修改知识库中实体、属性、关系等错误,主要运用了归纳推理的逻辑规则。以书目实体为例:现状属性取值为“亡佚”的书目实体一般没有链接数字对象,而佚书《农桑撮要》七卷却有数字对象,经过核验果然发现是同名异书引发的错误。
智能问答基于问答系统(Question Answering System)从知识库的结构化的信息内容中对答案进行推理。中粒度知识单元在此过程中发挥着关键作用,例如用户提问“钱镠的长相是什么样的”,先通过人物本体匹配钱镠的谥号“武肃王”,从而找到《武肃王像》。
4 农学古籍语义出版的前景与挑战
农学古籍知识库作为一个真正的语义出版物,固然具有广阔的前景,但也存在一些比较棘手的挑战,在今后的运营和维护中需要格外注意。农学古籍知识库的应用前景可以概括为如下3点:第一,为中华民族农业史梳理了坚实而系统的文献依据,并与传世文物、考古发掘和田野调查成果相互印证,有助于回答中华文明起源、形成和发展的基本图景、内在机制以及各区域文明演进路径等重大问题;第二,为古籍尤其是古代科技文献的数字化工作提供了完备而可行的解决方案,开发其他类型古籍知识库以农学古籍知识库为原型,可以复用代码以减小工作量;第三,为农学古籍的自然语言处理建设了大量而优质的语料库,农学古籍知识库标引了大量知识单元,适合作为古籍自动分词、断句、标点或校勘的训练集。
农学古籍知识库面临的挑战首先来自于基础层,最突出的问题在于缺乏健全的古籍数字化标准规范体系:古籍数字资源加工标准有《古籍印刷通用字规范字形表》,但古籍数字化硬件设备和加工方式均无国家标准;古籍数字资源管理标准多停留在描述、分类层次,未深入到知识组织;古籍数字资源的应用、服务和古籍数字化工作的标准,也都处在探索阶段。挑战还来自于资源层:古籍的著作权早已进入公有领域,但是馆藏机构将古籍进行数字化之后形成的数据库享有汇编作品和计算机软件的法律地位,批量下载并进一步开发需要遵守我国相关法律和国际通用的知识共享许可协议。
注 释
[1] 孙显斌.中国科技典籍整理的回顾与思考(上)[J].古籍整理出版情况简报,2018:565
[2] 新华社.中共中央办公厅、国务院办公厅印发《关于推进新时代古籍工作的意见》[EB/OL].[2022-06-27].http://www.gov.cn/zhengce/2022-04/11/content_5684555.htm
[3] 王晓光,陈孝禹.语义出版:数字时代科学交流系统新模型[J].出版科学,2012(4):81-86
[4] 农业文明网.中国传统文化研究的一项重要基础工程[EB/OL].[2022-06-27].http:// www.icac.edu.cn/info/1083/1406.htm
[5] 王雅戈,沈志忠.“中国农业科技遗产信息数据库建设”项目研究简报[J].中国农史,2007(1):138-140
[6] 曹玲,常娥,薛春香.农史研究的新工具:中国农业遗产信息平台的设计与构建[J].中国农史,2006(1):127-133
[7] 何琳,曹玲.农业古籍本体的构建及其检索机制研究[J].现代图书情报技术,2006(12):37-39+53
[8] 常娥,侯汉清.农业古籍自动编纂的设计和研究[J].南京农业大学学报(社会科学版),2007(1):99-104
[9] 常娥,侯汉清,曹玲.古籍自动校勘的研究和实现[J].中文信息学报,2007(2):83-88
[10] 宋静,殷子,李群.王祯《农书》在文献学、数字化方面的现状研究[J].农业网络信息,2008(1):67-69
[11] 清华大学图书馆.中国科技史数字图书馆资料库[DB/OL].[2022-06-27].http://166.111.120.21:4237/home/database/htm/browse.htm
[12] 盛玲玉.国家农业图书馆农业古籍数据化的探讨与实现[J].农业图书情报学刊,2005(12):11-13+16
[13] 常春,潘淑春,卢文林,等.基于图像的数字化农业古籍全文检索方案[J].情报杂志,2005(6):56-57
[14] 常春,潘淑春.农业古籍数字化项目的建设意义和SWOT分析[J].情报杂志,2005(11):117-118+121
[15] 常春,张桂英.农业古籍数字图书馆项目评价方案[J].现代情报,2005(11):59-61
[16] 盛玲玉.农业古籍图文数据库建设中的质量管理与控制[J].农业网络信息,2007(11):90-92
[17] 卢文林.农业古籍数据库建立和著录实践[J].农业图书情报学刊,2011(11):23-26
[18] 金晨,牛离平.农业古籍全文数字化加工技术[J].农业图书情报学刊,2005(10):8-9
[19] 牛离平.国家农业图书馆古籍数字图像馆藏建设的研究[J].农业图书情报学刊,2005(10):10-12
[20] 黄建年,侯汉清.农业古籍断句标点模式研究[J].中文信息学报,2008(4):31-38
[21] 常娥.农史专题资料自动编纂系统的构建与测试[J].图书馆学研究,2009(6):10-14
[22] 毛春,周安平.探索古籍整理与出版新路径:《中华大典·农业典》数字化编纂出版探究[J].出版发行研究,2018(6):58-60
[23] 胡以涛,惠富平.农业文化遗产保护中的数字化技术应用前景初探[J].中国农史,2015(4):120-126
[24] 胡以涛,惠富平.元数据方法在数字人文视域下的应用探索:以农业文化遗产为例[J].图书馆,2019(1):82-87
[25] 胡最,闵庆文.构建农业文化遗产数字化保护的概念框架探讨[J].地球信息科学学报,2021(9):1632-1645
[26] 蒙锦贤.国家社科基金重大项目“中国古代农耕图像的搜集、整理与研究”开题论证会暨“图像叙事与农耕传统”论坛成功举行[EB/OL].[2022-06-27].https://www.rxgdyjy.sdu.edu.cn/info/1017/7749.htm
[27] 武汉大学广东研究院.国家社科基金重大项目“中国古农书的搜集、整理与研究”举行开题报告会[EB/OL].[2022-06-27].http://www.whunf.com/news_view.php?SortID=12&ID=3020
[28] 中华书局有限公司下属古联(北京)数字传媒科技有限公司.中华经典古籍库[DB/OL].[2022-06-27].http://publish.ancientbooks.cn/docShuju/platform.jspx
[29] Kuhn T, Dumontier M. Genuine semantic publishing[J]. Data Science, 2017, 1(1-2):139-154
[30] 国家图书馆.古籍类元数据规范(征求意见稿)[S/OL].[2022-06-27].https://www.lib.pku.edu.cn/portal/sites/default/ fi les/news/cms/resupload/0000001494/29.pdf
[31] 王子舟.图书馆学是什么[M].北京:北京大学出版社,2019:24
[32] Patel A, Jain S, Shandilya S K. Data of semantic web as unit of knowledge[J]. Journal of Web Engineering, 2018, 17(8): 647-674
[33] Tillett B B. Bibliographic relationships[M]//Relationships in the Organization of Knowledge.Dordrecht: Springer, 2001 : 19-35
[34] 中国农业科学院.农业科学叙词表(网络版)[DB/OL].[2022-06-27].http://211.103.202.31: 8080/cat
[35] 上海图书馆.上海图书馆人名规范库[DB/OL].[2022-06-27]. http://names.library.sh.cn/mrgf/home/index
[36] 唐振贵,罗锦坤.中国古代时间本体:细化数字人文研究的时间轴向[J].图书馆杂志,2022(4):87-95+37
[37] 上海图书馆.中国历史纪年表[DB/OL].[2022-06-27].http://data.library.sh.cn/dynasty/main
[38] 汤志钧,汤仁泽编.梁启超全集·第十集·论著十[M].北京:中国人民大学出版社,2018:772
[39] 上海图书馆.机构名录[DB/OL].[2022-06-27].http://data.library.sh.cn/organization/main
[40] The Open Street Map Foundation.Open Street Map [DB/OL]. [2022-06-27]. https://www.openstreetmap.org
[41] Center of Historical Geographical Studies of Fudan University, Harvard-Yenching Institute, etc..China Historical CHGIS[DB/OL]. [2022-06-27]. https://www.openstreetmap.org
[42] Hyvönen E. Publishing and using cultural heritage linked data on the semantic web[M]. Cham :Springer Nature Switzerland AG, 2018 : 109
[43] 钟义信.机制主义人工智能理论[M].北京:北京邮电大学出版社,2020:127
[44] Pearl J. Probabilistic reasoning in intelligent systems: networks of plausible inference[M]. San Francisco : Morgan Kaufmann Publishers, 1988 : 28