创新古籍数位应用
2019-04-12吕姿玲
摘 要 随着信息科技与数位人文研究的发展,过去仅提供古籍文本扫描影像及诠释资料检索的系统已无法满足研究者与使用者的需求。为寻求古籍数位新的定位与价值,论文以“通用型古籍数位人文研究平臺”为例,介绍了该平台以明人文集全文转换成文本内容为契机,通过对各种统计分析、信息视觉、断词标注等工具的开发,辅助研究者从多元化角度发掘研究问题。该平台所建构的古籍全文资料环境,不仅可藉由量的文本分析、资料探勘工具,扩大学者的研究视野,并促进一般大众对古籍价值的认识与学习,同时藉由使用者标注评分等友善互动界面,达成资料提供者、平台构建者、使用者合作挖掘古籍内容多元价值的目的。
关键词 古籍 数位人文 数位加值
分类号 G250.78
DOI 10.16810/j.cnki.1672-514X.2019.02.006
Abstract With the development of information technology and digital humanity research, the old system which only provides scan images of ancient books and retrieval of explanatory documents cannot keep up with researchers and users demands. In order to explore new orientation and value of ancient books digitization, this paper investigates the universal digital humanity research platform of ancient books and introduces how the platform helps researchers find and research problems from different angles by introducing the process of converting Ming dynasty collected works and developing tools including statistical analysis, information visualization, words label and so on. The full texts of ancient books environment built by the platform could expand research horizon of researchers and promote normal peoples learning and recognition of ancient books by text analysis and material exploring tools. Moreover, through using interactive interface such as users rating system, the cooperation research on ancient books among material providers, platform constructors and users can be realized.
Keywords Ancient books. Digital humanity. Digital value-added.
0 引言
数位典藏技术的运用,为古籍资源的永续保存与整理利用开启了前所未有的契机,而网络无边界的传播特性,也为古籍资源的开放共享与广泛传播奠定了坚实的基础,并在“藏”与“用”之间搭建起桥梁。然而,随着数位科技日新月异的发展,数位技术逐步渗透到人文研究的各个领域,数位人文研究因之兴起,在这股新的研究潮流下,用户对古籍资源的整理与开发也有了新的需求与时代思维。
当前,我们若仅静态提供古籍文本扫描影像及诠释资料检索的系统,将无法满足众多研究者的专业需要与一般使用者的文化需求。人文学者对于古籍的使用,不再只限于对文本内容的大量阅读[1],他们期望“数位数据库不应只是被动应对检索的关键词,它还应该积极地揣测需要,并提供相关的文本或分析,以便对于其研究有所助益”[2]。古籍文本内容能被更灵活搜索,且能提供符合个人需要的诠释、比对、分析等功能的需求,也使得古籍数位应用在支撑知识服务上“不再拘泥于传统数位数据库常见的单一关键词检索,而是要跳脱出窠臼,透过数字化数据库优越于纸本的灵活性和穿透力,为研究者提供多种观察、比较、分析、类比文本的视野,以达到更强大的、辅助研究工作的功能”[2]。
此外,随着数位工具的开发,诸如“关联式数据库(Relational Database)”“地理信息系统(Geographical Information System, GIS)”“社会网络分析(Social Network Analysis, SNA )”“文本标记(Text Tagging)”“文本分析(Text Analysis)”等功能的广泛运用,对于文献资料的整理、解析或视觉化呈现,不仅开启了人文研究的新视野,也将连带地改变古籍知识的获取、标注、阐释与表现的方式[3-4],有助于实现古籍资源的深度分析、价值挖掘与增值研究。
针对未来以数位人文为思维导向的使用者需求,笔者所在图书馆于2018年6月与政治大学社会科学资料中心(简称政大社资中心)开始合作,以笔者所在图书馆丰沛的古籍数位典藏成果为基础,结合政治大学数位人文技术,开发建置“通用型古籍数位人文研究平台”(http://ming.ncl.edu.tw/),以期通过支援数位人文之研究,发掘古籍数位加值,创新应用成果,并以科普化界面推广让全民认识古籍之价值。
本文将以“通用型古籍数位人文研究平台”的建置为例,介绍该平台藉由明人文集全文转换为文本内容,透过全文检索、断词标注、各种统计分析、信息视觉等工具的开发,辅助使用者由多样角度发掘研究问题。
1 平臺建置缘起与架构规划
1.1 建置缘起
笔者所在图书馆(以下简称“本馆”) 以丰富的古籍特藏闻名于世,多年来致力于古籍数字化与加值推广,并期待随着科技发展的与时俱进,发掘古籍在数位时代的新定位,创新古籍数位应用之成果。
“通用型古籍数位人文研究平台”计划奠基于本馆多年来古籍数字化之丰硕成果,优先择取本馆特藏文献中最具代表性之明人文集为文本进行数位人文研究平台的开发,以提供人文研究知识服务。本馆馆藏明人文集共有1497种,含别集1415种与总集82种。该批明人文集多为四库未收本,文集所涵盖的时代长、地域广、种类丰富,作者及刻校者、出版者亦深具时代代表性,能反映出明代之印刷史、版本史、思想史、文人及仕宦阶段之社会网络,为本馆傲居世界之特色馆藏。该批文集迄今已扫描完成之影像档逾1100种,相关数字化作业仍在持续进行中。
“通用型古籍数位人文研究平台”之建置有别于以往与商业厂商合作建置之模式,是由本馆与台湾知名学术机构政大社资中心合作,结合该中心的研发力量与信息处理技术,与之协力共同建置的一个既符合当代人文学者研究需求,又能提供大众古籍内容分析运用的数位人文研究平台。
政大社资中心与该校图书信息与档案学研究所为台湾知名图情人才培育单位,具有专业的资料处理、组织、使用分析能力。在合作方式上,由本馆负责文集挑选、后设资料及影像档提供,以及平台架构之人文研究视角切入,以研究者观点提供平台各项功能设计具体建议。政大社资中心则负责全文建置与汇入、系统开发、程序设计与各项数位人文工具套用。整体而言,本平台之开发乃着重发展实验性功能与使用者经验反馈之数位人文研究工具,透过工具性分析与辅助,帮助学者从宏观与多样角度拓展研究观察的视野。本次计划的执行也为该校相关系所学生提供了参与的机会,强化了系所的教学与研究能力。
1.2 架构规划
平台之架构由数位人文平台系统功能建置及全文资料转换与导入两大部分组成,分述如下[5]。
1.2.1 数位人文平台系统建置
数位人文平台中,除包含全文数据库平台系统,以提供数位资料的典藏、查询与在线阅读功能外,也包含了数位资料整理及数位研究分析等的工具开发,总体规划架构如图1所示。
(1) 建立包含全文数据库之数位典藏系统,使其具备承载全文及后设资料功能,提供完善的资料浏览、检索、检索后分类等查询功能,以及全文文本与扫描影像的对照阅读环境。(2) 开发通用性数位人文研究工具,在数位资料整理层面,以公开的人名、地名、官职名、年号等词库,进行文本中对应词汇的标记与调整,形成全文半自动标记系统,同时可通过API连接查询解释专有名词等外部参考资源,如中国历代人物传记数据库(China Biographical Database Project, CBDB)、中国历史地理信息系统(China Historical GIS, CHGIS)等公开词汇工具。(3) 加入合作标注系统之概念,让人文学者能对文本加注个人的解释及补充资料,并可进行合作资料解读与讨论辨证。(4) 在数位研究分析层面,提供统计分析、量化计算、视觉化呈现及社会网络等数位人文计算与可视化工具,并进一步纳入使用记录,以供分析使用者在系统中调取使用资源查看。
图1 “通用型古籍数位人文研究平台”规划架构
1.2.2 全文资料转换与导入
根据过往明人文集著作之研究主题与内容取向,优先选择具有研究需求与使用族群之文本进行全文转换,同时规划数位影像转换全文之作业流程与规范。在全文转换作业上,由于古籍全文辨识问题复杂度高,故兼采取光学文字辨识(Optical Character Recognition, OCR)、人工输入校正等弹性交叉运用方式。在文本的选择原则上,主要有以下考量:(1) 分析已发表之明人研究论著内容,找出过往研究探讨之文集名称、研究议题;(2) 探询明人研究学者认为重要的主题与文本作为优先转换的全文标的;(3) 网络或数据库已有载录部分或完整全文的明人文集,如已有前人使用记录,亦为优先考量因素。
2 平台功能
“通用型古籍数位人文研究平台”于2017年完成第一阶段系统基础开发,此阶段着重系统规划与研究工具之功能开发,并就本馆馆藏之明人文集数位资料进行整理与图文转换,目前共完成70部273册明人文集之全文转换与影像汇入,并持续充实中。
系统规划上选择以Dspace系统为建置平台,以此导入明人文集古籍数字化成果,于此平台进行全文典藏、后设资料建置、全文检索、检索后分类等基本功能开发。此阶段就平台风格设计、图文界面配置等进行使用者访谈,搜集研究者研究需求与界面呈现之可接受方式,经多方尝试与调整后,择定以左图右文、同步卷动方式呈现图文。实验性功能开发包含自动断词技术、文本标注功能、社会网络分析等,并提供使用者经验反馈机制,期待数位人文研究工具的导入,建构古籍全文数位人文资料环境。各项功能分述如下[5]。
2.1 数位资料提供
2.1.1 详细后设资料
为便于使用者获取古籍详细信息,缩短浏览、研究时间,除基本的题名、作者、版本、出版信息与外部形体特征的稽核项外,尚有序跋、落款、印记、版本行款等详细记载古籍特征的后设资料。
2.1.2 图文显示界面
平台采用扫描图档与文集全文共同显示的图文界面,提供同时阅览。使用者可利用字体大小与图片大小的调整功能,随着显示荧幕尺寸与使用需求自行调整字体大小与图片大小,以方便浏览阅读。此外,此图文显示界面亦拥有文集目录功能,可让使用者文集的整体架构,并且搭配超链接功能,可迅速阅读点选的章节。使用者除可以通过扫描图档浏览文集版式、字型等原本的样貌,并搭配平台系统所提供的刻工、印记、牌记、序跋与装订等后设资料相互参照研究版本学外,亦可搭配以现代字体呈现的全文,加速了解文集内容,且搭配全文检索功能迅速查找所需内容,以达到更有效地利用明人文集的目的。
2.1.3 全文检索及检索后分类
平台提供全文检索功能,提高典藏资料之使用率,同时提供作者及年代之分类功能,帮助使用者快速了解检索结果的资料分布概况。此外,也提供“双关键字”检索功能,方便使用者比对两组关键字,展示明人文集中的分布差异。
2.2 数位资料整理
2.2.1 标注系统
平台提供已转换之全文基本词汇断词与自动标注功能,使用者可就单部文集自动标注结果,藉由“关联数据”(Linked Data) 的方法连接至CBDB萌典、TGAZ、维基百科等外部参考资源,查询各在线工具对文集中已标注之字词、专有名词内容释义或地理信息等进行自动注解,以方便实时参照其他数据库资源,在短时间内了解文本内容,并设计友好的标注阅读界面,以方便资料解读。此外,使用者可根据标注词在各在线工具的释义内容进行判断后,通过简单的点击方式反馈给平台,提高该词汇在特定外部参考资源中显示顺序之权重,以实现增加使用者合作标注,自行编定知识结构等互动功能。
以《平桥诗藳》 的目次断词为例,系统断词后自动标注出“草堂”一词,并提供萌典、CBDB及英汉字典等三种在线工具对该词的解释链接,经查以萌典所释最接近“草堂”在《平桥诗藳》 此处的用法,则使用者可于萌典释义下点击“有帮助”键,以提高“萌典”在此处的显示顺序权重,亦即在三个并列的外部参考资源中,萌典将往前排在CBDB及英汉字典之前,有利于下个查询者直接查看最佳释义。
2.2.2 新词探勘
除可进行古籍全文基本词汇断词外,使用者在阅读文本的过程中,若发现未自动标注但为新词的词汇,可以自行将词汇标注为新词,此时系统会自动将词汇新增至词库中,进而提高断词与自动标注之正确性。
2.3 数位研究分析
2.3.1 信息视觉化呈现与资料统计分析
平台提供查询结果信息可视化,以及资料统计分析等工具,辅助人文学者进行量化研究,并有效缩短使用者理解资料的时间。其中,包括根据不同的搜寻条件进行资料的呈现、各种统计资料的展示等。
以双关键字检索功能为例,使用者可择取两组有关连性的关键字进行查询,比对两组关键字于平台收录内容之分布差异,平台提供双关键字于全文检索,结果以双色显示、并可连接关键字所在图文页面,可回到关键字所在卷次进行图文比对阅读。除此之外,亦提供双关键字检索结果年代分布、作者分布、文集分布等,并提供资料统计分析可视化结果。如以“梅花”和“兰花”为双关键字查询明人文集全文,从平台所提供的信息可视化呈现及各式资料统计来看,可发现明人喜咏“梅”多于咏“兰”。以检索结果年代分布来看,则咏梅之作品多集中于明嘉靖年间,学者可就此结果进一步探讨是否与当时之社会背景与时代氛围有关。
2.3.2 社会网络关系图
本平台提供人物关系分析工具,以帮助使用者了解文集内之人物关系。本平台所提供的社会网络关系工具经多次功能升级,最新版本于2018年7月更新,正持续进行已开发文集之套用。系统根据使用者所选择之文集进行人物社会网络关系自动撷取,以协助使用者掌握该部文集所提及之人物关系。整体系统界面包含文集人物关系图、全文阅读界面、关键字内文搜寻与外部工具搜寻、记事本等五个部分。在文集人物关系图中,以橘色与紫色节点标志系统判断出的人物关系,以橘色代表使用者所选取单卷卷次提及之人物,以紫色代表其他卷人物,人物间的关系可以进行编辑(如政治关系、学术关系、家庭关系等)。
本系统亦整合人物关系图、阅读界面与外部查询功能。当使用者点击文集人物关系图中的人物节点时,阅读界面会提示该人物于文本中的位置,方便使用者阅读文本,分析文本中人物彼此间的关系,同时该人物亦标注于外部工具搜寻框中,方便使用者进行查询。
2.3.3 使用历史记录
平台嵌入使用者操作历史监控模块,可精确且真实地记录每位使用者的操作历史,以此充分了解数位人文学者的浏览资料行为、查询资料方法,以及资料解读行为等细节。除有助于分析使用者行为作为协助改善平台界面操作功能,增加平台的可操作性(Usability) 的依据外,更有助于了解数位人文学者解读资料的思维、方法与历程,有助于发展更符合人文学者使用之数位人文研究平台工具。
3 未来展望
综上所述,“通用型古籍数位人文研究平台”是具备信息协作机能之数据库,除结合文史研究与数位科技运用能力,建构古籍全文资料环境外,还可作为未来学界协作发展人文研究数据库之基础。该平台已完成各项系统功能之基础开发,并持续进行内容新增,迄今累计完成70种明人文集分析,并预计于2018年再新增40种馆藏明人文集,进行全文转换与影像汇入,藉此提升该平台内容之丰富度,使收录文献转换数位全文内容质量及数量有所提升,并持续探索转置不同版式、书写格式之全文文本最佳模式与作业流程,方便学者藉由平台上之各项文献分析工具,宏观而多角度地拓展研究观察的视野,发掘古籍之应用价值。
未来,本系统平台将持续新增平台内之明人文集数量,并将所收录之文本内容扩增至馆藏其他特藏文獻。而在系统功能方面,将持续导入数位人文研究工具,增益各项系统功能,如自动断词技术、数位浏览与阅读工具、文本标注、资料检索、词频分析、资料探勘、信息视觉化、地理信息等,让研究者整合不同领域,进行跨时段、跨地域的长期研究。期望通过大量的文本分析、资料探勘与使用者标注评分等互动,达成资料提供者、平台建置者、使用者合作发掘古籍内容多元价值之积极目的,并反馈到研究工具功能之调整,让平台所提供之资料探勘功能与各项检索反馈更趋精准有效[6]。
4 结语
信息技术与网络科技的发展,促成数位人文研究的勃兴,人文学科与数位技术的融合,为古籍资源的深度开发与研究利用注入了新的理念与创造性的思维。“通用型古籍数位人文研究平台”的建置,即在尝试以“大数据”的视角,藉由数位人文的研究方法,针对古籍进行整理、断词、标注等处理,并采用视觉化分析方法,对古籍文本进行探勘、关联挖掘,以期创建一个既可辅助研究者进行人文学科研究,又能兼顾一般大众查询与分析使用需求的数位人文平台。虽在创建初始阶段,在文本内容的累积上尚需积极扩充,并于数位工具的调整应用及平台界面的友善设计上亦有待持续精进,但相信透过此平台之建置与持续发展,将能在数位革命的时代延续古籍数位典藏的基础成果,充分支援数位人文的研究,并在倡议协作与分享的理念上,为古籍数位应用的再创新提供一个可资参考的模式。
参考文献:
[ 1 ]吴明德、黄文琪、陈世娟.人文学者使用中文古籍全文数据库之研究[J].图书信息学刊,2006,4(1/2):1-15.
[ 12]项洁.数位资源对于历史学研究的意义:一个数位人文研究者的观察[J].国史研究通讯,2014(7):4-9.
[ 3]祝平次.搭起数位与人文的桥[J].人文与社会科学简讯,2017,19(1):85-89.
[ 4 ]李明杰.数字环境下古籍整理范式的传承与拓新[J].中国图书馆学报,2015,41(219):99-110.
[ 5 ]林巧敏,陈志铭.古籍风华再现:关于古籍数位人文平台
[ 6 ]之建置[J].台湾图书馆馆刊,2016,106(1):111-132.
[ 7 ]吕姿玲,庄惠茹.通用型古籍数位人文研究平台[J].台湾图书馆馆刊,2018(156):26-27.