我国古籍领域开展数字人文研究与实践现状分析
2023-09-15王秋云
王秋云,龙 欢
(湖南图书馆,湖南 长沙 410000)
1 引 言
古籍数字化是指以古籍文献保护与利用为主要目的,利用数字化扫描与输入技术、OCR光学识别技术、字处理技术、网络技术、智能化处理技术等现代信息技术对古籍进行加工处理,使其转换成计算机可识别的字符[1—3]。我国古籍数字化已经历了40余年的发展,在古籍数据库建设、数字化技术等方面形成了大量的研究与实践成果[3],有力地支撑着古籍的检索、查询、阅读、标注等需求。但随着古籍研究需求的持续深化,传统古籍数字化成果在助力古籍研究与利用等方面也暴露出一些不足。一是古籍文献数字化深度不够。以古籍保护为主要目的的影像古籍数字化产品仍占较高比例。根据相关统计,我国现存古籍约20万种,其中,利用扫描技术形成的影像古籍数字产品有8万种,而文本数字化的古籍产品仅有3—4万种[4—5]。影像古籍数字产品是古籍原件的电子化直接代替,难以支撑细粒度的全文检索、主题检索等高级检索方式。二是当前古籍数字化对古籍学术研究的支持力度不足。从古籍全文数据库来看,仍以非结构化数据存储为主,以全文检索为主要知识获取方式,无法实现文本分析、规律发现与知识提取等古籍文献深度挖掘与利用[6—8]。中国社会科学院教授郑永晓曾指出:当前古籍数据库发展面临的主要瓶颈是除全文检索外,无法支撑学者完成其他工作[5,9]。三是古籍文献内容挖掘有待进一步深入。目前,古籍数字化仍以古籍扫描、古籍文字识别与录入技术研究为主,大数据技术、人工智能与古籍数字化深入融合的切入点并不明确[10—12]。
数字人文是在计算机技术和网络科技普及的基础上,以多媒体表达为辅助,借助各项新兴技术支持开展的以人文学科为对象的新兴领域,是对传统人文学科在数据信息时代的自然延伸与不断创新和发展[13]。从本质上来讲,数字人文是以新技术为手段,挖掘古籍、档案、文献等传统资料中的新观点或对旧观点的数据化验证。数字人文理论与技术融入古籍较早,此类研究最初体现在红学研究领域。之后,古籍领域的研究者开始探索将数字人文的理论与技术应用到古籍数字化工作中,延伸古籍文献的价值[14—18]。为进一步讨论数字人文对我国古籍领域的意义与价值,笔者从古籍数字人文研究与实践2个方面对古籍数字人文相关理论研究与建设实践进行系统梳理与分析。首先,从研究趋势、研究影响力、合著情况以及研究主题等方面揭示我国古籍领域开展数字人文研究现状及特点;其次,结合古籍数字人文实践,从建设理念、应用技术、人才结构与服务模式4个方面研判我国古籍领域开展数字人文的实践特点;再次,立足当前古籍数字化工作开展情况,提出下一个阶段古籍领域深化数字人文应用的工作路径。
2 古籍领域数字人文研究现状
2.1 研究对象界定
当前,部分研究学者从技术视角出发,将古籍数字人文理解为古籍文本数据化、古籍数据的可视化,未体现数字人文对古籍研究的价值提升。为更加全面地揭示古籍数字人文的研究与实践,本文将研究对象聚焦为应用数字人文技术,挖掘古籍文献中新观点或验证已有观点的研究以及技术手段。笔者以中国知网为检索数据源,设置检索词为“古籍”“数字人文”,采用组合检索的方式,时间与应用领域不限。获取文献后,对文献的来源、内容进行分析,剔除不相关文献,最终获得目标文献28篇。
2.2 研究趋势分析
研究文献按时间分布可直接反映出该方向的发展趋势(见图1)。如图1所示,古籍领域开展数字人文研究于2016年起步,虽然后续发展中有波动性下降,但整体呈现出明显的上升趋势。结合发文期刊、研究内容等来看,一是古籍数字人文具有较强的发展潜力。古籍数字人文论文超过半数发表在《中国图书馆学报》《图书情报工作》《图书馆学研究》等核心期刊上,反映出古籍数字人文虽然研究起步较晚,但表现出了一定的研究活力与研究潜力,形成了新的学术增长点。二是结合内容分析,先前古籍数字化研究学者多关注古籍扫描、分词、检索等技术,以古籍保护为主要目的。2016年后,部分研究逐渐从古籍数字化的视角中逐渐脱离出来,向利用数字人文挖掘古籍文献价值的“增强古籍研究”阶段迈进,值得更进一步的关注。
图1 古籍数字人文研究论文发表趋势分析
2.3 研究影响力分析
论文被引数是指该论文被其他论文引用的次数,可直接体现出论文的影响力。研究论文被引数对考察该领域的研究质量和研究特点具有重要意义。笔者统计了古籍数字人文研究论文的总被引数、总下载数、篇均被引数、篇均下载数等指标,通过分析上述指标考察古籍数字人文研究影响力。同时,表1将其与古籍数字化研究高被引论文(前200篇)的计量指标进行对比分析。
表1 古籍数字人文研究与古籍数字化研究论文计量指标对比分析
一般来讲,高被引论文影响力较高,研究时间较早。如表1所示,古籍数字人文研究相较于古籍数字化研究起步较晚,但却在较短时间内获得了较高的影响力与关注度。从单篇论文来看,部分古籍数字人文研究论文虽发表时间不长,但被引数较高。例如,2013年范佳的《“数字人文”内涵与古籍数字化的深度开发》[14]被引数为75次,下载数为3 131次,远高于古籍数字化研究论文的指标值。从整体来看,古籍数字人文研究论文篇均被引数为11.96次,篇均下载数为1 038.57次,而古籍数字化研究论文的篇均被引数为1.16次,篇均下载数为214.41次。前者在篇均被引数、篇均下载数上均远远超过后者。这进一步说明了古籍数字人文在较短时间内产生了较大影响,并引起了广泛的传播。
2.4 合作网络分析
论文合著研究是学科发展的必然趋势,也是学科创新的重要路径,分析研究人员的合作情况能够了解学科发展的特征。目前,古籍数字人文研究学者分别来自武汉大学、四川大学、北京大学、中国社会科学院、南京农业大学等研究机构。通过利用合著关系绘制的合作网络可以看出:一是目前古籍数字人文研究团队较为分散、独立,跨地域、跨学科的合作研究较少;二是研究团队中研究者的专业背景较为多样、复杂,反映出古籍数字人文研究技术性、数据性、交叉学科性等特点。
2.5 研究主题分析
关键词可体现学术论文的研究主题和核心内容,通过汇总分析关键词可管窥特定领域的研究内容、研究热点以及知识体系。结合中国知网的主题标注、论文关键词对古籍数字人文研究主题进行分类汇总,形成表2。可以看出,我国古籍数字人文研究主要从三方面展开,分别为:传统古籍数字化技术、古籍数据化技术以及古籍研究价值提升。研究对象分别为图书馆古籍数据、医药古籍、古代文学、方志古籍、历史古籍以及档案等内容。
表2 研究方向以及子主题
3 古籍领域数字人文实践分析
随着技术的进一步发展,一些高校和研究机构将信息技术进一步应用于古籍研究中,如对古籍文献开展语义画像、要素关联、语义查询等相关研究,并形成一系列实践项目。本节以古籍数字人文实践成果为切入点,从实践项目的建设理念、建设主体、应用技术、人才结构、研究机构、服务模式等维度分析古籍数字人文的实践特点[9,12,19—20]。
3.1 建设理念:历史性、关联性
数字人文项目具有广泛的历史回溯性与深度关联性。中国国家图书馆副馆长、国家古籍保护中心副主任张志清曾指出:要活化古籍,需要建设涵盖人、地、事、史、制度、典故、名物的知识网络,与当今文化要紧密衔接。与传统古籍数字化项目不同,古籍数字人文项目建设重点进一步向古籍的文本内容挖掘倾斜,研究对象从古籍的字词层面分析,如文字识别、版本比对、特殊字符识别等,转向对句法特征、语义特征、语用特征进行深度分析,关注点由外部特征向内部特征转变,旨在利用文本挖掘、自然语言处理、机器学习等技术实现古籍文本中的要素提取,并借助地理信息系统、知识图谱、关联数据等技术对古籍中的人物、事物等要素的互动关系、发展趋势进行可视化展示,发现特定时间段演变的内在规律[1,8,11,14]。例如,清华大学唐杰AMiner团队的“半个世纪以来顶级学者迁徙”项目为1.3亿研究者半个世纪以来的职业变化进行画像,从中探索文化的变迁。又如,《宋元学案》知识图谱系统提取《宋元学案》的人物、地点、著作等要素及其关联关系,形成知识图谱并进行可视化展示。
3.2 服务模式:基础性、通用性
古籍人文平台呈现出一定的数字人文基础设施属性,面向研究人员提供相应的服务。通过梳理,典型的服务模式涉及在线数据服务、可视化服务、古籍整理分析服务3种。其中,在线数据服务可提供数据检索、专题数据库浏览、数据下载等服务,或通过API接口提供古籍基础数据。例如,清华大学数字人文门户网站作为提供学术交流、实践、资源获取的平台,该平台数据以方便获取处理的结构化数据为主,可实现按需导出、API数据调用等功能。可视化服务提供GIS、知识图谱、关联数据等服务,目前,《宋元学案》知识图谱系统、唐宋文学编年地图、中国文学地理学信息平台等典型的系统均将处理过的数据以地图、知识图谱等形式展示出来(见表3)。古籍整理服务提供命名实体识别、文本挖掘等基础性技术工具,使古籍数字人文具备技术基础设施与基本条件(见表4)。
3.3 人才结构:多元化、综合性
古籍数字人文项目建设主体呈现多样性、跨界性特征。古籍数字人文研究通常涉及古籍、人文等领域,也涉及技术开发、算法模式、系统研发工作,需要来自多个领域的专业人员参与研究。例如,复旦大学历史地理研究中心的中国历史地理信息平台与首都师范大学的丝绸之路历史地理信息开放平台由西安云图信息技术有限公司提供的技术支持,“汉典重光”古籍数字化平台由互联网巨头阿里巴巴和国内外多所知名大学、图书馆共同建设。
从人才队伍来看,古籍数字人文研究继承了数字人文交叉学科的属性,在人才的需求方面比传统的古籍数字化专业更多元,要求技术更复杂。在人才需求方面,古籍数字人文实践工作不仅需要掌握古籍知识、人文知识,还需要计算机信息技术、数据科学技术[28—36]。从目前数字人文研究机构来看,其人才队伍支撑均体现了人才多元化、专业综合化的特点。例如,浙江大学数字人文研究中心团队成员既有人文社会科学专业,又有理工科学专业,分别来看文学院、地理信息科学研究院、计算机科学与技术学院等多个院系或部门。武汉大学数字人文研究中心的成员主要来自信息管理学院、信息资源研究中心、遥感实验室、文学院、历史学院、计算机学院等,团队的研究方向既涉及知识图谱、本体设计等算法层面技术,又涉及科研数据集成、数字资产管理等资产层面技术,甚至还有3D建模仿真、虚拟现实以及图形设计等方向。北京大学数字人文研究中心研究团队既有计算机科学、人工智能等领域的研究学者,也有历史学、语言文学、外国语等人文社科与语言学领域的研究学者。
从机构形态上来看,目前以逻辑组织为主,通过招集不同学科的研究人员,形成可解决交叉学科问题的跨学科组织。例如,南京大学高研院数字人文创研中心以南京大学人文社会科学高等研究院为依托,结合历史学、地理学、计算机科学、信息管理学等南京大学校内多学科资源,形成一个跨学科的研究组织。
3.4 应用技术:综合性、集成性
古籍数字人文技术实践具有综合性与集成性特点,通常开发一个数字人文平台需要多种不同的技术集成应用。例如,在《宋元学案》知识图谱系统开发过程中就融合了实体识别、文本挖掘、知识图谱、可视化等多种技术。首先,利用命名实体识别技术提出《宋元学案》人物、时间、地点、著作等实体信息;其次,利用关系分析、关联数据、文本挖掘、本体技术以及知识图谱等探寻实体间的关联;再次,利用可视化技术等进行综合展示。如表5所示,古籍数字人文多涉及以下三类技术体系:一是资源数字化技术。是指利用图像识别、文本识别、命名实体识别、本体构建等技术,对古籍原始文献进行识别、集成、清理、处理和分析,从中提取有价值的信息和知识。二是数据管理类技术。使用统计分析、机器学习、数据挖掘、文本挖掘等技术,对数据进行分析和建模,以发现数据中的模式和关联。古籍数字人文研究以非结构化的文本处理为主,更偏向于数据挖掘技术、自然语言处理技术协助学者开展统计、比较、分析等工作。三是展示类技术。利用GIS、知识图谱、VR技术实现,将古籍数据进行可视化展示,将复杂的数据用直观的方式进行呈现。
4 古籍领域开展数字人文的实践路径
第一,关注古籍数字人文基础性技术研究,进一步加强古籍全文数据库建设。古籍数字人文关键点在于新一代信息技术在古籍文本中的深度应用,对古籍数据进行知识加工。当前,所形成的古籍数字人文产品以检索、查询、可视化等功能为主,语义层面较少。主要原因有两方面,一是从实践角度来讲,我国现存古籍数据库量多,但总体数字化程度较低、以文本形式进行数字化的古籍数量少,难以对古籍数据库进行深入挖掘;二是从研究层面来讲,面向数字人文的古籍实践案例研究较多,但面向特殊语言的实体识别、分词技术、自动翻译、自动提取等基础性技术研究较少,导致推动古籍全文数据库建设的技术动力不足。在后续工作中,学者应进一步将研究重点聚焦于命名实体识别、本体抽取等基础性技术研究,同时,强化古籍全文数字库建设,为新一代信息技术在古籍文本中的深度应用提供数据源与技术积累。
第二,加快研究范式转变,形成研究与实践相互促进的良性循环。古籍数字人文是古籍数字化在新一代信息技术背景下发展的产物,是人工智能、数据挖掘等新一代信息技术发展到一定阶段后应用于古籍文献研究的具体体现。传统信息技术多以辅助古籍数字化检索、查询等为主体,对古籍研究起到支撑作用,而新一代信息技术对于古籍数字化将发挥引领发现新知识、新规律的作用。当前从研究领域来看,多数学者仍以人工分析为主要手段,存在对传统研究的路径依赖现象,无法发挥新一代信息技术引领驱动数据人文发展的作用。在后续工作中,要充分认识大数据、数据挖掘、数据可视化等新一代信息技术对传统古籍数字化研究范式的影响,将数字人文推向更加客观的定量研究,采用主题建模、数据检索与分析、实体识别等技术,重塑古籍数字化研究范式与人文知识体系。同时,研究人员应加强对古籍数字人文产品的应用,逐步优化数字人文产品,形成研究与实践相互促进的良性循环。
第三,拓展研究和实践群体,逐步扩大社会力量参与的深度与广度。古籍数字人文的实践和研究均体现出多学科融合、多行业参与的发展特点。例如,复旦大学历史地理研究中心中国历史地理信息平台、丝绸之路历史地理信息以及“汉典重光”古籍数字化平台等具有一定影响力的项目都有互联网企业的深度参与与技术支撑。在研究方面,数据人文研究课题与项目多体现交叉学科的背景,涉及学科领域广、专业背景多样。后续,在古籍数字人文实践中,应探索更灵活可行的管理模式,吸引互联网公司积极参与项目的早期设计、中期开发、后期实施以及迭代升级等全生命周期工作。
第四,优化和健全人才培养机制,突出“新技术”要求。近年来,随着数字图书馆的建设,图书馆已引进和培养了一批具有信息技术专业的人才,但主要集中在数据库、Web建设等传统信息化方面,缺乏对大数据分析、数据挖掘、可视化技术等新一代信息技术相关人才的引进,制约了古籍数字人文的深入研究。在后续工作中,图书馆在招聘新进人员时应重点考虑新一代信息技术的背景,重点引进具有图情专业与计算机专业双重背景的技术人才,此外,持续对图书馆古籍工作人员进行系统的、有计划的培训,使其充分、全面认识数字人文的基础理论,更加适应古籍数字化发展数字人文新阶段下的新要求。
5 结 语
当今数字人文蓬勃发展,本文将古籍数字化与数字人文结合起来,对推动古籍数字化工作进入更深知识服务层次的理论研究与建设实践进行梳理分析并提出实践路径,以便进一步挖掘古籍的时代价值,让书写在古籍里的文字都活起来。