数字人文项目中数字化标准初探
2020-01-07其其格
其其格
(北京外国语大学,北京 100089)
近年来,数字人文成为图书馆领域十分热门的话题,将人文资料用互联网、大数据、人工智能等新技术手段,变成可以机械统计、有可视化结果的数据源是图书馆新的数据服务方式。悄悄兴起的数字人文运动,正在撼动图书馆保存管理图书资料的传统业务,越来越多的图书馆开始重视并参与到图书资料数据化的统计分析课题中,将业务延伸到数据的管理与知识的组织服务中去。在此背景下,图书馆调整策略,升级业务,在本馆文献资源数据化的基础上建设各自的数据平台,提供更好服务的同时,也制造出了越来越多不同形式的数字人文平台。这些平台揭示了不同层面、不同内容、不同格式的文献,并呈现出多样的分析和检索形式。随着这些项目的推进与数字人文变革的深入,读者将不得不奔波检索于不同单位的数字项目中,而这些项目中很多共通的信息都不能相互链接使用,图书馆设置的一个个项目变成了知识分享的藩篱。
随着各机构纷纷立项开展与推进数字人文项目,数字人文成果的获取和推广问题即将突显,文献数字化的数据标准、平台标准、获取标准及未来可融合的技术标准等一系列的行业标准,或许是未来数字人文做大做强,真正惠及学林,推动整个文史行业的研究热度,提高影响力的关键。
1 数字人文项目实践中的主要困境
关于图书馆数字人文发展中存在的问题,许多学者都有所讨论。蒋萌[1]在《新时代图书馆数字人文发展研究》中认为,图书馆数字人文发展存在观念滞后于传统束缚、体系开放与边界迷茫、方法创新与技术支撑薄弱3 个问题。黄水清[2]认为,人文计算的研究现状可用“三多三少”来概括,首先是追热点的论文多,有实质意义的成果少……其次是非人文学者关注多,人文学者关注少……最后是泛泛议论多,成功案例少。朱强[3]表示,数字人文项目兼容性不强、标准繁杂,很容易形成大量的信息孤岛,会造成大量的重复建设;同时,随着时间的推移,项目引导制下产生的数字人文成果由于项目到期的原因将面临服务无法跟上、无法可持续发展等诸多问题。本文在文献调查的基础上,总结出数字人文项目实践中的主要困境有以下4 点。
1)同质化文献资源重复建设,造成资源浪费。在纷乱复杂的数字人文项目建设中,用什么样的资源、做什么样的平台都是各机构自身的项目计划,大多数项目的文献来源为本馆资源,而大馆之间互通的文献非常多,很难避免资源重复建设问题。针对这个问题,袁爱莲[4]提到了特色学科资源重复建设的问题,认为各高校间可根据实际情况进行图书馆特色学科资源的协同采购和联合建设,这样不仅有助于减少各高校图书馆的特色学科资源建设成本,也可以避免特色学科资源的重复和浪费问题,并可以提升高校图书馆特色学科资源的利用效率。
对同一部书不断重复进行数字化,必然造成人力、物力、财力的浪费,在众多数字人文项目的建设中,文献电子化如果能如袁爱莲所言,形成一个协同采购的平台,必然可以减少很多资源的浪费,但也不能忽视同一文献的版本、钤印、批注等文献内容之外的价值。最好的做法是在数字人文项目建设中,既有相同文献的协同采购,以加快项目的推进,又有文献特色化的掌控,不流失文献价值。
2)平台技术使用不统一,影响了项目完成后进一步整合集中更全面揭示文献的可能性。不同机构的数字人文项目采用的设计理念和技术不同,使得在项目建设初始阶段就注定每家成果的差异性,但纵览数字人文项目,围绕不同主题的文献资源、历史资料而建设的项目库比比皆是,从长远看,同样是史料,不同历史阶段的史料库是否可以兼容;同样是民族文献库,能否对接同行的资源库等,都是电子资源库大量建设之后面临的问题。如第一阶段的项目建设成果各自为政,各项目建设的平台技术不能兼容,则从长远看各平台通力合作,整合资源,更好更便捷地为读者服务就成为了难题。
3)多机构成果获取之间存在藩篱,加大了读者获取资源的难度。随着数字人文项目成果的逐步完成,特色资源的多少、检索是否精准、分析模型好坏、界面是否友好、使用是否方便、信息揭示是否完整、准入门槛高低等因素,都将是读者获取信息的重要参考。在不久的将来,数字人文项目成果的大面积分布和海量不同单位项目账号的获取,会成为跨库文献检索新的难点,文献检索技巧也从数据库之间的使用和转换,变成更多层级信息获取的分析和博弈。在不久的将来,海量的数据将在不同机构多样化的存在并且各自为政,加大了读者获取文献的难度。可以预见,数字人文项目成果获取的藩篱会极大地浪费科研与建设资源,提高知识获取和分享的壁垒,割裂各机构文献资源的纽带。面对这个趋势,笔者认为有必要在大多数字人文项目建设初期做一些预设,让各自为政的机构和数据有互通共用的可能,让各家的数字人文项目能够取长补短,避免重复建设,让数字人文的基本分析工具在大多数项目中通用。现阶段,这个预设最好由基金发布部门和项目建设部门都认可的协会或单位制定,从顶端设计出发,让大多数项目有共通的可能。在本文中,称之为数字人文标准制定。
另外一个困境是参与数字人文建设的机构单位越多,需要跨库去找的资源就越多,本应检索使用便捷的数据寻找起来越难。大量基金支持下的数字人文项目的展开,建立起越来越大规模的数据,数据的检索利用效率今后还有很大提升空间。
4)成果揭示的形式多样,质量参差,分析工具多元,加大了读者转引困难。由于各家机构数字人文项目建设的情况不同,原始文献的数字化阶段也各有不同,有的刚刚起步,有的直接从缩微胶片、光盘、黑白扫描等不同形式的原有数字化形式转换,数字项目结束后,读者能够获取的文献形式也差异很大,在图像清晰度上,新数字化的文献成果要高于缩微胶片、黑白扫描等早期数字化的文献,利用这些文献做进一步文字提取,数据分析的准确率更高;不同项目中底层设计的分析模型不同、参数不同,也会影响最终的分析结果。以北京大学为例,张乃帅、孙超在《北京大学图书馆长期保存系统建设与探索》提出,在数字人文资源及馆藏资源的长期保存实践中出现的问题有:数据库商提供的回溯数据和更新数据格式不一致、部分功能需手动启用、底层数据模型兼容性较差、数字人文资源保存难度大等[5]。北京大学作为国内顶级高校经费充足、资源丰富,图书馆老师联合学者引领着国内数字人文项目的推进和实践,他们尚有此考虑,在更宽广视野中的图书馆在数字人文项目建设中也必然面临这样的困境,这也是本问题提出的大背景。相信开展数字人文项目的机构在项目推进过程中,或多或少都会出现相关问题,同样的文献,因为数字化形式的不同,或者分析模型的不同,可能分析出不同的结果;而随着数字人文成果的增加,本意为方便读者做文献分析的数字人文项目,也会因不同因素影响,可能出现不同的分析结果,导致数字人文项目中分析结果的科学性缺乏验证。
2 数字人文项目发展期的标准化建设
由上述困境不难看出,随着数字人文理念的传播和文化保护意识的提升,数字人文建设项目遍地开花,但项目成果的形式与数据进一步分析使用情况值得深思。发展中的数字人文项目是智慧图书馆的数据化文献特藏深层揭示分析的尝试,还是未来科研标准化数据的缔造者,都要看数字人文项目建设中数据格式、分析工具等是否能够统一标准,项目成果能否达到行业使用共识。基于这个认识,笔者认为数字人文项目建设中标准的制定必不可少。
1)制定可共同联合的技术标准,让更多的项目可有共建、联合的可能性。鉴于目前各自为政的资源建设情况,各家成果不能实现共建共检共引,读者文献检索的结果就会非常杂乱。如果在项目建设初期打通基础技术,那么随着不同主题、不同概念的数字人文项目的完成,很多项目可以合并统一,形成更大规模的资源库,方便读者高效地检索分析。在顶端设计、项目申请之前就制定好基本的标准,有利于资源的整合,促进更好地为读者服务。基于这个问题,李立睿在《国外iSchools 高校图书馆数字学术服务调查与分析》中提出,高校图书馆可以从重视用户个性需求内容识别、以协同化模式推动服务进程、加强综合化服务联盟构建等方面深化数字学术服务发展[6]。协同化模式,共建联合的形式逐渐被大家认可。
2)制定数据形式的标准,让数字人文项目建设有所参考,读者的信息获取更有保障。我国幅员辽阔,图书馆众多,不同地区不同性质的图书馆资源数字化情况不同,在数字人文项目建设中,有利用原本数字化资源进行的,也有从文献数字化起步,经过数字化步骤之后进一步整合资源形成可分析可视化的分析数据库的。各家具体情况不同,所提供的原始数据不同,导致最终成果也各有特色,例如古籍内容揭示,有的提供黑白扫描时期不甚清晰的图片入库,那么进一步取词分析则有难度;有的原始数据都是文本,那么追根溯源,考镜源流,版本引用上存在困难。诸如此类,都是因为数字人文项目建设准入没有标准导致的,在数字化项目兴起阶段,这些错综复杂的情况能够反映我国数字资源的多元化存在情况,但是随着行业成果的融合,标准化引用等进一步合作需求的出现,项目元数据的格式、大小、呈现形式、分析工具等都需要有一定的标准。学术研究讲究慎终追远和前人成果,只有严格整合文献资源,遵循必要的标准规则,才能让数字人文项目平稳落地,为读者服务,为科研服务,产生更大的效能。
上海图书馆夏翠娟认为,图书馆应结合资源优势和专业优势,集中精力于基础设施建设,促进跨机构资源整合、跨领域知识融通和跨网域开放获取[7]。吉林大学薛欢雪针对可移动文物数据库的构建探讨了数字人文“一站式服务”的问题,认为对于任何特定的研究领域,似乎没有“一站式商店”提供所有可用的数字资源。构建可移动文物数据库的目的是通过互联网和信息技术,有效地将图书馆、博物馆和档案馆等资源进行整合,将数字资源与实物相链接,兼顾各自的优势,构建虚实结合的信息知识传播形式,打造适合跨机构的数字化学术生态系统[8],并在可移动文物数据库建构框架中,对整合跨机构的数字化学术生态系统提出了期待。
可见,学界对于数字人文项目的标准也有期待和呼唤,标准的出台和实施是时代发展的必然。
3 数字人文项目实践中标准制定应注意的问题
基于以上情况,数字人文项目推行几年来,各种问题已经开始出现,各类图书馆在计划、推进数字人文项目建设时应该注意以下4 点。
首先,要注意行业性标准的参考。标志性大馆大力扶植基础项目,并公开技术标准,小馆尽量予以参考。这样,小馆在项目设计、项目实施中,可以避免很多因信息不对称而造成的决策失误,也能在未来业务拓展、开放获取等不同情况下做到兼容。在这方面,国内已有成功的先例。如国家图书馆古籍普查设立的“古籍普查平台”,其中对于古籍基本项目著录格式都有清晰明确的要求,多家机构在本馆古籍普查的同时,也统一了古籍著录标准。再如,“中华古籍保护计划”的“中华古籍资源库”建设,在国家图书馆馆藏资源电子化的同时,集成天津图书馆古籍法藏敦煌遗书等多馆馆藏资源。近年来,这一项目得到了众多公共馆的支持配合,各家同步进行古籍数字化平台建设,建设成果可以在统一平台上开放获取,供读者使用。这一项目的推进和实施,做到了在行业大标准的前提下兼容各馆业务,形成大的数字人文项目。
其次,要注意以大馆带小馆,大项目联动小项目。数字项目制定之初,可以调研国家图书馆、上海图书馆等大馆相关业务开展的经验和教训,在基础标准制定上尽量兼容可升级。例如,馆藏古籍中家谱数字化建设,可以参考上海图书馆“上海图书馆藏家谱全文”数据库,查重排除已经数字化的家谱,增加本馆特色,兼容上海图书馆系统,让大馆大项目带动小馆小项目,可免去很多重复建设。
再次,要注意精简门槛,合理配置,多库联合,更广阔地揭示资源。在数字人文项目成果的揭示上,尽量少设置读者阅览门槛,或太拘泥本馆资源,只求一城一池的发展,而是要开阔眼界,在兄弟单位寻求跨单位协作,各单位的特色资源联合建设联合展示,更全面广阔地揭示资源。
最后,要注意引导OA 项目,将成果转化为实际,推动产学研一体化。近年来,数字人文项目建设的同时,伴随着开放获取运动的极大发展。原来图书馆各自为政,资源获取门槛较高的局面被一个个建设完备、OA 开放、获取容易的大数字人文项目所打破。所以,各类图书馆都要意识到OA 潮流的发展,积极投入到共同建设、开放获取的资源呈现中,在建设数字人文项目时就注重引导OA 项目,更大限度地推动产学研的快速转化。
4 数字人文项目标准制定的意义与展望
由上可见,数字人文项目建设前期,数据格式、呈现形式、分析模型等标准的制定有利于合理优化利用资源,推进我国文献数字化的进程。这样的顶端设计,需要从上而下,由项目的审批部门提出,贯彻到各个层级机构的项目中去。
习近平总书记在纪念改革开放四十周年的讲话中指出,推动中华优秀传统文化创造性转化、创新性发展,传承革命文化、发展先进文化,努力创造光耀时代、光耀世界的中华文化。数字人文的本质就是将传统的古籍、史料等文化资源进行现代化的转换分析,这类项目的推进既离不开国家和机构的支持,也离不开图书馆馆员孜孜不倦地工作。而制定合理的项目标准,有助于图书馆推动优秀传统文化创造性转化、发展。图书馆作为传统文献的收藏机构,有责任和担当做好标准化的数字人文项目,有能力和力量推动传统文化光耀时代、光耀世界。而提供标准化、可兼容的数据产品,是为更多读者,为更广大群众做好文化服务的基础。综上所述,数字人文背景下,馆藏数字化的标准制定是整个行业文化转换传播的题中之意,有利于图书馆业务的发展和时代赋予图书馆责任担当的完成。