2010—2015年古籍数字化研究现状与展望
2017-03-11张翠真张琼苑
张翠真 张琼苑
(青海大学西宁810016兰州理工大学技术工程学院 兰州 730700)
2010—2015年古籍数字化研究现状与展望
张翠真 张琼苑
(青海大学西宁810016兰州理工大学技术工程学院 兰州 730700)
针对近年来古籍数字化选题重复、产品质量良莠不齐及利用率低等问题,通过梳理2010—2015年国内古籍数字化研究内容及其他学者的建议,从国家制度体系建设、开发商开发策略、数据资源平台建设和知识挖掘技术难点等方面提出了具体建议和观点,如政府应当成立权威的国家古籍数字化管理机构,开发商需根据用户多元化特点,提供精准服务等,以促古籍数字化市场和产业可持续发展。
古籍数字化 内容分布 发展方向
古籍数字化是保护与传承珍贵古籍的重要手段之一,较好地解决了古籍藏与用之间的矛盾,为专家学者从事专业研究及非专业领域的爱好者阅读古籍特别是珍贵古籍提供了便利条件,为消除信息鸿沟、促进社会公平、弘扬中国传统文化构建了必要基础。从20世纪80年代到2009年,古籍数字化伴随着信息技术的快速发展取得了不俗的成绩,已有不少学者对这一阶段的成果进行了总结和梳理[1][2][3][4][5]。2010—2015之间的古籍数字化的研究进展和成果的梳理目前是一个空白。笔者认为对该阶段古籍数字化成果的系统梳理和总结是理清未来行业发展方向和有效推进后续研究的前提。本文较为系统地整理了近六年来古籍数字化研究内容分布及其成果,探讨了古籍数字化未来的发展方向和亟待解决的问题。
一、古籍数字化方向的主要研究内容
古籍数字化作为目前一个研究热点,主要从以下几个方面开展了研究。
1.发展困难与对策研究。由于前阶段的无序发展以及当前技术手段局限和观念与制度建设滞后等原因,古籍数字化在从简单的知识揭示向有序的知识组织过程转化中困难重重。为了推动古籍数字化事业能稳健高效地向前推进,学者们就现阶段古籍数字化工作存在的问题做了广泛深入的研究。主要问题体现在以下几方面:缺乏统筹规划和选题重复;汉字处理问题和检索技术的局限性;资源共享程度低;商业化运作存在的问题。针对以上几方面的问题,众多学者也提出了相应的对策。
(1)梁爱民[6]提出实施整体规划并制定建设原则、赵葆英[7]提出建立全国性的古籍数字化建设协调机制、建设可执行的古籍数字化优先原则、以课题管理方式,有序开展古籍数字化工作、建立古籍数字化统一标准。李明杰[8]提出组织古籍专家对古籍进行定级和筛选,制定阶段性的古籍数字化规划,优先将文物价值、学术价值和艺术价值高的善本数字化,并有计划按步骤地推进该规划的实施。
(2)魏晓艳[9]提出立足于发展现状和需求结构,分层次开发古籍资源、系统整理古籍版本及用字,建立古籍版本数据库、建立大型资料库,系统有序地整理不同层次的古籍字形、在汉字处理的基础上,进行汉字独立分级编码。郭伟玲[10]提出了解决检索局限性的对策如从古籍文献整理方面规范古籍来源、从古籍数字化建设角度来提升检索能力、从组织管理角度考虑数据库检索、从检索技术层次来考虑数据库检索。
(3)赵坚、梁爱民、郭明侠、高娟等人提出了整体规划、统一标准、共建共享、建设统一发布平台、确立统一协调的领导机构等对策解决资源共享程度低的问题[11][6][12][13]。赵瑞生[14]提出就要实行统一的、行之有效的机读目录格式,重视统一标准的研究和制定工作,最终建立一个完整的中国古籍数据库来破解资源共享难题。
(4)毛建军[15]认为观念落后、选题重复、版本选择、标注方式等因素是古籍数字资源商业化运作存在的问题,建议通过准确掌握最新行业发展趋势和数字技术、政府积极参与制定指南和实施优惠政策、选择善本、规范标准等途径促进古籍数字化商业化运作。
2.主体构成及统筹协调机制研究。理清古籍数字化主体构成,建立各种主体之间统筹协调机制是降低古籍数字化成本、有效整合资源、提高古籍数字化产品质量的关键。中国人民大学信息管理学院教授王立清认为广义的古籍数字化主体包括开发主体、利用主体、控制主体和研究主体,狭义的古籍数字化主体则指开发主体。古籍数字化开发主体是古籍数字化的核心,也是学者专家研究的重点。古籍数字化开发主体较为公认的构成包括图书馆(学校/研究机构)、出版社、数字技术提供商。研究内容如下。
(1)探讨各开发主体各自优势、相互关系、选题分布、成果类型,提出协作机制的构建途径[16][17][18]。李明杰认为应该从制定古籍数字化中长期规划、制定和推广古籍数字化行业标准和规范、建立古籍数字化项目招标机制、建立古籍数字化产品信息发布平台、建立古籍底本使用补偿机制、建立民间古籍善本的征集制度等方面着力构建古籍数字化协作机制[18]。
此外,侧重于某个古籍数字化建设开发主体的研究也取得了很多成果,图书馆角度的研究是主流。
(2)高校古籍数字化。胡良[19]对国内49所211院校古籍数字化情况进行调查分析,提出了古籍数字化中应注意的问题(避免重复建设、编码标准化、知识发现功能的实现)。李培志[20]分析了高校教师在古籍数字化大潮中峰角色(学习者、实践者、矫枉者)。
(3)图书馆古籍数字化。张爽[21]探讨了高校图书馆与古籍数字化之间的关系。康尔琴[22]从国内公共图书馆古籍数字化的实践入手,提出了建议(加强统一规划,合作共建,联合开发、统一标准、资源共享)。黄玮夏[23]对古籍资源的特性与数字化基础进行分析,提出图书馆古籍文献数字化资源建设的途径和方法(购买古籍数字化资源、免费资源的链接整合、自建古籍数据库)。樊普[24]从河南省高校图书馆古籍数字化的现状出发,分析数字化过程中存在的问题,并提出了建设对策(加强馆际合作,资源共享、注重特色建设、建立保障体系)。
3.标准建设研究。为了实现古籍数字化产品质量控制、资源共享、技术协作,必须在古籍数字化过程中采用统一的行业标准。众多学者已经分析了标准建设的必要性及具体方案[6][11][12][13]。目前,古籍数字化标准规范体系的建设和有效落实是促进古籍数字化资源整合和最大程度共享的前提。关于标准规范的建设的研究如下:
(1)总体框架设计构想。贺科伟[25]、姚俊元[26]建议通过统一版本标准、古籍分类标准、字符集标准、存储格式标准、检索标准、元数据标准以实现古籍数字资源质量和利用率的提升。张文亮[27]分析了我国古籍数字化现行标准存在的制定不规范、体系不系统、内容不全面、原则不明确等问题,提出了包括管理标准、技术标准和工作标准的标准体系框架。
(2)具体环节方案。刘聪明[28]从图像资源和元数据两方面探讨了古籍数字化标准规,并总结了质量控制的具体措施。熊静[29]介绍了我国古籍元数据标准建设现状,认为DC元数据更能适应网络环境,应当成为古籍数字化建设的首选。周琳洁[30]探讨了我国古籍书目数据库标准规范建设策略。张军亮[31]探讨了通过水印技术保护版权,避免古籍数字化统一标准建设后的防盗版问题。
4.专题数据库建设研究。专题数据库是指数据内容侧重于某一专题数据库、现有古籍专题数据库研究主要成果集中在中医古籍方面,也有一些学者对回族古籍、藏医古籍地方志、特定古代作家的作品的数据库建设作了初步的探索。因为专题数据库具有很强的专业性、巨大的实用价值,故而研究意义重大。研究内容如下。
(1)医学古籍数据库。符永驰[32]从书目选取、内容加工、利用平台、研究支持、整理研究方面探讨了中医古籍数字化的方法。蓝韶清[33]探讨了中医古籍数字化系统研究的基本内容和方法。程新[34]从保护与利用相结合、统一规划与分步实施、共建共享、标准化、可持续发展、保真、整理、图文对照、技术服务于内容等九个方面提出了中医古籍数字化应当遵循的原则。程静[35]以天津医学高等专科学校中医药古籍数据库建设为例,总结了中小型图书馆建设中医药古籍数据库的方法。刘毅[36]认为中医古籍数字化在保存文献的基础上,要注重知识挖掘。任玉兰[37]探讨了基于网络支持平台技术方案构建集中医古籍信息存储、阅读、研究、知识挖掘、知识服务于一体的数字化信息平台的思路和方法。邵平[38]提出了构建回族医药文献数据库的初步设想。
(2)方志古籍数据库。李广龙[39]分析了陕西方志古籍数字化的必要性、实现步骤及方式。胡以涛[40]介绍了南京农业大学抄写本方志古籍数字化的整理过程,提出了“图文对照+文档附件”的整理模式。
(3)民族古籍数据库。徐丽华[41]就编制藏文古籍著录规则和分类法、统一字库和文献格式、培养古籍编目人员、利用和整合现有国内外藏文古籍数字化资源做出建议。朱宗晓[42]分析了传统的少数民族古籍数字化方式在文化传播方面的局限性,提出了分为“载体还原、场景重现、文化传承”三个层次的民族古籍数字化传播策略。苏日娜[43]从资金、技术、组织管理三个方面分析了蒙古文古籍数字化面临的问题,提出了具体的解决方法如建立《蒙古文古籍书目数据库》的共享系统、建设基于浏览器服务的《蒙古文古籍全文数据库》、采取合理的有偿共享、创造条件保护好国内现有资源。
5.资源服务及产品分析研究。数字化产品的激增和信息技术的发展为普通用户快速全面地搜集到所需要的古籍数字资源增加了难度。如何让已有的古籍数字资源更好地服务于广大用户是很多学者关注的问题。整合网络资源、合作馆藏维护、建立导航系统、导读服务等途径可以帮助普通读者提高古籍数字化资源的检索效率。这样既可以提高古籍数字化资源利用率、又降低用户的时间成本。
(1)资源整合与导航服务。徐金铸[44]提出利用网络古籍信息资源的重要性,通过网络古籍信息的优化整合,促进古籍普及和学术研究。毛建军[45][46]提出中文古籍数字化资源合作馆藏维护方面的建议并探讨了基于导航系统的数字资源整合方式。朱成林[47]建议加强古籍数字化智能导读技术研发和古籍导读服务的管理服务流程建设提升导读服务。
(2)产品分析。史丽香[48]从用户反馈角度提出当前古籍数字化产品存在的不足之处,为厂商改进产品、提升用户体验提供了依据。
6.实践总结研究。在古籍数字化实践过程中积累了很多切实有效的经验。深入挖掘和梳理这些实践经验能够为之后的古籍数字化工作提出启示。广泛地借鉴国内外在古籍数字化方面的先进经验是古籍数字化事业快速高效发展的必要手段。研究内容如下。
(1)国际经验。刘家真[49]在对已有国际项目分析的基础上,提出了创建中华古籍国际信息交流平台和两岸古籍数字化战略合作伙伴关系的建议。喻雯虹[50]从国际敦煌项目考察中总结了如正确选题、高效项目管理、互惠合作模式、高规格数字化标准等国际合作的成功经验。任红辉[51]从天一阁古籍数字化实践出发,总结了质量控制的要素如选用成熟先进的技术标准、明确的技术规范、多专业工作人员协作。毛建军[52][53]在简述韩国、美国各典藏机构古籍数字化现状,建议借鉴设置政府组织的统一协作机构、使用标准可兼容的数据格式、建设开放的资源获取平台等先进经验。
(2)国内经验。张玉梅[54]从王世贞数据库建设实践出发,探讨了专题古籍数据库建设的原则如专业性内涵与人性化界面相结合、国家标准与国际规范相结合、明确定位。
7.专业互动研究。不同研究领域的进步会对其他研究领域提供新方法、新思路。所以,古籍数字化的可持续发展应当积极关注并利用相关其他领域发展成果。也要关注古籍数字化发展带来的溢出效应。
(1)积极应用相关专业领域发展成果。清华大学的刘聪明[55]等人从扫描技术、OCR技术以及存储技术三方面探讨了信息技术在古籍数字化实践中的应用。范佳[56]认为在开展古籍数字化工作时,应该充分占有数字人文研究成果,从文本挖掘、GIS技术、文本可视化和古籍语料库四个方面进行古籍数字化的深度开发,推动古籍数字化会实现从信息的简单组织、检索与利用到对海量文献资源的深度分析和挖掘,从单一的古籍研究手段到多维度的科学分析和智能介入的飞跃。莫俊[57]分析了古籍普查与古籍数字化在对象、数据的运作模式中寻找启示和借鉴。
(2)密切地关注古籍数字化发展的溢出效应。吴夏平[58][59]从技术遮蔽、数字鸿沟、技术伪装等方面分析古籍数字化对现代学术的负面作用及去弊之法。
二、古籍数字化展望与思考
1.国家战略规划确立与制度体系完善。如前文所述,近年来古籍数字化成果卓著,但是在此过程中因无序开发导致选题重复、数据垃圾增多、资源浪费的现象日益突出。针对该问题,已有很多学者已经提出了很好的解决对策,即制定中长期战略规划,并且相关部门也提出了一系列制度。但是,目前缺乏一个独立、权威的执行和监管机构。
鉴于古籍数字化事业的成果公益性、主体多元性、发展不均衡等特点决定了政府参与的必要性。所以,笔者认为目前应当从以下三个方面建立国家战略规划,并完善制度体系。首先,政府应当成立一个独立、权威的国家古籍数字化管理机构,负责健全并推进古籍数字化中长期战略规划,建立和推进统一的标准,形成管理常态化机制,保障古籍数字化项目质量(如避免重复立项、保障成果品质),培养健康有序的古籍数字资源市场。其次,从实施形式上,应建立权威的古籍数字资源发布平台和导航库,规范市场秩序。第三,针对古籍数字化自身特点,完善适用的知识产权保护方法和法律体系。
2.产品开发需因地制宜、加强合作,目标定位多元化、精准化。部分开发商个体产品销售量低的直接原因之一是同类产品重复建设,导致供大于求。针对此问题,建议开发商分析自己的资源禀赋(人力、物力、古籍资源、软件技术等)后,精准定位用户诉求,开发特色产品,形成竞争优势。同时,不同类型开发主体之间应加强合作,取长补短,共同推进古籍数字化产业发展。
从用户角度来看,目前古籍数字化产品多定位于服务研究人员和高校师生,产品功能较为单一、利用率受限。首先,建议开发商根据古籍信息资源用户的差异性,如古文水平、专业方向、年龄差异、阅读目的,制作多元化的数字化产品,精准满足不同层次用户需求。其次,重视用户体验,加强建立用户反馈机制,形成“开发——使用——反馈——再开发”的闭环链条,保障产品满意度持续提升。
3.推动古籍数字化资源统一发布平台建设。应建立古籍数字化资源统一发布平台,既可以促进资源共享,又有利于推广古籍数字化产品,起到优化资源服务作用。具体而言,第一,对现有古籍数字资源有效整合与导航,可以提高用户搜索效率。第二,通过免费获取部分资源,或其他非经济途径抵偿获取(如善本、孤本的使用权转让,承担古籍数字化产品制作微任务,古籍数字化产品体验后改进意见反馈等),促进资源共享,培养潜在用户。第三,有助于最新古籍数字化产品的宣传和推广,保障古籍数字化企业的经济收益和可持续发展。
4.推动数字化技术的发展,全面实现知识挖掘。古籍数字化的发展趋势是深度分析和知识挖掘,对内容专家和技术专家提出了更高的要求。以中文古籍为例,需要内容专家建立大型资料库系统地整理古籍字形、完善古籍相关背景内容的数据库、描述预期达到的智能分析目标;技术专家通过计算机技术实现内容专家所描述的智能分析目标。其中,字形库和语料库的完善,以及汉字处理技术的提高是高效精准地知识挖掘功能实现的前提,计算机技术的突破是古籍数据库知识挖掘和智能分析的难点。所以,需要内容专家和技术专家加强合作,促进知识全面挖掘。
[1]朱锁玲,包平.我国古籍数字化进展与研究述评[J].图书馆理论与研究,2009(9):18-21.
[2]韦楠华.基于文献计量学的中文古籍数字化研究分析[J].现代情报,2011(10):107-111.
[3]刘伟红.中文古籍数字化的现状与意义[J].图书与情报,2009(4):134-137.
[4]徐清.2001-2005年我国中文古籍数字化研究综述[J].图书情报工作,2006(8):139-142.
[5]张稚鲲,李文林.古籍数字化建设的文献计量学研究[J].图书馆理论与实践,2011(2):45-50.
[6]梁爱民,陈荔京.古籍数字化与共建共享[J].国家图书馆学刊,2012(5):108-112.
[7]赵葆英,苏沫.论古籍数字化资源的协调建设[J].兰台世界,2010(8):52-53.
[8]李明杰,俞优优.中文古籍数字化的主体构成及协作机制初探[J].图书与情报,2010(1):34-44.
[9]魏晓艳.古籍数字化出版中汉字处理问题刍议[J].中国出版,2014(5):50-53.
[10]郭伟玲,戴艳清.论古籍数字化的检索问题[J].图书馆理论与实践,2011(10):13-16.
[11]赵坚.古籍数字化工作刍议[J].大众文艺,2012(10):281-282.
[12]郭明侠.中文古籍数字化建设探究[J].兰台世界,2012(9):289-290.
[13]高娟,刘家真.中国大陆地区估计数字化问题及对策[J].中国图书馆报,2013(7):110-118.
[14]赵瑞生,赵雪云.我国中文古籍数字化管理的问题与对策[J].北京档案,2010(10):37-38.
[15]毛建军.古籍数字化商业运作研究[J].图书馆学研究(理论版), 2011(10):18-22.
[16]王宏.试析我国古籍数字化出版之主体博弈[J].出版发行研究, 2013(9):80-81.
[17]王立清.关于古籍数字化主体的探讨[J].图书馆学研究,2011(4):53-57.
[18]李明杰,俞优优.中文古籍数字化的主体构成及协作机制初探[J].图书与情报,2010(1):34-44.
[19]胡良,林珊.国内重点院校古籍数字化调查分析[J].现代情报, 2011(10):53-55.
[20]李培志.论高校教师在古籍数字化中的角色[J].兰台世界,2012(7):83-84.
[21]张爽.高校图书馆与古籍数字化[J].黑龙江教育学院学报,2012(6):200-202.
[22]康尔琴.公共图书馆古籍数字化的实践与思考[J].图书馆工作与研究,2010(8):8-10.
[23]黄玮夏.古籍文献数字化与数字图书馆建设[J].情报科学,2010(8):1269-1271.
[24]樊普.河南省高校图书馆古籍数字化现状与对策研究[J].山西档案,2013(4):44-46.
[25]贺科伟.我国古籍数字化标准体系建设刍议[J].科技与出版,2011(8):76-79.
[26]姚俊元.关于制定古籍数字化标准的思考[J].图书馆理论与实践,2010(2):50-52.
[27]张文亮.我国古籍数字化标准体系现状调查及优化策略[J].国家图书馆学刊,2015(6):83-88.
[28]刘聪明.古籍数字化实践与探讨[J].现代情报,2011(1):52-55.
[29]熊静.元数据在汉语文古籍数字化中的应用[J].图书与情报,2010(1):89-92.
[30]周琳洁.我国古籍书目数据库建设标准规范探讨[J].图书馆建设, 2010(2):47-50.
[31]张军亮,朱学芳.基于二值图像水印的古籍数字化图像版权保护及实现[J].现代图书情报技术,2010(9):79-83.
[32]符永驰.中医古籍数字化探讨[J].中医杂志,2010(12):1128-1130.
[33]蓝韶清,李宝金,张晓旭.基于信息构建的中医药古籍数字化系统的建立[J].广州中医药大学学报,2012(3):315-317.
[34]程新.中医古籍数字化若干原则思考[J].中国中医药图书情报杂志,2015(1):6-11.
[35]程静,杨朝晖.古籍普查与古籍数字化关于中医古籍数字化建设的探讨[J].图书馆工作与研究,2012(9):110-112.
[36]刘毅.中医古籍数字化与知识挖掘[J].图书馆工作与研究,2010(12):92-94.
[37]任玉兰,李政,梁红,江蓉星.中医古籍数字化与知识服务模式的构建[J].世界科学技术—中医药现代化,2013(1):45-48.
[38]邵平.加强古籍数字化建设及构建回族医药文献数据库的探讨[J].图书馆理论与实践,2011(11):89-90.
[39]李广龙.陕西方志古籍数据化[J].兰台世界,2010(2):31-32.
[40]胡以涛,宋叶.抄写本方志古籍数字化整理与实践[J].图书馆理论与实践,2014(8):101-103.
[41]徐丽华.关于藏文古籍数字化的思考[J].中国藏学,2011(2):153-158.
[42]朱宗晓,王江晴,田微等.少数民族古籍的数字化传播[J].图书馆建设,2013(3):23-26.
[43]苏日娜.蒙古文古籍数字化建设探析[J].图书情报工作,2012增刊(2):112-114.
[44]徐金铸.网络环境下古籍数字化资源信息服务思考[J].兰台世界, 2012(12):34-35.
[45]毛建军.中文古籍数字化合作馆藏维护问题研究[J].图书馆理论与实践,2011(8):4-7.
[46]毛建军.古籍数字化资源导航库的模式选择与资源评估[J].图书馆学研究(理论版),2011(11):57-59
[47]朱成林,袁曦临.中国古籍数字化导读研究[J].图书馆建设,2014(11):50-55.
[48]史丽香.当前几种代表性中文估计数字化产品评析:以用户需要和反馈为依据[J].图书馆工作与研究,2011(1):101-103.
[49]刘家真,陈美.中华古籍数字化的国际合作[J].图书情报知识, 2013(5):46-53.
[50]喻雯虹.古籍数字化资源的共建共享[J].图书馆论坛,2011(3):87-89.
[51]任红辉.天一阁古籍数字化实践及思考[J].四川图书馆学报,2012(1):51-53.
[52]毛建军.韩国古籍数字资源的建设与启示[J].图书馆建设,2012(4):40-42.
[53]毛建军.美国中文古籍数字化概述[J].图书馆学研究,2012(1):19-20.
[54]张玉梅.近代古籍数字化回顾:兼论王世贞数据库[J].社会科学家,2014(11):132-136.
[55]刘聪明.信息技术在古籍数字化实践中的应用[J].兰台世界,2011(5):17-18.
[56]范佳.“数字人文”内涵与古籍数字化的深度开发[J].图书馆学研究,2013(3):29-32.
[57]莫俊.古籍普查与古籍数字化[J].图书馆工作与研究,2010(10):66-68.
[58]吴夏平.古籍数字化与学术异化[J].山西师大学报,2012(5):131-135.
[59]吴夏平.谁在左右学术:论古籍数字化与现代学术进程[J].山西师大学报,2010(3):100-103.
★作者张翠真为青海大学图书馆馆员,研究方向为古籍数字化和阅读推广。作者张琼苑为兰州理工大学技术工程学院辅导员,研究方向阅读推广。
青海大学中青年科研基金项目(2015-Q SY-3)。
G 252.1
A
2016-10-10