我国高等教育资源数字化现状
2014-03-14董晨
文/董晨
我国高等教育资源数字化现状
文/董晨
教育文献信息资源简称教育资源,是指用于教学过程及其评价与管理的教材、阅读材料、参考辅导资料、习题集、考试题、实验室数据、实习项目、教学计划、教学标准与过程规范等。伴随着我国高等教育规模不断扩大,高等教育资源出现不足。对教育资源数字化并通过网络提供服务,是重要的应对措施之一。
当前,我国高等教育资源数字化基本可分为自建、他建和共建共享三种模式。自建模式是指高校图书馆根据本馆自身的需要,本馆自己加工、开发一些具有本馆馆藏资源特色的专题数据库;他建模式是指高校图书馆为了馆藏文献文献信息资源数字化的需要,委托具有一定数字化加工能力的专业机构对馆藏中非数字文献信息资源进行数字化加工而获得文献信息资源的模式;共建共享模式则是指高校图书馆与其合作方共同建设共同享用数字文献信息资源而获得文献信息资源的一种模式。
自建模式
近年来,我国高校图书馆越来越重视自建特色数据库的工作,许多高校图书馆基于馆藏特色、学科特色和地方特色自建了许多数字化资源。一些高校馆完全依靠自身人员、设备独立实现馆藏资源数字化,还有一些高校馆购买成型的图书资源数字化制作系统自行加工。当前该类成型软件国内推出较多,如北京书生科技有限公司的书生全息数字信息制作系统、世纪超星公司的超星PDG制作系统等,功能都较为强大,基本上可以满足图书资源数字化的要求。
高校图书馆越来越重视自建特色数据库的工作,许多高校图书馆基于馆藏特色、学科特色和地方特色自建了许多数字化资源。一些高校馆完全依靠自身人员、设备独立实现馆藏资源数字化,还有一些高校馆购买成型的图书资源数字化制作系统自行加工。
根据2010年CALIS管理中心对全国高校自建特色数据库所做的调查,截至2010年6月7日,共有至少107所高校图书馆已建或在建特色数据库300余个。这些自建库所含资源数量相差较大,少则几十条,多则百万余条记录;在资源类型上以全文、书目文摘、事实数值为主;全文资源所占比例≥50%的数据库占总量的60%;大多数自建库都有自己的著录标准;多数数据库都有支持标准协议的接口,以支持OAI和OpenURL为主;大部分自建库都采用校内/馆内访问的方式来进行版权保护,个别自建库取得了责任者的授权。
为保证自建数字资源工作的顺利进行和规模化发展,一些高校图书馆还建立了自己的资源数字化加工中心。如:北京大学图书馆于2002年5月成立了数字加工部,开始对本馆的古文献、民国图书、学位论文、教学参考书、民国旧报刊等印刷型资源进行数字扫描加工。2008年初,在图书馆数字加工部基础上,由学校支持建成北京大学数字加工中心,图书馆负责其日常运行,是主要面向全校单位和个人提供数字资源加工、存储和发布的公共服务机构。该中心具备数字化加工/采集/制作、数字文献信息资源内容服务、资源共享发布、资源保存等功能,年加工能力可达到50TB。清华大学图书馆于2003年9月成立了“贤志资源数字化中心”,其建设目标是生产和管理高质量的数字化对象包括文本、图像、声频、视频信息,以支持各个数字化项目的建设。该中心成立后,对清华大学图书馆大量的古籍、近代文献以及中外文图书、教学参考书及参考资料等进行了数字化加工。
自建模式的优点是高校图书馆可以了解整个资源数字化建设流程,各项相关研发如元数据方案的制定、著录系统的开发、电子书展示模式、OCR技术的应用等等都可以得到实践和检验,也可以得到优化和完善;可以为将来数字馆藏的发展提供在生产加工、技术研究、标准制定、成本分析等方面的经验;可以培养本馆的数字资源建设队伍;对于一些珍本、善本,本地数字化有利于文献的保护与安全。缺点是图书馆管理大量临时人员的经验不足,容易效率低下。
总体来看,全国高校图书馆采用自建模式进行资源数字化,目前已在数据库数量、资源总量、标准规范等方面取得了一定的成就。
他建模式
面对浩繁的纸质文献文献信息资源和特色化馆藏需要数字化的紧迫性任务,一些高校图书馆由于自身在技术、人力、设备、资金等方面的欠缺,往往会选择他建模式,委托具有一定数字化加工能力的专业机构对馆藏中非数字文献信息资源进行数字化加工。当前国内已建立多家有一定规模的此类企业,著名的有超星公司、北京书同文数字化技术公司等,都提供该种委托加工的业务服务。
超星数字图书馆成立于1993年,长期致力于纸张图文资料数字化技术开发及相关应用与推广,是国内专业的数字图书馆解决方案提供商和数字图书资源提供商。超星经过多年的研发,已经拥有了成熟的整套图书馆数字化解决方案,被公认为数字图书馆行业中的第一品牌。超星依托雄厚的资源和技术,不仅迅速占领了国内绝大部分的图书馆市场,也已经跻身于世界图书馆数字化进程中的领跑者行列。1998年,超星公司组建了国内第一条大规模数字化扫描生产线,在北京成立了数字化加工中心,加工能力达到每天20万页。经过一年多的发展,超星公司在全国各地建立了五个数字化加工中心,在北京、成都、福州、长沙、郑州等地都有超星的数字化加工基地。通过10多年的努力,超星已经数字化近300多家图书馆馆藏,授权签约作者达34多万位,到目前,超星已经拥有中文电子图书馆藏100万种,囊括中图法全部22个大类,并且拥有国内最大的图书资料数字化生产线,年加工能力超过20万种图书以上。强大的制作能力与先进的技术保证超星数字资源的不断增加与更新,并能够满足众多单位进行大规模资料数字化加工的需求。目前超星与国内100多家专业图书馆、300多出版社,还有新华书店等建立了长期的合作伙伴关系,进行图书文献数字化加工工作。如北京地区,80%以上的高校图书馆与超星进行图书数字加工的合作。
书同文公司成立于1997年,是北京市科委认证的高科技企业、获软件企业认证,持有因特网信息服务业务经营许可证,在国家版权局登记有UniHanOCR、全文检索、数码翰林和彩书引擎在内的十七项拥有自主知识产权的软件。书同文公司承接各种大型现代书籍、档案资料及古籍的中文数字化加工服务,加工对象可以是纸或缩微载体的简繁文字横排、竖排、印刷本或手抄本,甚至是日文及英文数字的内容。它采用自主开发的“数码翰林”,经过流水线方式的OCR汉字识别及多种交叉联机校对操作管理,将海量信息制作成格式化中文编码数据。可以根据客户的需要,实现从内容数字化、编目直至信息发布一揽子的数字化工具定制开发,指导客户使用和管理,大大提高客户数字化工程的效率和质量。对于拥有珍贵文史价值的古籍资料单位,可以按客户的需要,提供所需的古籍数据库或电子出版物的委托开发与制作,并可配备汉字关联全文检索引擎和联机字典。根据客户所在行业特点,提供自建专题的资料库、电子出版物或数字图书馆项目建设、产品及辅助工具的委托开发与制作。成品可以是网络版、因特网版等多种形式。
其他还有如点通公司、青苹果公司等,也承接大量的数字化加工委托任务。
通过他建模式,高校图书馆可以依靠数字化加工公司在文献数字化方面的优势以及在纸质文献数字化扫描方面积累的丰富经验,获得优质的专业方案、服务及高质量加工效果。随着数字化加工市场日趋成熟,数字化加工公司数量不断增加,纷纷推出全方位、规模化、流水线式的数字化加工服务, 这也为高校图书馆采用他建模式进行文献文献信息资源数字化建设提供了可靠的保证和奠定了坚实的社会基础。
共建共享模式
目前我国高校图书馆采用共建共享模式开展资源数字化,主要是通过参加CALIS和CADAL两大项目来进行的。
CALIS主要是通过组织高校图书馆开展一系列特色数据库建设来实现数字资源的共建共享,迄今参加CALIS项目建设和获取CALIS服务的成员馆已超过500家。如:约80家高校图书馆签订了参加CALIS高校学位论文库项目建设的协议,目前学位论文库已经积累了大约42万条学位论文文摘;共有50余所高校图书馆参加CALIS教学参考信息库项目的共享建设,教学参考信息库中的教参信息达5万余条。在CALIS“九五”建设期间,共建成25个特色数据库;“十五”建设结束时,共有65个项目真正成为CALIS的特色数据库。
2010年9月20日,CALIS三期项目建设正式启动。三期项目建设的目标是全面挖掘、整合国内高校图书馆以及其它各级各类文献信息服务机构的资源和服务,有重点的整合国际相关机构的各类文献信息资源与服务,提高高校图书馆文献资源的总体保障率,提升高校图书馆现代化服务能力。CALIS三期将采用“预研一批、试点一批、推广一批”的思路,在充分挖掘大型图书馆的研究能力与服务能力的同时,引导中小型图书馆广泛参与,从而缩小“211”院校与国际一流高校图书馆的差距,缩小普通院校与“211”院校图书馆的差距,缩小西部欠发达地区与发达地区的差距,全面提升我国高校图书馆整体信息服务水平。
CADAL一期建设由浙江大学和中国科学院研究生院牵头,北京大学、清华大学、复旦大学、南京大学等16个高校参与建设。建成17个扫描加工中心,拥有各类扫描仪150余台,微机400余台,月加工能力1500万页以上。扫描加工来自16个参建单位的100余万册中英文图书资料,资源类型包括古籍、民国书刊、中文现代图书、中文学位论文、英文图书等,形成了几种具有很高使用价值与开发潜力的特色资源集合,如:
数字化民国图书132,007册,民国期刊138,154册(期),以及民国时期的学位论文1943篇,基本覆盖了全国高校馆藏的民国资源,形成目前全世界最大的民国资源库;
结合浙江大学张涌泉教授的研究和藏书,数字化敦煌相关图书1,423册,缩微胶片165,399拍,内容涵盖国家图书馆藏、英藏、法藏、俄藏以及日藏的所有已整理敦煌文献;
表1 文献信息资源数字化模式比较
数字化了《四库全书》、《四库荟要》、《续修四库全书》等四库系列,《中华大藏经》、《大正大藏经》、《频伽大藏经》、《宋碛砂藏经》等佛藏系列,《中华道藏》、《续道藏》、《正统道藏》等道藏系列的若干大型丛书,大致完成了包含儒、道、佛相关文献的中文传统经典文献的数字化;
扫描《甲骨文全编》、《甲骨文编》、《金文编》等一系列出土文献汇编材料,通过文字学专家参与释读,利用UniCode编码有效展示,完成了相关注释文字共193,596条,是研究甲骨和金文的重要资源和参考;
数字化中文现代图书约41万册,时间跨度从1949到2000年,其中人文社科相关文献占65%~70%,这部分资源可以按地域切分,提炼成如《浙江文献集成·现代编》的特色库,也可以按时间切分,完成如《文革时期文献》这样的资源库。
CADAL二期建设于2010年4月1日正式启动,计划在一期的基础上完成150万册(件)数字资源的扫描加工,资源类型包括:古籍、民国文献、中文现代图书、中文现代报纸、外文图书、外文科技报告、地方文史资料、图形图像、声像资料等,同时将建立分布式数据中心和服务体系,实现数据安全和全球服务。目前参加二期项目建设的高校图书馆已达70家。
在CALIS与CADAL这两大数字资源共建共享项目的组织与带动下,国内高校图书馆资源数字化建设迅速发展并逐步向加强资源整合与扩大共享范围迈进。从某种意义上说,基于CALIS与CADAL项目建设的共建共享模式是目前推动我国高等教育资源数字化建设的最重要的模式。
综上所述,自建、他建和共建共享三种建设模式构成了目前我国高等教育资源数字化的现状,这三种模式各有特点,互相补充,共同推动了我国高等教育资源数字化的发展。
(作者单位为浙江大学图书与信息中心)