APP下载

关于地方文库数据化建设的设想

2020-11-29夏素玲

科技传播 2020年10期
关键词:文库检索图书

夏素玲

早在20世纪90年代,我国已出现《荆楚文库》《岭南文库》——第一批地方文库的先行者。随着中共中央办公厅、国务院办公厅印发的《关于实施中华优秀传统文化传承发展工程的意见》的颁布,地方文化工程大批涌现。这些工程是经过出版社或出版集团经过大量投入和多年经营,保存、记录和积累了大量有关地方文化内容资源的成果,是研究地方文化的知识宝库。而在大数据的浪潮下,地方文库纷纷提出数据化建设的目标。

《湖湘文库》2017年完成数字化再版,以网页版和定制iPad形式展现。《广州大典》2019年实现了广州大典数据库实现全文在线浏览,在广州图书馆网站上免费对公众开放使用。《浙江文丛》目前同步推出网络版,以单本电子书销售的形式呈现。《江苏文库》2019年10月随着第二批成果的发布,宣布数据库同步上市。

地方文库数据化工程使知识在更大范围、更大的空间内更方便地使用,让原本束之高阁、的传统文献和学术成果拥有了更强大、更广泛、更长久的生命力和影响力。在现行的数字化技术支持下,我们可以随时随地通过手机、平板电脑、阅读器等多种终端阅读去激活和使用,几乎不受任何限制。

1 转录为电子数据

数字化的第一阶段是建立数据库,即将已出版或将出版的纸质图书内容,以数字化形式进行录入,建立数据库。这项工作看似简单,实现起来却并不容易。

就学术论著而言,对于一开始便有数字化计划的图书,进行数字化出版的规范化要求相对简单。但这“简单”的程序也复杂。据原湖南省新闻出版局副局长、编委会常务副主任张光华介绍,《湖湘文库》在转录时,“质检环节包括,加工方质检、天闻数媒质检、天闻数媒复检3个环节,3个环节均通过后方能入库,若天闻数媒质检发现文字错误率高于万分之一,则发回加工方重新质检,质检完成后发回天闻数媒,若再次质检文字错误率高于万分之一,则该书由天闻进行全文质检”。而对于时间久远的旧版书、绝版书,它们甚至没有电子排版的文件,所以这一类图书必须重新走一遍录入、排版、文字编校等传统出版流程,然后再新增程序化编辑加工。一言蔽之,旧书当新书重头做。

地方文献的难度比起学术论著就更高了。影印古籍,源文件多为图片,一般只能做到书名、作者和关键词检索,无法实现全文任意检索和跨文本检索,数据库检索功能受到极大的限制,难以体现大数据的优势。古籍整理图书,其文本处理难度最高。如繁简的规范转换,生僻字、通假字、造字等对字库的要求,亦称异名造成模糊词辨析的难度,校注形式的文本多样化等,都是普遍而又大量存在,并且无法绕开的拦路虎。对搜索引擎的智能化提出了非常专业的要求。

2 建立数据库模型,为用户提供多元化服务

在文本完成处理录入后,接下来就是数据库模型的设计。它必须完成两大任务,一是强大的搜索功能,一是智能化的筛选功能。每一个数据库都具备搜索功能,但搜索的能力却参差不齐。地方文库的数据是以书为单位录入,那么到搜索阶段,是只以书为单位,还是以整个文库为单位,甚至是实现和其他数据库的跨数据搜索功能?这在搜索力度和使用效果、效率上都相差甚远。此外,个别地方文库还同时收录地方文献,数据库工程技术的要求就需同时面对上述所有的困难了。

在这方面,我们欣喜地看见中华书局的《中华经典古籍库》已走在前面,并取得了很多成功的经验。它实现了繁体字、简体字、异体字关联检索,还增加了人名异称的关联从而实现了更精准的人物检索。在全文检索这块,它对基本的全文检索提供了一些检索范围,比如说正文、校注、书名、标题等,按照范围检索,让检索的结果更加准确。加上其额外提供的自动生成出处和纪年、换算、检索、浏览历史、书签等辅助功能,就笔者使用感受而言,确实在现有的古籍数据库中脱颖而出。当然也会难免存在一些问题,但瑕不掩瑜,它无疑为地方文库的建设提供了一个极具参考意义的建设模板。

强大的数据搜索功能和智能化的筛选功能极大地为学者查阅参考资料提供了方便,从而大大为学术研究提速前行,有力推动地方文化学术研究的发展。同时我们也应该看到,像《中华经典古籍库》的数据库项目建设背后,是有强而有力的人力、物力、技术的支撑。有国家层面的经济和政策上的支持,有中华书局和其他合作出版社几十年的内容积累,有巨大的前期投入和人才的保障。即便如此,使用者仍需支付较高的费用,读者门槛高。这方面,像《广州大典》在广州图书馆向读者免费公开使用的做法,无疑能惠及更多读者,更接近传承和弘扬中国优秀传统文化的目标。

3 延伸数据库经济价值,扩大边际利益

一是在内容数据库的基础上,建立地方文化专家库,开设地方文化线上学院。作者是已出版图书和将出版图书的内容提供者,更是内容延伸发展的支撑人,为数据化延伸发展提供可能。地方文库作者大部分为高等学校教师、研究机构的学术研究人员,他们的知识传授和研究都局限于课堂和机构内,传达时间和范围都有很大限制。地方文化学院是一个走出传统课堂和研究机构的专业授课线上平台,主要业务是根据地方文库框架搭建课程板块,邀请作者线上开授公益讲座、收费专业课程,搭建完整的地方文化课程体系。每个板块下,设置学术动态信息与地方高校、图书馆、研究机构作信息对接;开设学术论坛,给予自由开放的学术讨论空间。另外,开设有偿的专家学者一对一学术指导,让使用者能自由、灵活地与专家学者直接对话、沟通,可谓享受高校研究生的同等待遇。

地方文化学院线上平台第一任务是最大化挖掘作者资源的商业价值,扩展出版社和作者在纸质图书、电子图书以外的多元化经营,建立互赢互利、共同成长的友好关系,有利于作者队伍的壮大和长足发展。第二任务是把原来每一本书的目标读者群统合起来,建立稳定的信息输送渠道,用更多元化的方式来创造和满足读者的需求,从而创造出地方文库出版更大的规模和长远的发展。地方文化学院线上平台对出版机构打破传统出版的区域限制,把传统出版的内容资源和作者资源作最大限度地跨领域扩展和媒体融合,同时把原有读者切换成使用者,用更多元化的手段方式来吸引更多使用者聚合在线上平台,从而反哺传统出版行业的图书销售上来。

二是嫁接在数据库内的精准营销。新的内容提供方式能吸引和凝聚更多的使用者,让读者群体清晰,营销变得精确,同时提出更多样化多手段的要求。显性的营销,如在专家库的专家介绍下罗列专家的已出专著,各个板块下罗列经典书目,邀请专家打造专业推荐书单、私家书单,结合学术信息动态链接相关图书,随时发布书评和每周图书点击榜、口碑榜等。隐形的营销,以链接形式出现。如使用数据库搜索时能罗列相关图书的推荐,有相同关注需求的其他用户所关注的图书信息,专家授课和讲座时提及的书目弹出链接,等等。

三是为用户提供智能化的私人服务。根据用户填写的需求调查表、搜索过的内容关键词和阅读使用数据,计算用户需求数据,自动生成私人化的课程和阅读方案,推荐相应课程、图书和专家。并在使用过程中不断修正需求方向,调整推荐方案,成为用户学习和研究地方文化的专业向导,加大用户的粘连度和接受度。从数据当中分析用户的购买、阅读等行为,能帮助出版社开发更对口的选题项目,制定更精准的营销策略。

4 结语

总体而言,地方文库数据化建设的初级目标是让地方文库的文献和论著变为电子数据,激活和延长每本图书的生命。中级目标是围绕地方文库的图书内容和作者资源,为用户提供更多元化的服务,扩大用户需求和使用群体。高级目标是帮助传统出版业与互联网、新媒体、大数据相结合,与高新技术手段来完成出版行业时代变革的华丽转身。这过程虽深度依赖技术,但内容供应才是出版行业最根本和最擅长的工作,更是数据化建设的灵魂所在。内容提供商终究掌握着出版数据建设的主动权。我们拭目以待,得到政府大力支持的地方文库在数据化的道路上实现社会效益和经济效益的双丰收。

猜你喜欢

文库检索图书
专家文库
优秀传统文化启蒙文库
图书推荐
关于推荐《当代诗坛百家文库》入选诗家的启事
2019年第4-6期便捷检索目录
欢迎来到图书借阅角
专家文库
班里有个图书角
专利检索中“语义”的表现
国际标准检索