APP下载

红色文献数据库的建设现状及优化策略研究*

2022-02-27李朋真蔡迎春

高校图书馆工作 2022年1期
关键词:全文检索文献数据库检索

●李朋真 严 丹 蔡迎春

(上海外国语大学 上海 201620)

习近平总书记强调:“要把红色资源利用好、把红色传统发扬好、把红色基因传承好。”在中国共产党的百年历史进程中,产生并留下了大量珍贵的红色文献,挖掘、整理、开发、利用红色文献具有重要的历史价值和现实意义。如何让布满历史尘埃的红色文献得以更好保存并在新时代焕发新生?数字化、大数据是路径之一[1]。开展红色文献数据库建设,打造集文献资料保存、文化承载传播、教育科研利用于一体的红色文献大数据平台,对红色文献进行全文数字化,是使红色文献再获新生的必要手段和有效途径,便于研究者对红色文献的内容进行全方位的深入挖掘、整理和利用。

当前红色文献数据库的建设现状如何,收录了哪些类型的文献资源,平台功能具有哪些优势和不足,后续应当如何进一步加强建设和不断完善,都是本文拟解决的主要问题。

1 红色文献的内涵界定

红色文献的概念有广义与狭义之分。广义的概念从文献的内容及其开放性角度,把中国革命历史上有关资料及中国共产党党政领导人的著作统称为红色文献。狭义概念的红色文献则明确限定了文献的出版时间、出版发行地、出版发行机构、载体形式及其主要内容,通常主要指1921年7月中国共产党成立之日起至1949年10月中华人民共和国成立之前,由中国共产党机关或各根据地所出版、发行、制作的各种书籍报刊以及标语、印章、文书、证件等文献资料[2]。

但也有研究者认为,毛泽东主席在1942年写的《如何研究中共党史》中指出研究党史只从1921年起还不能说明问题,要有前面的历史说明共产党的前身,从辛亥革命说起,从五四运动说起可能更好。因此,红色文献的时间上限也可以追溯到辛亥革命前后[3],而时间下限基本也是在1949年新中国成立前后。也有研究者指出,关于对红色文献的界定,早些年都称为革命文献。近年来,红色文献用得较多,但这一概念界定现在还不清晰,所以应从源头加强对红色文献的界定和管理[4]。

总体而言,红色文献属于历史文献、革命文献的范畴。笔者认为,红色文献的时间范畴界定在从1915年新文化运动开始到1949年新中国成立是基本合适的,这也是目前较多红色文献数据库建设中所收录文献的主要时间范围。从红色文献目录的编制现状可以发现,红色文献的目录整理工作各自为政、比较分散,收录范围、收录标准和著录标准很不统一,各种目录间的交叉、重复现象严重,对海外及民间收藏较为忽视,红色文献数据库建设更是处于起步阶段[2]。

2 代表性红色文献数据库的建设现状

在数据库建设方面,截至2021年4月底,以发布红色文献为主的数据库总计有16个[5]。其中延安大学于2016年启动“延安时期红色文献数字研究平台”,预期整合延安时期的图书、报刊档案、图片和音视频数字资源,并嵌入大数据统计分析功能,打造一个集红色文献保护、传承、传播、教育、教学、科研于一体的红色文献大数据平台。国家图书馆出版社打造建设了“中国历史文献总库”的一个专题库“红色文献数据库”,并于2020年末基本建成上线。上海图书馆于2019年着手建设“革命(红色)文献服务平台”,已初步完成红色文献相关书目8 000余种。北京爱如生数字化技术研究中心研制的“红色历史文献库”于2014年启动,计划分四批陆续出版,目前已上线首批资源含红色报纸687号、红色名刊50种。这些都是当前红色文献数据库的代表性平台,具有典型性和综合性,同时也各具特色和优势。以下就这四大红色文献数据库分别进行介绍和对比分析。

2.1 爱如生“红色历史文献库”

爱如生“红色历史文献库”是汇辑中国共产党领导的中国革命历史文献的全文检索版大型数据库,分为红色大报、红色名刊、红色著作和红色记实四编,收录1915年新文化运动兴起至1949年全国解放期间,中国共产党及外围组织公开和秘密出版的各类报纸、杂志,中国共产党领导人、共产党员以及党外、国外友好人士公开发表的各类著作、纪实文章等[6]。数据库第1辑共上线2种报纸和50种期刊文献,收录中国共产党中央和革命根据地党政军创办的机关报刊;新文化运动和建党初期的重要报刊;大革命时期和抗日战争时期国共合作的重要报刊;左联等外围革命组织出版的重要报刊。各库初印原件或权威影本,务求忠实于原文。总计影像约96余万页,录文约6 800余万字,数据总量20G。

2.2 国家图书馆出版社“红色文献数据库”

“红色文献数据库”是“中国历史文献总库”的一个专题库,由国家图书馆出版社开发完成,文献来源以国家图书馆的馆藏为主,广泛整合海内外收藏的1949年前的红色“书报刊”文献,并进行系统发布。数据库包含红色图书、红色期刊、红色报纸三大版块,其中一期上线的红色图书6 300余种,红色期刊100余种,红色报纸50余种[7]。

图书版块收录红色图书6 300余种,包含马克思主义著述的早期经典译本,马克思主义传播的经典著述,毛泽东《论持久战》的各种版本。期刊版块收录红色期刊近100余种,既包括延安出版的《共产党人》《北方红旗》等刊物,也包括“左联”等革命团体在国统区出版的进步刊物,反映了从中国共产党创建到新中国成立的全过程。报纸库收录红色报纸50余种,既包括《解放日报》《新华日报》等知名报纸,也包括各解放区、根据地出版的稀见报纸,史料价值极高。

2.3 上海图书馆“革命(红色)文献服务平台”

“革命(红色)文献服务平台”是上海图书馆为了开展上海革命历史文献的数字化工作、文献整理研究、文献服务,最终形成可容纳不同机构的、多种文献类型的革命(红色)文献,同时为普通大众和研究者在互联网上提供文献服务而建设的红色文献服务平台。目前开放了红色文献相关书目8 000余种,是一个实现跨平台、多终端访问和具备统一的检索及展示界面的资源开放服务平台,并且可与数字资源长期保存系统进行数据交互,是一个可进行全文检索、高级检索等多搜索功能的开放数字资源展示服务平台[8]。

2.4 延安大学“延安时期红色文献数字研究平台”

延安大学系统地搜集整理了延安时期的红色文献,将延安革命纪念馆、陕西党史研究室、中共中央文献研究室珍藏的许多延安时期的历史文献进行整理和汇总[9],2016年启动了“延安时期红色文献数字研究平台”建设项目。项目一期重点对《红色中华》《新中华报》《解放日报》三种党中央机关报纸进行了全文数字化,于2018年底完成了约8 500多万字、11 000多个版面的录入、校对和分类标引工作,建成了“延安时期中共中央机关报全文数据库”。该库采用图文对照的数字版式,使报纸原貌和文本得到了完美的展示,也使报纸的阅读和考证变得非常方便。同时还可以从全文、题名、作者、关键词等多个维度检索报纸内容,为红色资源的挖掘和整理提供了平台[10]。

3 红色文献数据库的对比分析及存在问题

上述红色文献数据库在收录内容、界面设计、平台功能等各方面各具特色、各有优势,同时也存在各自的不足。通过对其进行对比分析,如表1所示,可以发现问题,进行取长补短和优势互补,促成共建共享与协同完善。

表1 四大红色文献数据库对比分析

3.1 红色文献的分类导航问题

在数据库框架设计中,对红色文献如何进行分类导航是一个比较重要的问题,也是难点所在。根据红色文献载体类型的不同,针对期刊、报纸、图书的特性,目前的几个红色文献数据库均采用了多元化的分类方式,从不同维度来设计分类导航,从而在最大程度上便于用户利用。但同时也会产生分类标准不统一、分类维度过多、分类不科学等问题。

(1)按期刊的内容性质分类。在爱如生“红色历史文献库”中的“红色名刊”版块(见图1)中,将50种期刊按照其内容性质分为了新文化运动刊物、共产党机关刊物、国共合作刊物、左翼进步刊物、抗日战争刊物等五大类。每一类别中的期刊再按照首发时间进行排序罗列,从而比较清晰地划分了这些刊物,易于使用者根据研究方向和领域来快速查询所需期刊。这种方式取决于数据库设计和开发者对于红色文献的内容分类和领域属性有较为深入的研究和认知,并有能力进行较为科学合理的划分,这种方式相对而言具有一定的难度。

图1 爱如生“红色历史文献库”红色名刊分类

(2)按期刊的发行时期分类。国家图书馆出版社“红色文献数据库”(见图2)中的期刊,采用的是按照发行的历史时期进行划分的分类方式,将其分为建党前后、大革命时期、土地革命时期、抗日战争时期、解放战争时期等5个时期,基本上是属于按照时间线的分类,对于研究特定历史时期的研究者而言具有较大的便利性和导航价值。

图2 “红色文献数据库”期刊分类

(3)按报纸的发行区域分类。国家图书馆出版社“红色文献数据库”中的报纸,主要采用了按照区域导航(见图3)和按照拼音导航两种模式。其中按区域导航比较适合于报纸这种类型的文献,因为报纸数量众多,发行地区广泛,涵盖全国多个省市,对于按地区来研究红色报纸的使用者来说是一种比较好的导航途径。

图3 “红色文献数据库”报纸按区域导航

(4)按图书的中图法分类。对于红色文献中的图书而言,其主题涉及的领域较为宽泛,政治、经济、军事、文化、教育、文学、艺术等各个领域都会涵盖,因而,按照中图分类法对其进行分类导航不失为一种较为合理的方式。国家图书馆出版社“红色文献数据库”中的红色图书即采用了这一分类模式。

3.2 红色文献的系统收录问题

上述几种具有代表性的红色文献数据库收录的文献类型和范围各有不同,但也有部分交叉重复现象,且有的数据库收录不够全面和系统。其中比较典型的案例是《红色中华》中报纸的历史变迁及收录情况,经历了从《红色中华》到《新中华报》再到《解放日报》的较为复杂的发行变化[12]。

爱如生“红色历史文献库”第一辑收录了《红色中华》和《新中华报》这两种报纸,涵盖从1931年12月11日创刊至1941年5月15日停刊共687号。但爱如生收录的这两份报纸存在缺漏现象,且其后续与《今日新闻》合并复刊的《解放日报》也没有进一步收录,在收录体系上欠完整。而延安大学开发的“延安时期红色文献数字研究平台”项目一期则完整收录了《红色中华》《新中华报》《解放日报》三种党中央机关报的数字化全文,其收录更为全面和系统,但同时与爱如生数据库的资源存在着交叉重叠现象和重复建设问题,两大平台理应本着优势互补和资源共享的态度,共同建设数据库,避免重复投入。

3.3 红色文献的多元检索路径

(1)图书、期刊、报纸三种类型文献的常规检索方式。以国家图书馆出版社的红色文献数据库为例,在图书检索中,所有图书都实现了全文检索。全文检索采用检索结果预览,点击后在图像中精确定位的方式。在期刊检索中,期刊提供按刊检索、按篇检索、高级检索、全文检索四种维度的检索。报纸检索中,报纸可实现篇目检索、热区导航、篇目定位和下载,部分可全文检索,全文检索以篇目为单位,可实现检索结果的预览和命中词的高亮显示。

由于支持全文检索,在国家图书馆出版社的红色文献数据库中可以使用“书目检索”的方式进行关键词检索。在这种检索方式下,读者通过输入任意相关词汇即可进行检索,也可以在检索时规定是否使用同义词、是否进行模糊匹配等。任意词检索的结果范围较大,精准度较低,适合没有明确的检索目标,仅有大概需求方向的读者使用。读者也可以使用“按篇检索”的方式进行革命文献的检索。在此模式下,需要输入文献名进行检索,与“书目检索”类似,检索时也可以规定是否使用同义词等扩大或缩小检索范围。“按篇检索”所得出的结果较为精准,但对检索目标信息的要求较高,适合目标明确的读者。若上述两种检索模式无法满足需求,亦可使用“高级(复合)检索”模式,在此模式下,可以使用逻辑检索语言进行检索,也可输入各种限定信息如作者、版次、版名、日期、卷期、栏目等扩大或缩小检索范围。同时,还可通过类型勾选的方式确定资源类型以及检索范围,从而使结果更精确。同样的,此模式也可以选择是否使用同义词等。

(2)个性化的检索方式及揭示形式。本文研究的几种红色文献数据库分别提供了不同的个性化检索模式,以上海图书馆“革命(红色)文献服务平台”为例,该平台创新地采用了“地图检索模式”(见图4)。用户可以使用鼠标在地图中划出区域,系统就会在该区域内检索该区域内产出的文献或者历史人物信息。该功能是以JSON数据格式化进行了数字人文可视化处理,通过RDF数据的JSON处理,即可利用JavaScript语言进行调用,实现各种操作。在本例中,使用OpenLayers就可以实现文献的时空分布在地图上的展示[13]。

图4 “革命(红色)文献服务平台”地图检索模式

上海图书馆“革命(红色)文献服务平台”也使用了中共组织史机构图表的方式进行历史人物的检索(见图5),该模式可以快速通过历史时期—组织机构的方式,二维定位需要检索的历史人物,使用该模式检索的观感比一般检索模式更加清晰,检索过程也是知识获取的一部分。这种检索方式需要庞大而详细的人物社会关系知识图谱作为数据支撑。上海图书馆凭借其在数字人文方向的研究而建立的数据基础,以CBDB关联数据平台为辅助[14],实现了中共组织史人物关系图谱的建立,从而可以让读者以全新的方式了解红色历史人物。根据历史时期跨度,这些历史人物被划分为党的创建和大革命时期(1921.7—1927.7)、土地革命战争时期(1927.8—1937.7)、抗日战争时期(1937.7—1945.8)、全国解放战争时期(1945.8—1949.9)。每个时期内以不同的组织机构如中央组织机构、中央派出机构等再次进行细分,可以清晰地查明每个历史时期不同机构的革命历史人物。

图5 “革命(红色)文献服务平台”中共组织史机构图表

(3)红色文献的文字识别与全文检索。红色文献使用的马兰纸、自制油墨,导致其印刷质量非常差,字迹模糊难辨。同时,手工刻版、竖排版、繁简交叉等因素,都给数字化过程中的OCR文字识别增加了极大的难度,使得数据库中很多红色文献的全文检索成为一个难题。要实现文献的全文检索,需要克服数字化过程中的诸多技术难关,对每个页面、每篇文献上的文字识别需要进行仔细校对,对无法识别的扫描图像需要进行人工文字录入,并对每个篇目进行分类标引等,才能为全文检索打下坚实的基础。

上述几种红色文献数据库基本上实现了大多数红色文献的全文检索,但仍有不少文献只能实现篇目层级的检索。如国家图书馆出版社“红色文献数据库”中的部分图书,尚不能进行全文检索(见图6),但简体字与繁体字互相识别与检索问题则基本得以实现。

图6 “红色文献数据库” 书籍详情页(暂不支持书内全文检索)

4 红色文献数据库建设的优化策略

针对以上分析发现的数据库之间资源交叉和重复建设问题、红色文献收录不够系统和完整问题、全文检索功能尚不完善等问题,笔者尝试提出如下优化措施和改进建议,以期为红色文献数据库的进一步开发和建设提供借鉴和指导。

4.1 加强资源共享,推进平台建设融合与互补,避免重复建设和各自为政

当前的红色文献数据库开发存在各自为政、重复建设的问题,如上述几种数据库中的《红色中华》《新中华报》《解放日报》资源就交叉重复较为严重,这在很大程度上造成了资源和人力投入的极大浪费。为此,数据库建设和平台开发者之间应当加强沟通,互通有无,进行优势互补和共建共享,对平台之间交叉重复的文献资源进行梳理和整合,实现查漏补缺、共同完善。在此基础上,各平台还可以考虑构建联合平台,协同建设,形成合力,聚合各家所长,发挥协作精神,打造一个资源涵盖最全面、功能设计最完善的一站式权威平台,从而在红色文献数据库领域占据主导地位。

4.2 纸电同步发掘,结合纸质影印本,协同开发红色文献数字化资源

红色文献的整理除了数据库建设外,纸质影印本的出版发行也是一条重要路径。两者在资源收藏上也存在交叉重复和互相补充的问题,亟待协同开发和建设,如可以利用《红藏:进步期刊总汇(1915— 1949)》(以下简称《红藏》)纸本资源开发数字化资源数据库。《红藏》系统整理、影印了1915年至1949年间中共中央及其各级机构、组织、团体主办或在其领导下创办的《新青年》《每周评论》《党的建设》《红色中华》等151种以党报党刊为核心的进步报刊,共计428册,3亿余字,是系统研究中共党史、中国革命史及中国近现代史的珍贵历史资料。

对比爱如生数据库和《红藏》所收录的报刊目录,可见其具有很大的交叉重复性。除了重叠部分的文献外,《红藏》还有很多爱如生等数据库均未收录的期刊资源将近100种,亟待进行数字化加工,将其纳入数据库建设的范畴中。纸本书籍出版社应当加强与数据库开发方的协同合作,在影印出版纸质红色文献的同时,考虑将其版权让渡给数据库进行后续的数字化处理,使其发挥更大的效用。

4.3 优化全文检索,在平台构建中融入数字人文研究的理念、方法和工具

要深入挖掘和利用红色文献资源,提供优质的文字识别和全文检索功能是核心要务,唯此才能实现对文献的全方位检索和数字化利用。同时,这也是进一步开展数字人文研究的重要基础。因此,需要投入更多的人力物力,攻克数字化技术难关,进一步改善红色文献的文字识别和全文检索问题。在此基础上,需要融入数字人文研究的理念、方法和工具,在平台的界面设计、功能设置、内容揭示、效果呈现等方面,结合大数据技术,运用数字人文的方式予以展现。如可以通过可视化工具展示文献之间的相互关联、通过数字人文地图呈现文献的地区分布、利用思维导图展示组织架构等,为研究者利用红色文献开展中共党史的数字人文研究奠定坚实的基础。

4.4 寻求多元合作,在图书、期刊、报纸的基础上丰富资源种类

本文列举的几种红色文献数据库平台收录的资源类型,主要包括图书、期刊和报纸等三大类文献,这是最主要、体量最大,也是最符合图书馆传统文献资源的几大类型。但就红色文献的深入研究而言,仅这几类还远远不够,还有大量其他类型的资源需要扩展和丰富,如纪录片、音视频资料、档案文件、历史照片、文物实物(如毛主席像章)等。为此,高校、图书馆、数据库公司等机构可以寻求多元合作,与革命纪念馆、历史档案馆、博物馆、民间收藏机构等多方开展协同建设,挖掘多种类型的红色资源,进而展开梳理、整合、编目和揭示,这样就可以不断扩充和丰富红色文献的资源类型,增加平台的全面性和系统性,展现历史感和厚重感,为多渠道挖掘和利用红色文献和历史资料开展数字人文研究创设更多资源环境。

猜你喜欢

全文检索文献数据库检索
《感染、炎症、修复》杂志检索数据库
《感染、炎症、修复》杂志检索数据库
瑞典专利数据库的检索技巧
一种基于Python的音乐检索方法的研究
基于用户心智模型的文献数据库评价研究
论我国学术文献数据库的质量调控
Oracle数据库全文检索性能研究
专利检索中“语义”的表现
全文检索引擎Lucene系统模型与应用研究
全文检索引擎技术在电子病历中的应用