论大学智慧图书馆文学数据库建构的策略
2022-07-01宁夏师范学院图书馆张春丽
文/宁夏师范学院图书馆 张春丽
大学创新人才的培养,除了要发挥课堂教学的优势以外,还要重视以人工智能技术为导向的大学智慧图书馆对创新人才培养的作用。智慧图书馆产生影响力的主要因素在于馆内数据库的建构规模和质量,丁敬达和朱梦月曾对我国大学图书馆数据库建设情况进行过评估,认为我国大学智慧图书馆数据库建设滞后,还处于低水平发展的状态。因而,未来大学智慧图书馆数据库建设有很大的发展前景。
影响大学智慧图书馆数据库建设的因素包括信息技术和学科馆员两个方面。信息技术层面主要包括人工智能技术与计算机技术两个方面,人工智能技术与计算机技术融合代表了未来信息技术发展的新方向,也是智慧图书馆数据库建设的核心技术因素。在同等信息技术条件下,学科馆员是决定图书馆数据库建设水平的决定性因素。邓泽宇和王旭认为,学科馆员的素质主要表现为科研素质、数据获取等方面,指出了学科馆员在大学图书馆发展中的重要性。上述两个方面中科研素质影响数据库的总体设计和布局规划,而数据获取能力决定学科馆员对人工智能技术与计算机技术所蕴含的无限潜能的挖掘程度。总之,在大学智慧图书馆文学数据库建构的过程中,高水平的学科馆员是核心因素,人工智能技术与计算机技术是信息技术保障,这两个方面的密切配合才能完成高质量图书馆数据库建构的任务。
一、大数据技术与文学数据库的建构
构建以大数据技术为支撑的文学数据库是一个庞大的系统工程,在建设过程应主要考虑以下几方面的因素:首先,因为历代文学文献资源数量浩繁,因而数据库的建设是一个漫长的过程,各大学智慧图书馆之间需要建立行动联盟,有计划、有组织地展开行动。各大学智慧图书馆和各种研究机构应该建立联盟组织,统一制定行动计划,设立文学数据库建设的各种子项目,由各大学智慧图书馆分别承担,既可以减少资源的浪费,又可以在较短的时间内建成文学文献数据库。其次,为了使各个图书馆的文学文献资源数据库能够在统一的平台供全国各大学智慧图书馆使用,文学文献资源数据库要按照国际通用的数字文献资源国际统一标准来执行,以便于成果的推广和普及。再次,要充分利用现有的文学文献数字资源。在此过程中,需要学科馆员熟练掌握数字挖掘技术。数字挖掘技术就是采取关键词检索的方式实现信息的有效查询,在数字图书馆的检索技术领域中发挥着重要作用,数字挖掘技术将在未来图书馆技术中有着非常广泛的应用前景,成为未来图书馆学研究的热点。利用大数据技术建构文学作品数据库,主要包括四大模块:文学作品文本数据库、文学作品注解数据库、文学作品评论数据库、中国文学图像数据库。
(一)文学作品文本数据库。作品数据库包括文学作品文本数据库和文学作品注解数据库两部分。文学作品文本数据库的建构,从总体布局方面来考虑,应该以朝代先后为顺序,每一个朝代要以作家为基本建构单元来进行,具体的排列以作家的生卒年先后为顺序,每一位作家的作品,按照写作时间的先后排列。按照这样的建构模型,可以把从先秦到当代所有文学作品文本都纳入其中,从而建成一个完整的、系统的文学作品文本数据库。
(二)文学作品注解数据库。文学作品注解数据库的建设主要是针对古代文学作品而言的,现当代文学作品只涉及文学评论,基本不涉及文本注解的问题。从事文学作品注解数据库建设的人员应该从各大学智慧图书馆中高职称、高学历的古代文学专业馆员中选取,从事该项工作的图书馆馆员的选取标准应参照高校《中国古代文学作品选》的编选人员的要求,除了具备熟悉中国古代文学的素养外,必须具有相当高的计算机水平,熟悉大数据技术。历代文学作品注解数据库的建构,要求学科馆员应该具备较高的古代文学素养,学科馆员能够从历代大量的注解文献中选取最具代表性的注释观点,同时在数据库该词条下对这种代表观点的发展演变过程中的每一种修订观点按时代先后进行说明,以此形成一种以时间先后为线索的作品注解系统。句子的注解文献、段落注解文献资料的选取等同于字词注解文献资料的选取以及书写方法。
(三)文学作品评论数据库。文学作品评论数据库就是将历代学者对每一篇文学作品的批评资料进行收集,然后按照对作品思想性的批评、对作品艺术性的批评等要素进行分类,利用大数据技术建成数据库。在具体操作的过程中,资料收集要注意以下几个方面的问题:首先,对文学作品批评资料的收集一定要齐全和完整。其次,要选取具有代表性的评论观点,并且要对这些观点发展流变的学术史进行梳理,不可重复堆积资料。最后,把收集的文献按照朝代顺序排列,以朝代顺序及具体时间为第一层级分类依据,以作品思想性、作品艺术性评论为第二层级分类依据来建构数据库模块。
(四)中国文学图像数据库。有文字记载的中国文学史大概有3000年的历史,在这样漫长的文学史历程中,产生了大量的文学图像及绘画作品,这些文献资料被称为文学图像文献。文学图像文献具有重要价值,张朋兵认为,图像文献是构成文学史的重要材料。文学图像文献包括作家画像、文本拓片、历代画家按照其对作家作品的理解画成的各种画像,例如历代文人画家根据杜甫的许多经典作品画成的图像,这些图像文本的纸质版一般不易保存,而且成本较高,不便在大众中间传播,而利用数字媒体技术把这些图像制作成数字图像资料,对建立中国文学图像数据库有很大的帮助,而且在技术操作层面是可行的。这种文献数据库具有很大的研究价值,例如杜甫的《北征》这篇作品讲述了作者从陕西凤翔到鄜州看望家人的经历,历代画家多以此篇作品为素材画成画像,但是有些画家在画作绘制的过程中对杜甫回家的方向理解有误,而且各种画作中呈现出来的杜甫的具体形象千差万别,研究这些差异,可以得到不同画家对作品理解差异产生的原因,这也是文学研究的一个重要课题。因此,中国文学图像数据库有很重要的学术价值。
二、文学云计算数字统计资料库的建构
在各种作家、作品、文学理论数据库的基础上,使用云计算技术,为研究者提供各种统计数据,这些数据可以实现跨图书馆的文献资源共享,因而可以实现不同图书馆之间的沟通及联系,从而提高数字文献资源的利用率。云计算是通过计算机网络信息技术实现数字资源的快速计算服务和数据存储,用户可以通过网络获取海量的数据资源。云计算获取资源的方式可以超越时空的限制,而且可以实现计算结果的合并,提供一种全新的数据体验,云计算强大的资源整合能力和快速的数据提取能力,在未来科技发展中具有广阔的发展前景,将会成为大学智慧图书馆的核心技术。利用云计算技术可以形成如下数据分析平台:
(一)经典作家和经典作品排行榜。使用云计算技术,利用作家数据库中的各种数据资料,通过对各种数据库中作家姓名出现的次数、各个历史时期的评论家对作家好评出现的次数、作家的作品在各种文学选本中入选的次数进行统计,对上述数据进行加权处理,最后得出的数值就是该作家的“经典性得分”,按照这个得分,对作家进行排名,形成经典作家排行榜。经典作品排行榜数据库的建构和经典作家数据的建构程序相同。
(二)中国文学数据分析平台。利用云计算数据,可以为研究者和学生学年论文撰写提供一个数据分析平台,为科研工作者提供数据支撑。例如,在古代文学研究中,“风骨”这一美学范畴因为其内涵的模糊性,因此历代学者对这一术语内涵的解释千差万别。在界定“风骨”内涵的过程中,首先要对其出现的时间进行考证,因为“风骨”这一美学范畴的内涵与中国历史上的美学思潮有密切关系,通过中国文学数据分析系统的检索,可以确定该名词出现的最早时间、出现的作品名称及具体批评家姓名与学术成就,有了以上数据可以形成理解“风骨”内涵的基本思想。又如在中国散文史的研究中,传统的观点认为唐代韩愈是文学史上第一位对散文语言进行革新的作家,但是通过中国文学数据分析平台的检索可以发现,在散文史上最早对中国古代散文从理论主张到创作实践进行全方位革新的是唐代作家陈子昂。这一发现可以改变我们对散文史、文学史中一些长期以来形成的观念的评估。利用这个数据分析平台,通过一系列文学关键词的检索,可以发现许多新的文学思想,同时也可以得到许多与传统文学观念不同的文学史结论,这些结论都可以形成重要的文学研究课题。
三、虚拟现实技术与文学作品还原数据库的建构
虚拟现实技术是通过计算机将已经收集到的日常生活数据存储起来,然后通过电子信号将各种计算机数据与这些信号对应起来,在一定的条件下利用计算机仿真系统将各种数据还原为真实的日常生活现象。中国工程院院士王坚认为,虚拟现实是数字化之后下一个技术革命,虚拟现实技术也将带来智慧图书馆的技术革命。所谓中国文学作品还原系统,就是以虚拟现实技术为理论支撑、以历史纪录片为范本来建构整个中国文学原景形象系统。通过该数据系统,可以建立两个数据库:作家生平数字媒体数据库、作品情景数字媒体数据库。
(一)作家生平数字媒体数据库。高校中文专业的教师在中国文学课程的教学工作中,首先要对作家生平进行介绍,这种介绍一般都是比较平淡、枯燥的,但是,如果能够模仿历史纪录片的形式,把每位作家的生平还原为中国文学史作家生平历史纪录片,不仅可以引起读者的兴趣,提高高校中国文学教学的效果,也可以提高大众对中国文学的接受。在具体操作的层面,对于现当代作家,可以从历史遗留下来的作家图片中提供作家本人及其家属的照片等信息作为作家生平纪录片制作的依据,利用类似于数字动漫技术制作作家日常生活史视频,还原作家生平经历,因为在成像的过程中使用的是真人的照片,所以这种视频可以达到超真实的效果。对于古代的作家,一方面可以从文学史中提取作家的画像,例如屈原、杜甫、陆游等经典作家,历代画家曾为他们留下了各种类型的画像,这些资料可以作为作家形象制作的依据。对于有些作家,各种电视、电影中已经形成了他们的形象,可以直接提取。对于没有留下画像的作家,可以根据作家传世的作品,分析作家的相貌,利用数字影像还原技术生成作家的画像。然后通过作家的传记资料、各种文学史资料,利用影视剧制作技术来制作作家生平影像数据库。
(二)经典作品情景还原数据库。以四大名著的电视剧为经典范本,利用影像及虚拟现实技术,对中国文学史中经典的文学作品进行影视剧的加工制作,形成中国经典作品情景还原数据库。在该数据库建立的过程中,主要应用数字媒体技术来合成影视媒体,这样成本比较低,而且效率高。在作品还原的过程中,首先遇到的是技术上的困难,承担此项工作的大学智慧图书馆馆员需要同时具备中国文学的修养和数字媒体技术,这种人才目前还比较缺乏,但是,大学智慧图书馆应该以此项文献数据库的建设为契机,以创新人才培养为抓手,着重培养具有中国文学和数字媒体技术的复合型大学智慧图书馆馆员。
在中国文学作品还原数据库建立的过程中,最核心的工作是利用虚拟现实技术和数字媒体技术进行作品还原,因为诸如四大名著、《聊斋》等影视作品,其制作成本是比较高的。而利用虚拟现实技术制作影像文件则成本较低,但是困难在于对文学文本内容阐释的多义性及这种理解转化为影像情景过程的复杂性。这种数据库建设在大学智慧图书馆及高校人文社科类课程的建设中有很大的发展空间和发展前景,也可以作为一项重大的科研课题来展开。
四、利用“数字挖掘”技术建构科学的文学史数据库
在文学史建构的过程中,文学观念的起源、发展、演变研究颇为重要,在过去的文学史建构中,文学观念的阐释有两种缺陷:一是对中国古代重要的文学观念的阐释往往语焉不详,因为这种文学观念的追溯需要文学史家具有广博而精深的文学史修养,文学史家必须具备全面的文学史文献的储备,才能清楚地呈现出文学观念发展演变的过程,而一般的文学史家大多不能做到这一点。二是受到上述文学史家理论修养的限制,很多文学观念的重要性不能够被凸显,这些观念在文学史长河中被淹没无法被提取出来加以特别强调,因而,很多文学观念不能确立起其经典性。而利用数字挖掘技术,把经典作家及其经典作品按照其出现的先后时间加以排列,同时运用数字挖掘技术建立历代经典批评家的经典性批评的描述体系,文学史数据库的模型将被建立起来。
通过数字挖掘技术还可以纠正很多已有文学史的误解。例如,在20世纪文学自觉的研究中,大多数学者认为中国文学的自觉期是在汉末建安时期,这一观念后来形成中国文学史研究中关于文学自觉观念的代表性观点。但是,笔者通过数字挖掘技术对文学史的文献资料进行检索发现,在西汉很多文学家的文集中,文章辨体的观念就已经流行起来。例如,西汉文献学家刘向的著述中已经出现了文章辨体的观念,到了东汉,文章辨体的意识更加自觉。例如杨雄、班固等人的著述中就经常涉及文章辨体的理论,而文章辨体的观念是文学自觉的前提。由此可见,至少在东汉时期,文学自觉的观念就已经初步形成。那么,中国文学自觉起源在建安时期的观念可能是一种文学史的误解。
总之,大学智慧图书馆文学数字资源库体系完备、传播速度快、覆盖范围广,因而在高校图书馆建设中有着广阔的应用前景。