APP下载

词频统计与主题分析视角下的《汉学引得丛刊》研究述评

2018-05-14马学良刘玲玲

河北科技图苑 2018年1期

马学良 刘玲玲

摘要:哈佛燕京学社引得编纂处编纂的《汉学引得丛刊》是我国将西方现代索引技术应用于古典文献的第一次尝试。以中国知网(CNKI)为数据源,借助词频统计和主题分析方法,利用词频分析软件和Excel对与哈佛燕京学社引得编纂处及《汉学引得丛刊》相关的样本文献内容进行词频统计,分析该领域的研究热点与重点。研究发现:该领域的研究历时时间长、侧重点明显,但在引得编纂处人物分析、引得个案研究、引得丛刊对当下古籍保护与利用的借鉴意义等方面研究不够深入,甚至存在空白。

关键词:引得编纂处;引得丛刊;古籍数字化;古籍语料库

中图分类号:G255.1文献标识码:A

DOI:10.13897/j.cnki.hbkjty.2018.0014

《汉学引得丛刊》(以下简称“引得丛刊”)是哈佛燕京学社引得编纂处(以下简称“引得编纂处”)于20世纪三十年代开始用西方科学索引方法为中国传统典籍编纂出版的系列索引工具书,也是民国时期“整理国故”运动和“索引运动”影响下产生的代表性成果[1],在我国索引编纂史上占据重要地位。值得一提的是,自引得编纂处成立及开展引得编纂以来,国内外图书馆学界、文献学界同仁就对它展开了方方面面的研究,各类期刊杂志刊载了多篇与之相关的研究论文。这些论文大多是基于外部特征的分析总结,内容主要涉及哈佛燕京学社及引得编纂处成立背景、引得丛刊的学术价值、编纂特点及其评价等。而对引得丛刊词频及内容分析的研究却迄今未见。笔者认为,对于索引类工具书的研究,应该运用科学的方法,多层次、多角度地进行内容挖掘与整理,方能揭示其研究的重点和热点,为我们未来的研究工作提供参考和借鉴。本文从词频分析和主题分析的角度,对该领域的文献报道展开主题分析与评价。

1数据来源及研究方法

1.1样本文献

以中国知网(CNKI)为文献统计源,分别以“引得”和“引得编纂处”为主题进行检索,通过排除不相关及重复文献,得到样本文献51篇,其中期刊论文47篇,会议论文2篇,学位论文2篇。

1.2研究方法

利用词频统计软件及Excel表格,采用词频分析法和定性与定量分析相结合的内容分析法。该方法以单一语词在样本文献中出现的次数为基础进行词频统计,以揭示不同语词之间的相互关系,达到透过词频现象探视文献内容本质的目的。

2词频分析

2.1发文时间分析

一定时间范围内文献发表数量的变化情况,在一定程度上可以看出一个学科的研究现状和发展趋势。因此,我们按照不同年代的发文量,对“引得”研究的整体发展情况进行分析总结,如图1所示。

通过图1,可以看出该领域的文献报道源于1981年,起步比较早,历时时间长,发文总量呈稳步增长的趋势,但总体文献报道量不大。1985年和2013年是文献报道的两个小高峰,分别为8篇和6篇文献。这说明,有关“引得”研究的总体关注度不高,不是学术研究重点。这在一定程度上,也说明“引得”研究还有很大的发展空间,有待学者深入地挖掘分析研究。

2.2高频词分析

借助自然文本词频分析软件,经整理之后,得出关键词5 260个,词频77 790次。根据美国明尼苏达州立大学的多诺霍J.C (Donohue J.C)1973年提出的高频词、低频词分界公式T=1/2(-1+1+8*I1)(其中I1=854),计算出高频词阀值约为41。词频≥41次的高频词列表,参见表1。

从表1可知,“引得”研究领域的高频词主要有:洪业、(引得)编纂处、汉学丛刊、美国、(哈佛)燕京学社、燕京大学、(引得)特刊、中国字庋撷法、文献学、整理国故、聂崇岐、四角号码、索引运动、《春秋经传引得》及其序言、《增校清朝进士题名碑录·附引得》、标点、印刷、校对、編号、选书、“钥”、“目”、 《道藏子目引得》、《佛藏子目引得》、《引得编纂手续纲要》、《索引和索引法》、序文、抄片、“注”等。

3主题分析

3.1对洪业及其引得贡献的关注与研究

样本文献中,引得、索引和编纂三个词为范义词,因此“洪业”自然成为学者们研究“引得”的第一大热点主题词(见词频列表第4位词)。洪业不仅是文献学和索引学重要学者,还是著名史学家。他作为“索引运动”的积极倡导者与实践者,为我国索引事业的现代化做出了重大贡献,是具有里程碑意义的索引学人物。直至今天,他的索引贡献、学术成就、学术思想和治学方法依然是今人研究的重点和热点。

洪业受西方先进索引思想及科学治学方法的影响,深刻认识到索引工具书实为“治学之利器” (见词频列表第17位词),故而决心致力于传统文献的索引式整理,他亲自探索创制了“中国字庋撷”法(见词频列表第15位词),制订了《引得编纂手续纲要》(见词频列表第63位词),为中国近现代索引学理论奠定了坚实的基础。在洪业领导下,人数最多时也未超过15人的引得编纂处利用短短20年时间,竟然编纂出版了64种81册《汉学引得丛刊》(见词频列表第6位词),与引得编纂处存续期间,洪业大胆启用新人,打造了一支专业精干的编纂队伍(见词频列表第20、61位词)有着直接关系。洪业及其领导下的引得编纂工程在我国近现代索引事业发展进程中留下了浓重的一笔,为国内外汉学研究提供了便利的治学工具,也为后人从事古籍索引编纂留下了可资借鉴的经验与教训。

3.2对引得编纂处的关注与研究

作为我国最早、最大的利用西方科学手段进行古籍索引编纂机构之一,引得编纂处自成立以来就得到学术界的高度关注。有关引得编纂处的研究主要分为背景和概况两个方面。

3.2.1引得编纂处成立背景研究

引得编纂处的成立及其系统的古籍编纂不是偶然现象,而是“五四”新文化运动、“西学东渐”、“整理国故”、“索引运动”等时代背景下的必然产物,是国际与国内学术环境交互作用的结果(见词频列表第25、30位词)。民国时期,美、法、日等国汉学研究都相当兴盛,急需科学的汉学治学工具,故索引编纂事业也相应受到重视。此时的中国学术界在“西学东渐”的影响下,纷纷接受国外先进的治学方法,提倡和鼓励利用西方科学的方法“整理国故”,并提出提高治学效率应从编纂古籍索引入手(见词频列表第19、23、27、29、64、66位词)。于是,民国初期,时任民国外交总长的蔡廷干为老子《道德经》编纂了语词索引《老解老》又名《老子道德经串珠》(1921年完成,1922年刊印)。这一时期的索引编纂虽然仅是个人行为,还没有形成系统化、规模化,但这为“索引运动”的后续兴盛和大规模古籍索引编纂起到了开风气之先的作用。另外,引得编纂处以洪业为首的一些人等,都有国外留学背景,大部分都拿到了硕士、博士学位(见词频列表第13、21位词),掌握西方科学的治学手段,又同时拥有深厚的国学涵养。正是在以上这些因素的综合作用下,引得编纂处才宣告成立并迅速投入到了热火朝天的古籍索引编纂工作中。

3.2.2引得编纂处概况研究

51篇样本文献中除引得个案介绍,如《艺文志二十种综合引得》《道藏子目引得》《增校清朝进士题名碑录·附引得》《艺文志二十种综合引得》《三十三种清代传记综合引得》《辽金元传记三十种综合引得》等,从成立时间、机构设置、人员职责、工作手册、工作流程、工作成果(见词频列表第33、34、36、40、48、50、56位词)等多方面提到了引得编纂处及其哈佛燕京学社成立的概况。张树华《哈佛燕京学社及其引得编纂处》(山东图书馆季刊,2006年第3期)一文,在阐述哈佛燕京学社的缘起及宗旨的基础上,介绍引得编纂处的成立及其工作过程、工作成果等,同时认为引得编纂处所编印的引得,是图书馆工作或学者査阅、检索、利用和开发我国古代文献内容的重要工具书。赵玉宏、印永清《哈佛燕京引得编纂处背景研究》(《大学图书馆学报》2001年第2期:75-77页)一文,认为引得编纂处成立是国际、国内因素作用的结果。一方面,美国发达的索引事业和美国兴起的汉学研究热潮是其国际背景;另一方面,在“西学东渐”之风的影响下,中国学术界开始提倡科学的读书方法和治学方法,也开始了自己的索引事业,兴起了所谓的“索引运动”,尤其是以洪业等留学归来的知识分子为代表,由于他们均有深厚的国学基础和掌握着当时科学的西学手段。因此,引得编纂处成立也在情理之中了。这类文章主要研究燕京学社引得编纂处的成立背景及简要过程。

3.3对引得丛刊的关注与研究

引得丛刊自问世以来,得到了胡适、朱孝积、印永清、王燕均、侯汉清、王雅戈、平保兴、陈振文、李文涛、马学良等人的关注与研究。研究内容主要涉及引得丛刊的价值评价与影响、引得正刊与特刊的内容介绍、引得序言、编纂体例、检字法及引得单刊介绍等。由于完整系统地收集引得丛刊比较困难,今人有关丛刊的研究大都比较分散,缺乏全面、系统地研究。

3.3.1引得丛刊的编纂流程与编纂体例

(1)引得工序。引得编纂处耗时20年时间编纂出版的系列丛刊,拥有独创的检字法、完善的工作指南、统一的编排体例(见词频列表第24位词)、出版格式等。科学规范的编纂流程和统一编纂体例使得引得丛刊在当时名噪一时。《引得编纂手续纲要》作为引得编纂处的工作指南,对引得编纂环节,选书、选本、圈目、抄片、校片、编号、发印等十道工序(见词频列表第33、34、36、42、48、50、57、60、62、71、72位词),做了详细规定,并在日后的实践工作中不断修正。

(2)引得类型。为了提高引得的使用效率,洪业等人在索引类型的设置上下了不少功夫:先秦诸子及儒家重要经典多用逐字引得(类似国外的“concordance”,洪业译为“堪靠灯”),如《毛诗引得》《杜诗引得》《论语引得》《孟子引得》《庄子引得》《墨子引得》《荀子引得》《孝经引得》《周易引得》《春秋经传引得》《尔雅引得》《琬琰集删存附引得》等;还有一些儒家经典则用逐句引得,如《仪礼引得附郑注引书及贾疏引得》《刊误引得》《周礼引得附注疏引书引得》等;传记资料多用专名引得,该引得类型又细分人名、地名、书名、文献著者引得等,如《四十七种宋代传记综合引得》《八十九种明代传记引得》《辽金元传记三十种综合引得》《三十三种清代传记综合引得》《艺文志二十种综合引得》《增校清朝进士题名碑录·附引得》《宋诗纪事着者引得》《全汉三国晋南北朝诗作者引得》《全上古三代秦汉三国六朝文作者引得》等;其他文献则用关键词引得和篇目引得,关键词引得又可细分为综合关键词引得、字词引得、篇目引得和传统注疏类引书引得,综合关鍵词引得有《苏氏演义引得》《太平御览引得》《后汉书及注释综合引得》《说苑引得》《考古质疑引得》《世说新语引得附刘注引书引得》《容斋随笔五集综合引得》《苏氏演义引得》《封氏闻见记校证附引得》《清画传辑佚三种附引得》《食货志十五种综合引得》《三国志及裴注综合引得》等,字词引得有《白虎通引得》《汉书及补注综合引得》《水经注引得》、《诸史然疑校订附引得》等,篇目(书目)引得则有《四库全书总目及未收书目引得》《太平广记篇目及引得引得》《一百七十五种日本期刊中东方学论文篇目附引得》《佛藏子目引得》《道藏子目引得》等;传统注疏类引书引得有《仪礼引得附郑注引书及贾疏引得》《太平广记篇目及引书引得》《文选注引书引得》《春秋经传注疏引书引得》《礼记注疏引书引得》《三国志及裴注综合引得》《六艺之一录目录附引得》《周礼引得附注疏引书引得》《尔雅注疏引书引得》《史记及注释综合引得》等。

根据所编引得是否附有原文,又将其划分为引得正刊和引得特刊,其中正刊23种,50册;特刊41种,31册,共计64种81册。洪业等人根据不同的文献选择与之相适应的引得类型对其内容加以揭示,这样做的目的是为了从最佳角度选取检索点,以便更好地揭示文献,满足读者要求。

(3)引得款目。洪业对索引结构做了统一规定,指出索引款目由“引”和“得”两部分组成。其中,“引”由“钥”(汉字排检信息编码)、“目”(标目、副标目)、“注”(注释)三部分组成;“得”由“数”(地址、出处)和“文”(原文)组成。“引”为内容的识别信息,“得”为内容的查阅信息。“引”、“得”合称为“录”,即索引款目(见词频列表第51、56、73位词)。这种规范的索引结构引导民国时期我国的索引编纂工作朝着科学化、规范化的方向发展,也为后世的索引编纂工作提供了许多宝贵的经验。这也成为今人研究引得编纂处及其汉学丛刊的重点内容。

3.3.2引得排检法

“中国字庋撷”是洪业在众多排检法基础之上专门为引得丛刊编制的新型检字法。今人对该检字法褒贬不一,研究内容主要集中在它的由来、使用方法、与其它检字法的比较、“庋”“撷”的语词解释等方面(见词频列表第15、28、68位词)。

索引运动引发了民国时期汉字排检法的大发明与大讨论,新涌现的汉字排检法多达72种,相关论文180篇[2]。洪业早在1920年就开始了汉字解剖试验,探索更适合汉字检索的检字法。在试验过程中,洪业得到王云五寄赠的《四角号码检字法》一书,启发了他“取字角以避笔顺之难”的思路。基于引得编纂的需要,于1931年秋,洪业在聂崇岐、李书春、田继综等人的帮助下,最终整理出“中国字庋撷”法。学者们对该检字法基本持批评的态度,认为庋撷之法“较为繁琐”[2]。笔者认为,这样的评论未免有失公允,庋撷法不但为引得的统一编排及其快速出版问世提供了最基本的保证,而且大大提高了检字准确度。

3.3.3引得序言

51篇样本文献中提到的引得序言有《春秋经传引得序》《礼记引得序》《杜诗引得序》《艺文志二十种综合引得序》《说苑引得序》《仪礼引得序》《白虎通引得序》等。提及序言的文献如《洪业与中国的“引得”之学》《洪业在我国索引编纂史上的作用》《评哈沸燕京学社所编引得》《哈佛燕京学社汉学引得丛刊研究》《一串打开古文献宝厚的金钥匙——哈佛燕京学社的著述活动与所编引得评述》《不废江河万古流 ——洪业的治学思路对当代图书馆人的启示》等多达15篇。许多引得序言都对版本源流、演变及其价值进行了评述(见词频列表第16、49位词),可以视作引得索引对象的版本史梳理。1937年,洪业因《礼记引得序》的发表及其主办的引得事务,获得法国法兰西研究院之铭文学院[3]的“茹理安”奖金。

这些引得序言大多只是在样本文献中被简单提及(参见词频列表第35、41、75位词),并没有独立或者系统性的引得序言文献报道。这是以后开展“引得编纂处及引得丛刊”值得深入研究的方向。

3.4对引得的个案关注与研究

样本文献中涉及单种引得的文献报道20篇(参见表2),占样本总量的42%,可见引得的个案研究是引得丛刊研究的热点之一。(见词频列表第35、37、41、52、53、55、65位词)

通过表3,可以看出引得报道共计13种,位居榜首的是《引得说》(5篇),主要为《引得说》在索引学领域的意义与价值讨论。但就引得丛刊总体而言,迄今为止的文献报道仅占引得丛刊的1/5,文献报道数量不大,涉及种类不够丰富。因此,继续加强引得个案研究是未来该领域研究值得关注的方向。

3.5对引得编纂处人物的关注与研究

洪业认为,人是引得编纂要素中的重中之重。洪业“知人善用”,大胆启用新人(如聂崇岐、李书春、翁独建等),重视人员业务培训和业绩考核。在他宽松且严谨的治学思路及用人思想的带领和鼓舞下,引得编纂处人才辈出,聂崇岐、翁独建、齐思和、赵丰田等引得编纂处的主要参与者在离开引得编纂处后都学有所成,成为享誉海内外的一代史学名家,在我国史学研究史上占有一席之地。51篇样本文献中,人物文献报道多达13篇,其中12篇主要介绍洪业的引得贡献及其学术成就(见词频列表第3位词),1篇主要介绍聂崇岐的引得贡献(见词频列表第20位词)。除洪业之外,其他人员如李书春(参见词频列表中的第61位词)、田继综(词频22次)、齐思和(词频21次)、翁独健(词频33次)等都只在一些样本文献中被简单提及,未见详细深入的报道,这不得不说是引得编纂处研究的一大缺憾。因此,编纂处相关人物的深入发掘研究是学者开展引得编纂处研究的新方向。

3.6对引得丛刊价值的研究

引得丛刊作为第一次用西方科学方法大规模编纂的古籍索引工具书,具有很高的索引学价值(见词频列表第26位词)和文献学价值(见词频列表第18、26位词)。引得丛刊是索引发展史上的经典,它的诞生是传统文献学向现代文献学转化的里程碑,开创了我国传统文献学的新局面,被赞为“代表了史学现代化的第一步”[4]。齐思和认为这些引得对“学术界之贡献极大,既已风行海内外……城学林之宏举,不朽之盛业”[2]。马学良《哈佛燕京学社汉学引得丛刊研究》(河北大学,2007年硕士论文)一文以引得丛刊为第一手资料,评价了汉学引得丛刊的文献学价值和索引学价值及其蕴含的索引学理论。马学良、李伟《哈佛燕京学社汉学引得丛刊的文献学价值与思想》(河北大学学报哲学社会科学版,2010第2期)一文,从文献学的角度考察了引得丛刊,认为它的编纂使人们开始认识并重视古籍索引对于文献工作的重要性,扩大了文献学的研究范围,打破了传统治学的方法,引导文献学研究走上了科学的道路[2]。朱积孝的《哈佛燕京学社所编引得评介》(天津师范大学报,1985年第4期)一文,全面剖析引得编纂处所编之引得成果,充分肯定了它的成果价值,罗列了所编之引得的成功之处,也提出了它不足的地方。另外,引得的序言与一般图书的序言不同,它不是对该种引得简单的介绍,而是对引得对象的版本流传情况、学术价值所在的学术性梳理,具有不可忽视的文献学价值,如《春秋经传引得》《礼记引得》《艺文志二十种综合引得》《庄子》《墨子》《荀子引得》等序言都是可以独立成文的高水平学术佳作,值得相关领域研究者重视。

4引得编纂处与引得丛刊主题研究述评

自然文本高频词中并未涉猎现代计算机技术、语料库技术、文献计量学等词汇,也未提及研究者对国外相关研究文献的关注程度。综上所述,可以看出现有研究对汉学引得丛刊数字化建设、知识挖掘及语料库建设的忽视,对国外相关研究文献的关注程度不高,有待加强。引得丛刊是我国民国时期重要的古籍丛书,它的编纂意义重大,为中西方学者研究、利用中国传统典籍提供了极大的便利,是通往古代历史文化研究的重要桥梁[4]。对引得丛刊的数字化整理和知识挖掘势在必行,但纵观现有研究发现:51篇样本文献中,黄水清、王东波等人发表的“以《汉学引得丛刊》为领域词表的先秦典籍自动分词探讨”一文,以《春秋经传注疏引书引得》中的部分内容为例,制定词汇表,构建自动分词模型,探讨了先秦典籍文献的自动分词方法,对整体挖掘引得丛刊蕴含的知识具有很好的启发作用[5]。另外,王永华《三十三种清代传记综合引得》再造方法简述一文,介绍了《三十三种清代传记综合引得》重新編制的方法,详细叙述了利用计算机编排及制版技术,变“中国字庋撷法”编排为常用的“四角号码检字法”编排的过程,并列举了原引得由于手工编制而出现的各种问题。今后,对引得丛刊的数字化整理、知识挖掘、语料库建设及可视化处理等的研究与实践以及国外相关文献研究的关注应该引起学术界的重视。应该加强引得丛刊在数字化过程中的标点、笺注、校勘等方面的技术研究。

5结束语

自洪业领导的引得编纂处开始工作迄今,已八十余年。过去的八十年中,学术界对于浩瀚的中国古籍,再未进行过类似哈佛燕京学社引得编纂处所开展的那样系统性、大规模的索引编纂活动,即便是在信息技术迅猛发展、古籍电子资源层出不穷的今天,检索不便、版本选择不当仍是大多数中文古籍电子资源库的明显弊端。因此,引得丛刊的编纂方法和引得编纂处管理体制在今天看来并不过时,甚至有着强烈的现实指导意义,它的得与失可以为我国索引事业发展提供借鉴,为当下古籍整理提供很好的参照目标,为古籍资源数据库建设提供优秀范本。通过词频分析和内容分析,我们可以看出:“引得”研究的角度具有多样性、多元化。但从整体而言,该领域的文献研究缺乏系统性,内容研究不够全面、深刻,尤其是对引得丛刊和引得编纂处的研究与当下古籍保护与古籍整理事业的结合不够紧密,从而导致对引得丛刊和引得编纂处研究的现实意义不够突出。今后,笔者将继续加强对引得丛刊和引得编纂处研究的关注。如:加强相关国内外材料的搜集,实现国内外汉学引得丛刊的对比研究;加强引得个案研究,继续深入对引得丛刊编纂体例、价值与贡献的发掘;加强对引得编纂处管理体制与引得编纂处人员的研究,完善对引得编纂处和引得丛刊研究的深度与系统性;将引得丛刊研究与当下古籍保护与古籍整理事业的结合,研究揭示引得丛刊在数字时代古籍整理的价值与意义。

參考文献

[1]马学良,李伟.哈佛燕京学社汉学引得丛刊的文献学价值与思想[J].河北大学学报:哲学社会科学版,2010,(2):94-98.

[2]马学良.哈佛燕京学社汉学引得丛刊研究[D].河北大学,2007.

[3]颜芳.近代学术转型视野下的燕京大学国学教育[D].北京:北京师范大学,2011.

[4]彭忠德.洪业与中国的“引得”之学[J].福建论坛:文史哲版,1999,(1):62-64.

[5]黄水清,王东波,何琳.以《汉学引得丛刊》为领域词表的先秦典籍自动分词探讨[J].图书情报工作,2015,(11):127-133.

作者简介:马学良(1980-), 男,博士,国家图书馆研究院副研究馆员,研究方向:图书馆基础理论、文献学。

刘玲玲(1979-),女, 天津医科大学图书馆馆员。

(收稿日期:20170708责任编辑:张静茹)

Abstract: Sinological Index Series complied by HarvardYenching Institute Index Compilation Office is the first attempt of western modern index technique applied in classical literature in our country. Taking CNKI as data source, using the methods of word frequency statistics and subject analysis, employing word frequency analysis software and Excel, word frequency statistics of HarvardYenching Institute Index Compilation Office and relevant sample documents of Sinological Index Series is conducted to analyze the research hotspots and key points in this field. Study finds that researches in this field are timeconsuming and have apparent focuses, however, researches on aspects of character analysis of Index Compilation Office, case study of index, the referential value of index series to the ancient books protection and development are not profound or sufficient enough, some research aspects are even blank.

Key words: Index Compilation Office; Index Series; Digitization of Ancient Books; Ancient Books Corpus