数字人文视域下的诗歌意象研究
——现状与展望
2021-12-31冯敏萱葛四嘉
冯敏萱 葛四嘉
(南京师范大学 文学院,江苏 南京 210097;美国科罗拉多大学博尔德分校 语言学系,美国 科罗拉多州 80309)
随着数字化时代的来临,数字人文在人文研究领域已有不少成果,而在文学领域中,诗词的研究又一直是一个较为热门的研究方向。早年俄国数学家马尔科夫使用统计手段测量普希金诗歌《奥涅金》中语言单位出现的概率[1],这是在诗歌领域较早使用计算机手段进行研究的范例,使得统计方法和信息处理手段进入诗词领域研究,在莎士比亚诗歌等文学作品中都不乏数字人文手段的运用[2]。
在中国古典诗词研究方面,除常见的诗句、作者、题目检索外,对于古典诗词的数字人文研究多集中在宏观层面对诗词重要信息的统计分析,如王兆鹏对古诗词诗人的朝代分布、籍贯分布、作品数量分布、词牌分布进行统计,结合数据进行文学研究方面的相关分析[3];或对诗词的声律特征进行统计和标注,配合字表生成平仄韵律可选字表,以检查和展示诗词的音韵方面的相关特征[4][5];或是对诗歌相关信息进行处理并辅以可视化呈现,比如对诗人的行旅轨迹进行古今地名的对应并利用地图进行可视化展示,或是通过挖掘注释、标题、诗句中其他诗人的名称建立作者与这些诗人之间的社交网络,通过共现次数来调整网络节点之间边的权重,同时利用可视化软件来呈现[6]。
可以看出,对于诗词的数字人文研究还主要集中在以文学视角为主要学科理论基础,以诗词概况信息或诗词相关性信息为研究对象的统计分析和可视化上。而从数字人文角度,研究诗词内部意象的语义方面的成果还并不多。本文主要关注数字人文方法对于诗词意象的分析,重点介绍现有的意象研究方法以及数字人文技术在中国古典诗词的三项代表性研究,进而提出分析意象语义对于研究诗词的重要性,强调意象的字面义和深层情感义的区别与联系,最后提出建设大规模的诗词数字人文知识库,推动诗词意象数字人文研究的构想。
一、意象在古诗词研究中的地位
(一)意象的定义与作用
意象是古诗词表达情感和内容的重要手段,也是诗词整体语义的重要组成要素,是诗歌艺术最重要的组成部分之一[7]。多数学者认为,意象可以理解为“意中之象”或是“表意之象”[8],“象”即物象,是客观存在的事物,具有物理形态,也包括如“风”“声音”视觉不可见的物质表现[9]。例如“柳树”就是一个物象,它是一种被子植物门双子叶植物纲的植物,枝条细长,而“意”是指作者主观的情感和志向、认识活动等[9]。一旦物象进入诗人的构思,就将成为诗人主观情感的载体,即认为意象是融入了主观情意的客观物象[10]。当柳树进入诗人的笔下,其语义则不简简单单是一种植物,它成为“离别”情感的寄托,也因为常常将美女的眉毛视若柳叶,而成为了美女的代称。
“意象”的文学传统古已有之,从早期的“比兴”传统和楚辞的“香草美人”寄托手法,以及《周易·系辞》“圣人立象以尽意”论,陆机《文赋》中“喻巧”说等。当然,对“意象”理论集中阐释和明确论证的当属刘勰的《文心雕龙》,《文心雕龙·神思》中明确提到“玄解之宰,寻声律而定墨;独照之匠,窥意象而运斤。此盖驭文之首术,谋篇之大端。”[9]刘勰认为除了声律辞藻之外,另一谋篇首要的技术细节就是对意象的选取和加工。中华民族的情感表达一直是含蓄而丰富的,不擅长于大段的说理和直抒胸臆的抒发感情,总是希望能够将情感和语义委婉地表达出来,故形成了源远流长的托物言志传统。同时,“言不尽意”,人的情感是丰富的,而语言文字总是有局限的。因此,表达情感就需要使用一定技巧,能够将情感和更深层次的语义在有限的文字符号承载下表征出尽量丰富的情感和语义,从而达到“不着一字,尽得风流”的艺术效果,这时就需要寻找一定的意象去物化人的情感,使抽象的情感变得具体而客观,借助客观物象表现主观情意[11]。
诗人构思意象的方式也无外乎两种,一种是先有具体的物象触发了诗人的情感,继而使用此意象去承载情感。另一种是诗人先已有情感和内容需要去抒发,再去苦苦地寻找合适的语言符号的物象载体去表达。而无论哪种方式,选取的意象一定是和作者想要表达的情感或语义内容是有所关联的。这种关联,尤其在读者去接受诗词意象时表现的最为直观。我们可以用当代的认知理论去阐释,读者首先接触到的是语言表征符号,这种语言符号通常是指称的一个具体的物象,即通过语言符号激活了一个特定的物象概念。例如,我们看到“柳”这个字,脑海中总会浮现高大的躯干、细长的柳枝、绿色的柳叶以及在春天里肆意生长的姿态,这些知识来源于人们的认知经验,来源于生活和情感的经历,这些是柳树带给我们其作为物象的特征和属性。进而,由于“柳”的谐音,我们会和“离别”的情感和内容发生联想,柳叶的形态会使我们与“眉毛”发生联想,进而获取“美女”的概念,而“柳树”带给人视觉上“熙熙攘攘”的绿又使读者和春天、和旺盛的生命力联系起来,当然,意象呈现系统性,难以孤立存在。一个意象往往要通过周围词语形成的语境来确定当前的意义。在读者那里,又通过诗句整体的艺术效果,投射在接受主体的认知中,就可以对具体词语承载的意象情感进行确定。这时接受主体脑海中的画面就是意境,这样也就完成了“符号-物象-情感”的语义链的映射[8],可以将意象视作“以具体名词为主体的象征符号系统”[12],物象是意象得以存在的基础。因此,我们也可以抽象出这样的一个链条,即“词语-物象-意象”。在诗词中,词语符号对应的物象概念,在一定的语境中形成独特的意象。
(二)物象的字面语义和意象的深层语义
可以看到,物象的语义和意象的语义是有一定区别的。物象作为语义载体,一定有意象深层语义的典型属性。这种属性是认知语义上的属性,也就是说,在选取物象时,和所有表达情感和语义内容一定是有所关联的。否则,上述提到的“符号-物象-情感”的语义链条便很难实现,因为作者和读者都无法去实现语义的联想。
我们能够通过意象去接受意象背后的情感和丰富的语义内容,是因为诗人在选择意象时会特别注重二者的关系。这种关系我们可以理解为意象构思的过程,也就是从物象到意象的认知轨迹。首先是基于物象义和意象义之间的相似性,也就是常说的象征。象征经过了漫长的积淀,成为民族文化中非常自然的部分。传统修辞中的象征从属于隐喻[13],是基于事物相似性的认知操作。如上文提到的由于柳叶形状和美女的眉毛形状的相似性。在“浮云游子意,落日故人情”中,由于“浮云”有漂浮不定的特点,而“游子”也在不断辗转,因此用“浮云”象征“游子”,再比如用“莲花”象征高洁的品质,是由于莲花生长在淤泥中而花瓣依旧白净不受沾染,“松柏”象征坚贞独立是由于枝干粗壮笔直,疾风吹卷而不为所动等等。
第二种方式是因为意象和物象之间存在某种关系[9],即基于物象义和意象义之间的相关性。这种关系可能是处所关系,组成关系,领属关系,包含关系,也可能是对立关系等。如“燕草如碧丝,秦桑低绿枝”,这里“燕草”和“秦桑”指代的都是燕地和秦地,但未直言二地,而是借助于两处的植物。类似地,“子交手兮东行,送美人兮南浦”,而本来“送别”和“南浦”并没什么关系。再如“冠盖满京华,斯人独憔悴”,其中“冠盖”指的是“达官贵人”,是由于“冠盖”分别是衣服和车马的一部分,而官吏常穿华丽的服装和车马出行,从而利用领属关系来实现这种联系。
第三种联系方式是借助于其他的一些修辞手段,比如通感或比喻,抑或借助于典故,或借助于汉字“音”“义”的多义性,如常见的“莲”同“怜”,表示喜爱等。
意象是极富创造性和包容性的语义单位,不同时期、不同诗人的笔下,同一意象可能呈现了不同的深层语义和情感,意象的选取极富诗人特色。同是以“蝉”作为意象,骆宾王的《在狱咏蝉》、李商隐的《蝉》和虞世南的《蝉》因为作者不同的际遇和主观情感表达的需要,赋予其不同的语义。同样是月亮,月亮由于自转和太阳的公转导致了阴晴圆缺的状态,极易与人的悲欢离合相联系。而对比月亮恒久,人生朝露易逝之感又衬托人生的短暂和渺小,而又通过意象之间不同的组合方式,或递进,或对立,或时空交错,但都以巧妙的方式限定了每一种意象在当前意境下的所指,又能够使人通过意境所传达的整体语义来感受强烈又炽热的诗歌整体情感与语义。
由此可见,通过对意象语义的研究,实际上是对字面和深层两层语义之间关系的研究,可以关涉人复杂的认知过程,可以关涉隐喻中源域和目标域语义感官的变化[14],也可以关涉语义变化与时代、个人际遇之间的关系。
二、数字人文视域下的意象语义研究
进行古诗词意象语义的数字人文研究并非易事,需要同时掌握数字人文的研究手段和相关技术方法,还要具备一定的文学素养,能够从诗词微观发现问题。在这方面主要是计算语言学背景的学者,已经有了一些较有开创性的研究工作来介绍,本文选择其中最有代表性的三项工作来介绍。与传统的诗词研究不同,这三项研究都致力于将意象的语义进行形式化的刻画和成体系的构建,以满足检索、计量分析等方面的应用需求。
(一)“韵律-词语-意象”多层次的诗词语言知识库
中国台湾元智大学罗凤珠教授,花费了大量精力进行古典诗词数字化整理和诗词知识库的建设,由浅入深地完成了诗词(特别是宋词)的韵律、词语和意象的标注与量化分析研究。,其对诗词意象语义的研究是建立在对诗歌表层信息标注的基础上的。在起步阶段,与北大计算语言学研究所合作,对诗词声律信息进行标注与计量分析研究[5]。在建立全宋词的词牌、词韵等相关知识库之后,能够自动检查诗句是否符合格律,并能够为不合平仄的字词提出修改建议。还开发出能够针对多音字消歧而实现自动注音的系统,提供韵律知识查询等相关功能[4][5]。在此基础上,罗凤珠进行了由形式到内容,由语音到语义,由符号到意义的研究尝试,结合一系列知识库诸如语法信息知识库、语义知识库之后,先提出了结合宋词的韵律特征的词语分词策略,构建出一个庞大的词汇概念体系。共分为人、事、时、地、物、其他等6个大类,50个中类,386个小类,义类体系比较全面。而后对切分出的词语一一标注了其建立的词汇语义概念体系中的语义标记。在标注时,考虑到了如“桑麻”之类词汇是由两个词进行组合而产生了更加丰富意味的情况。此时,完成了对意象字面义的语义研究工作。
在字面义标注的基础上,罗凤珠进一步研究了诗歌的情感。首先,分析了风格朝代迥异的六位知名作者(如苏轼、李清照等)作品中不同情感词的分布情况[15][16]。然后,考虑到季节、晨夜、星月都可能对诗歌的情感产生一定影响,又分上述类别进行了统计。数据表明,六位作者作品中情感词汇均悲多于喜;在季节词汇上,以春秋为主;时间词汇分布上,以清晨和黄昏居多。研究注意到了诗词语言的特性和诗词语义的复杂性,并通过统计的数据结合文学鉴赏,对六位诗人的作品情感风格与词汇使用之间关联做了探究,打破了以往主要建立词型语言表征符号的研究范式。
最后,研究意象的“言外之意”。这个层次的语义,分析难度很大,包括词汇的语义概念——即袁行霈先生所说的“宣示义”和意象承载的超越了词汇语言符号指称的主观情意——即启示义[17],对词汇又加标了一层意象义概念标记[18]。这层意象语义标记体系也和之前的字面义语义概念标记相辅相成,采用了袁行霈对意象的分类标准,共五大类,分别是自然界的,如天文、地理、动物、植物;社会生活的,如战争、游宦、渔猎等;人类自身的,如四肢、五官、肺腑、心理;人的创造物,如建筑、器物、服饰、城市;人的虚构物,如神仙、鬼怪、冥界等。例如,李白《下终南山过斛斯山人宿置酒》中,“绿竹入幽径”中的“绿竹”,原有的字面义标记从大类到小类分别是“物”“生物名称”“植物通名(禾本)”,而根据新的意象义体系,其标记从大类到小类分别为“自然界”“隐逸”和“心境”。这样字面义和意象义的双层标注使得词语在古诗词中的语义更加丰富和完整。
(二)唐诗知识本体
所谓知识本体(Ontology),在Neches的定义中指的是领域词汇的基本术语和关系[19],以及利用这些术语和关系构成的规定这些词汇外延规则定义。Gruber给出的定义是Ontology是概念模型的明确规范说明,Ontology提供的是领域知识,确定该领域内共同认可的词汇,并从不同层次给出词汇和词汇之间关系的定义[20]。Ontology包含5个建模元语,可以看做是知识本体的结构要素,分别是概念、关系、函数、公理和实例,主要是一些具体词汇的集合的定义,然后是概念之间的关系,如父子关系,函数是特殊的关系,具有确定的唯一输出,公理代表永真的断言,可以用于推理,实例即概念中的元素,可以理解为具体的词汇[21]。
Ontology被广泛用于信息检索、语义网和推理系统,通过构建知识本体,可以将领域的知识,尤其是各种概念通过关系联系起来,并根据函数和公理进行一定的逻辑推导,相当于将领域的各种知识通过特殊的结构化语言储存成数据的形式并教给计算机,计算机通过这些知识进行领域中的语义推理。Ontology的性质和作用大致相当于人工智能中的知识图谱。而SUMO(Suggested Upper Merged Ontology)是一种抽象顶层知识本体,由IEEE发起,目的为突破领域知识的界限,构建出一种超越领域界限的、普适的、通用的抽象知识本体[22]。其蕴含了20000个概念和700000个公理,但是由于是高度抽象的普适性知识本体,就与领域中的具体词汇之间形成了巨大的隔阂,导致普遍性与特殊性之间的矛盾,SUMO中的概念比较宽泛,但缺乏更细颗粒度的语义关系和概念,因此SUMO的实用性较差,人工的一一标注比较耗时耗力。目前比较有效的映射机制是使用语义资源WordNet(词网)作为中介,进行词汇和抽象概念之间的映射,由于WordNet和SUMO之间存在比较明显的对应关系,因此较多学者自然想到使用WordNet作为中介连接具体词汇和SUMO上层知识本体[23][24]。
中国台湾“中研院”致力于构建各种领域的知识本体,黄居仁教授的研究是以建立在“中研院”已有的一些资源[25],如Academia Sinica汉语分词系统、Sinica BOW(双语词典的数据库、WordNet和SUMO)。其研究以《唐诗三百首》作为原始语料,选择其中出现频次较高且带有丰富的深层意象义的动物、植物和人造物三个语义类,构建唐诗三百首的知识本体,进而利用SUMO的公理、关系进行唐诗三百首领域的知识推理等应用。在他的研究中,WordNet作为具体词汇词义的表示资源,在WordNet中,具有相同或相似的词会在同一节点上,表示一组同义词集(synset),而不同的节点之间又会形成上下位、同义、反义等各种语义关系,而上层的概念表示使用SUMO。SUMO和WordNet二者之间的映射已经由Sinica BOW完成,每个词汇只需要标注其在WordNet中的对应ID,即可自动映射到SUMO中的概念节点,从而构建出唐诗三百首的领域知识本体。可以看作是借助WordNet的体系标注出唐诗三百首的字面义体系。相比于罗凤珠的语义体系,这个知识本体的通用性更好,能够与世界上其他语言方便地进行对比分析。
(三)基于唐诗语料库的意象检索研究
目前,市面上有许多诗词检索系统,一般仅仅考虑字符串匹配的全文检索,并不考虑内部语义。如要获得与待查询诗句语义相近的诗句,处理流程通常采用是直接用字符串匹配,返回与查询语句最匹配的的诗句。这样做有两个问题,首先唐诗中的词有丰富的语义,相同的词所表达的语义不一定相同,而基于字符串匹配很可能会遇到匹配数较少的情况,查询效果并不理想。其二,使用字符串匹配势必会忽略相同语义但不同词汇所组成的诗句,也会导致查询效果表现不佳。
针对以上问题,大连理工大学的毕旭提出,需要建立在语义相似基础上的查询,在诗词语义元素中,关注到意象信息对于诗词语义的贡献。然后,设计出以意象为基础的诗句相似度查询系统。系统建立了一个小型唐诗语料库,并标注了意象词汇在《同义词词林》[26]中的编号与主题(思想、离别)。查询流程设计如下[27]:第一步,由于《同义词词林》与WordNet采用相似的树型结构,将同义的词归置于同一节点下,基于树中不同节点之间的路径,设计相似度算法,可以提取出与待查询诗句中意象语义相似的意象。但是,考虑到诗词意象往往是多义的,意象的具体意义往往在与其他意象的共现中得以体现,相同的意象序列可能表达了相同的主题。因此,第二步则选择了两类主题中的高频意象作为特征,将第一步得到的含有相似意象的诗句编码成特征向量,并输入神经网络进行分类,最终得出待查询诗句属于同类的诗句。这样检索出来的结果,既与待查询诗句使用了语义相似的意象词汇,同时诗句间属于同一主题。在实验中,对李白《秋浦歌十七首》中“不知明镜里,何处得秋霜”查询,得到曹邺《四怨三愁五情诗十二首·一愁》中“远梦如水急,白发如草新。归期待春至,春至还送人”。系统就可以查询出这类不存在相同关键词的相似诗句,检索的智能度颇高。该工作是一个有益的算法尝试,目前受限于语料库标注规模尚小,如果不断扩大其规模,则可以为古典诗词的智能检索服务带来重大提升。
(四)研究评价
上述研究的侧重点不一,如罗凤珠教授是从典籍数字化和文学计量研究的视角出发的,其研究目的主要是为了通过构建知识库的技术手段,以计量的方法计算得到与文学研究有关选题的数据,并根据数据进行文学选题的分析,比如上文提到的六位词人诗词作品悲喜风格的分析。黄居仁教授是建立在领域知识本体构建动机上的研究,其应用场景主要在于知识推理、信息检索等方面,是为了计算机获取人类知识而服务的。其方法主要是利用Sinica BOW中的资源结合人工标注进行词汇-概念的映射,这几乎已经成为“中研院”构建领域知识本体的一种范式。毕旭的研究目的主要是诗句查询,使用的方法主要是数据库算法和机器学习技术。在小规模标注了字面义和意象义的语料库基础上,就可以形成深层语义的检索。
三项研究比较有代表性,也都以技术手段实现了对诗词意象语义信息的挖掘,但普遍存在数据库规模过小、对意象语义内部语义特征以及意象表层宣示义与深层启示义的探究,罗凤珠教授关注了意象词汇语义和意象义的区别,但是关于意象语义如何表示、意象标记体系设计的技术细节等问题没有展开论证。尤其是在古诗词语义领域,对于标记集设计常会出现主观化过重导致统计数据稀疏,亦或是标记集交叉的技术问题,而探寻意象词汇义根据何种方式与意象义发生关联也是应在词汇语义与意象语义研究时必须考虑的因素。黄居仁和毕旭的研究都属于案例式研究工作,没有形成较大的语料规模,因此对于意象语义分析都显得较为单薄,同时意象的多义性、意象词汇语义和意象语义也应当同时作为研究对象考察,而不是仅选取单方面语义展开研究。
三、诗歌意象的数字人文研究展望
意象语义研究必须充分挖掘意象语义的相关信息,同时应该结合诗词整体语义的特点,应特别将意象研究单位、意象层次间语义关系等方面作为主要研究要素。
(一)意象语义单位的界定及内部语义关系
作为意象语义的研究,首先要确定意象语义的研究对象,但是目前对意象单位的界定都没有统一的标准。意象作为表意之象,首先应该借助于“象”的单位,而“象”大部分情况下是以词汇的形式出现的,有学者据此认为应该以词汇来界定。如马致远《天净沙·秋思》“枯藤老树昏鸦,小桥流水人家,古道西风瘦马”是3组9个意象。但也有学者提出上述词汇组合在同一画面下,应该视作是统一意象,任何一个单独词汇对于意象来说都没有意义[12]。由于是建立在数字人文手段下的研究,势必将利用统计数据,不同的意境画面判断对计量研究会造成巨大的障碍,因此本文支持前者的观点。同时应注意到,意象单位和词存在复杂的对应关系,词汇是词和固定短语的总和,但是意象中,如“柳叶”“荷叶”应作为一个整体意象看待,“叶”和“柳”单独视作词,而“柳”和“叶”单独作为意象和“柳叶”作为一个意象整体的意义又有所不同,在罗凤珠的研究中,基于词汇的语义标记方法会割裂开意象整体单位。研究意象的语义单位实际上是在横向视角对意象内部组成词汇语义关系的探究。
(二)词语的字面义和意象义
意象语义由于具备其字面义和意象义的双重语义,因此必须要对两个语义层次进行分析。在研究时应关注字面义和意象义通过何种方式产生联系的,即在创作时诗人是为何选择以此“象”来承载此“意”,从认知语义视角切入比较符合诗人创作的过程,有可能是由于后者的情感或品质与前者在其外型、习性上具有相似性。而这种相似性很有可能已经积淀为民族文化认知的一部分[9][11]。我们观察到意象的象征情感、烘托的氛围很多都是人们认知属性的反映。查询体现现代汉语词语认知意义的认知属性库[28][29],“菊花”频率最高的五个认知属性分别是高傲、高洁、坚定、传统、美丽。其中,高傲、高洁符合“菊花”的象征寓意。查询“落叶”,前五个属性分别是轻、颓废、洒脱、无声无息、飘洒。可以看到,落叶中的颓废、秋风的萧瑟,都是其意象义。现代汉语的认知属性库是基于当代中国人的认知。在将来的研究中,应该建立面向古典诗词的古代认知属性库,这样可以更好地研究古诗词中的意象义。
(三)构建通用的跨语言的诗词语义体系和大规模深标注诗词知识库
上述两大问题其实都可以归入这个议题。目前学界所建立的深标注的诗词语料库规模尚小,难以满足古典诗词的教育、传播等方面的需求。如果能够先基于中国古典诗词,建立起词语字面意义和深层情感义的语义体系,进而通过标注大量诗词的方式,构建起古典诗词数据库,则可以在很大程度上满足诗词教学、推广、创作等方面的需求。进一步地,可以基于这个框架,囊括现代汉语甚至英语、法语、日语等多语言的诗词。这样,不仅可以根据不同语言文化,优化调整出更好的语义体系,而且能够进行跨语言的对比分析和研究,对于跨文化交际、翻译都有着非常重要的价值。因此,我们倡议构建这种存储在计算机内的、可复用、可检索、可深度分析、可多种应用的新型文学知识库。