金庸武侠小说词义心理的智能化文本聚类分析
2019-11-15毕重增
摘 要 词汇是塑造小说心理空间的最基本要素。对小说文本词汇的客观化心理分析,有助于把握读者宏观的、众数的心理体验,也有助于刻画作品风格的心理维度。本文旨在通过智能化文本分析,描述金庸武侠小说文本中词汇水平所呈现的一般化语义心理。使用因素分析法提取词汇中蕴含的四个心理维度:社会认知内容的社群性和能动性,情绪内容的愤怒、喜悦和焦虑三个因子,时间信息的过去、现在和未来三分框架,以及人称代词对应的个人和群体(集体)主义。这些心理维度之间呈现出一定的结构化、模式化特征,表现为群体友好主义,负面时间观和能力主义。以心理维度为依据的聚类分析也获得了金庸武侠系列小说有意义的类别。
关键词 社会认知基本维度;情绪;时间取向;个人主义与集体主义;金庸武侠小说
分类号 TP391
DOI: 10.16842/j.cnki.issn2095-5588.2019.10.001
1 引言
小说阅读者主观感受的一般化结构根植于文本的潜在心理空间。以心理学角度在词汇水平探讨小说文本,可以摆脱故事情节的限制,展示作品遣词用语中不经意透露出来的心理要素,以及所形成的心理空间。而探讨以弥散形式扎根于文本之中的心理维度,也有助于更好地理解读者心理、小说中的人格形象,丰富有关心理学理论。这种基于文本词汇的元水平分析,随着智能化文本分析的出现而具有了可能。
智能化文本分析揭示的是一种超个人、根植于文字语义本身的心理,正如吴育锋、吴胜涛和朱廷劭等(2018)基于数据挖掘分析法对小说人物人格特征进行提取,其内容不但可以纳入“大五”人格理论的解释框架,并能得到相关研究文献、剧情的支持。智能化文本分析基于足够数量文本,通过数量化分析展示其内在联系,并结合理论解读其意义。本文尝试对金庸武侠文本进行智能化分析,并结合文化与社会心理学概念,对小说文本作智能化解读。这些概念是社会认知基本维度、情绪、时间取向,以及个人-集体主义。
1.1 社会认知基本维度
萍水相逢,江湖中人互道名号,这种客套和礼貌具有特定的心理社会功能:一是识别敌友,二是展示能力和地位。这两类功能所对应的内容便是社会认知基本维度所描述的对象。社会认知基本维度简称基本维度,是指社会认知内容可以划分为能动性(agency)和社群性(communion)两大基本维度(毕重增, 2019a, 2019b)。社群性驱使个体融入到社会群体中去,包括利他主义、亲和动机、情感表达等。武侠世界中,门派林立、武功多样,个人命运的沉浮、门派之间的恩怨,充斥着对动机、意图、能力、善恶的认识和判断。小说中对敌友、仇家、伪君子的划分也极其鲜明,甚至是脸谱化的,大侠济困救危、门派之间合纵连横都是社群性的展现。《天龙八部》中的段誉不愿意学武是由于他不愿意以武伤人,《射雕英雄传》中的郭靖忠心仁厚、纯朴质直、厚道无伪,类似“佛侠”的慈悲、“儒侠”入世、为善,充满了对他人的善意和关爱。以正义、公道自居的名门正派(如少林、武当)更是武林界的担当。侠义中蕴含的正义、道德、正统等议题,都是以意图为核心去认知自己、他人,以及群体。
能动性则驱使个体个性化,不断提升自身能力,获得成就,武侠小说中最能体现能动性的是武功。武功对侠客、门派的地位都至关重要,有时甚至是统治性的地位。武功可以用来保命,扬名立万,更是惩恶扬善、快意恩仇的根本保障,离开了武功,就不会有江湖地位,也丧失了实现侠义的根本。为了展示能力的核心性、重要性,武侠小说总是赋予高成就者各种武学宗师封号,从多种角度去描写打斗场景和过程,以及各种各样厉害无比的神功(如六脉神剑、九阴真经、降龙十八掌等)。能力的社会动机性来自侠客的互动,这种社会性感受表现为对有能力者的尊重、恐惧,对无能者的鄙视、耻笑,这些对比鲜明的感受驱使人们去追求能力。侠客的能力有无数的层次和类别,其至高境界是忘我无为,其达成往往需要有慧根或缘分,大众化的途径是勤学苦练以及师承。
1.2 情绪维度
恩怨情仇是武侠小说不可缺少的描写角度,展示侠客的个性与际遇,是江湖的情绪维度。武侠小说往往具有显著的情绪冲突,其中充满了悲欢离合、爱恨情仇、生死存亡,其情绪或激烈或恬淡、或悠长或销魂,英雄气短、儿女情长,都时时刻刻充满了情绪的吸引力和张力。各类武侠文本作者的情绪偏好不同,有研究者认为金庸小说的侠情以“喜”为主(卢敦基, 2017)。其实,在金庸武侠作品中可以见到各种各样的情绪,如喜悦、悲伤、郁闷、思虑、尴尬、恐惧、愤怒、仇恨、厌恶,怜悯、同情,等等。同一个作品中也汇聚了喜怒哀乐忧思恐,例如《笑傲江湖》中令狐冲经历的欢喜,林平之觉知被岳不群跟踪后的恐惧,岳灵珊的无怨无悔,个中情绪就十分典型。小说中也不乏情绪的变换,从忠诚到背叛,从相思到相遇,从圆满如意到生离死别,等等。
1.3 时间维度
时间是存在的方式,也是武侠小说叙事展开的重要框架。金庸十余部武侠小说所叙述的故事之间有大致的历史顺序,而在单本小说之中,可以看到与时间交织在一起的个体成长历程、复仇历程、任务历程。郭靖、张无忌、韦小宝的个体成长历程,均有清晰的时间线索。《鹿鼎记》中的韦小宝,十二三岁进京城到二十出头救下茅十八再到告老还乡,一切都按照自然时序依次叙写,而《雪山飞狐》叙事时间交错,同一情节一会儿现在、一会儿过去(魏仪, 2003)。当然,时间线索不明显甚至混乱的个人、事件或场景也不鲜见,或不见故事发生的时代,或根本就没有具体时间的交代。
1.4 个人-集體主义维度
是做独行侠,还是做门派中人?对于传统社会而言并不是一个突出的矛盾,中华文化具有悠久的集体主义传统,这个传统在武侠小说中也是显著的。个体的、无门派的侠客往往是例外,如《侠客行》中的谢烟客、《神雕侠侣》中的独孤求败。即便人很少,人们也倾向于结成门派,例如《神雕侠侣》中的古墓派,人数少得可怜,即便是有人不认为自己有门派,他人也要强加一个。而貌似孤独的扫地僧,也是活在少林寺这个大家庭中的。个体是侠义、侠行的最基本载体,但个体要发展,往往要依附于特定的帮派,获得能力的成长和庇护,离开了师承门派,生存都成问题。与此对照,背叛帮派的惩罚十分严厉,不但被人耻笑,加以欺师灭祖的罪名,还会成为整个帮派的敌人,人人可得而诛之,例如《倚天屠龙记》中的宋青书背叛师门,即便有身为武当掌门的父亲亦不得善终。退出江湖更是难被容忍,江湖中人往往视退出是舍弃武林“大我”的逃避行为,退出付出的代价极大,如《笑傲江湖》中的刘正风,金盆洗手之时也是绝命之时。当需要做“大事”时,如抵御异族入侵,帮派还会形成联盟,如《天龙八部》中各路英豪联合对抗契丹。帮派联盟嵌入到族群关系中又构建出了更复杂的社会存在。总体来看,侠义虽然会突出个体的光辉形象,但整个江湖的生存形态还是基于集体主义的。
本文旨在通过智能化文本分析,提取金庸武侠小说文本中词汇水平所蕴含的上述心理维度(社会认知内容、情绪、时间及个人-集体主义),展示这些心理维度之间的关系,并据此对金庸武侠系列小说进行分类。
2 方法
2.1 研究素材
金庸撰写的15部武侠小说修订版,共计417章。在进行因素分析时,以章为基本单位,在进行相关分析和聚类分析时,以整本书为单位。
2.2 工具与程序
首先,根据引言对于概念的定义,采用中科院心理研究所开发的“文心”中文心理分析系统(Gao,Hao,Li,Gao, & Zhu, 2013),分别提取小说文本中的情绪词、时间词、人称代词、能动性词、社群性词汇(具体词汇见结果分析部分);其次,采用统计软件进行因素分析提取各个研究概念的因子构成、采用相关分析描述各个变量之间的关系,并用聚类分析将所有的作品分类。
3 结果
3.1 四个概念的因子构成
首先,社会认知内容基本维度词汇的分析,采用主成分法提取两个因子,解释变异的56.5%。社群性因子主要包含社会历程词、家庭词、金钱词和朋友词(无论是隶属负荷还是交叉负荷,均以0.4为标准,下同),能动性因子包含成就词、休闲词、工作词和身体词(负值)。
其次,进行情绪词汇的因素分析。采用主成分分析,获得3个因子,可以解释58.0%的变异。第一个因子是愤怒,包括脏话、生气词和负向情绪词,第二个因子是喜悦,包括休闲词、正向情绪词和悲伤词(负值),第三个因子是焦虑,包括焦虑词、死亡词和否定词。负向情绪词在焦虑因子上有较高负荷、否定词(负值)在喜悦因子上有较高的负荷。
再次,进行时间维度的词汇分析。采用主成分分析,获得三个意义明确的因子,三个因子解释69.6%的变异。未来因子包含未来和未来词,现在因子包含现在和现在词,过去因子主要是过去词。现在词在未来因子上有较高负荷,过去词在现在因子上有较高负荷,现在(负值)在过去因子上有较高的因素负荷。
最后,对人称代词进行分析,可提取两个因子,解释全部变异的65.8%。第一个因子由第一、二、三人称复数代名词组成,命名为群体(集体主义),第二个因子由对应的人称单数代名词组成,命名为个人(个人主义)。第三人称在两个因子上均具有较高的负荷。
3.2 各个概念因子之间的基本关系
以因素分析提取的因子权重赋分,得到每一个因子的得分,此分数为标准化分数,平均数为0,标准差为1。相关分析表明,心理维度之间呈现出结构化、模式化特征,表现如下。群体友好主义:复数使用伴随能动性、喜悦情绪,单数使用则伴随低能力和焦虑情绪;负面时间观:时间线索所牵出的是消极的未来,冷酷的当下和令人心焦的过去;能力主义:能力与积极情绪正相关、与焦虑情绪负相关,能力伴随正面叙述。
3.3 作品整书在各个概念维度上的类别化
在整书水平依次对四个维度进行快速聚类,所得结果分述如下。
以社会认知内容聚类,得到四个有意义的类别(见图1)。《越女剑》自成一类,其中最少社群、温情的描写,是孤独型的世界。《碧血剑》《笑傲江湖》《飞狐外传》《鸳鸯刀》《书剑恩仇录》《鹿鼎记》六部作品形成第二类,偏向于成就兼温情的双正面描述,是世俗型。第三类包括《射雕英雄传》《倚天屠龙记》《天龙八部》《神雕侠侣》四部作品,其中对能力和社群性内容多为双负面的描述,对能力和道德这两大主题双重否定,可以命名为厌世型。第四类包括《白马啸西风》《连城诀》《雪山飞狐》和《侠客行》,这些作品偏向于社群性正面、能动性负面的对比描述,呈现出好人型风格。
依据情绪特征聚类,也得到四大類(见图2)。第一类是平淡型,典型作品是《神雕侠侣》、《倚天屠龙记》、《射雕英雄传》和《雪山飞狐》,这些作品中较少负面、焦虑情绪,积极情绪也较低,总体上情绪呈现是略微负面。情绪平淡型的作品还有《天龙八部》、《笑傲江湖》、《侠客行》、《飞狐外传》、《鸳鸯刀》、《书剑恩仇录》、《碧血剑》和《越女剑》,这些作品同属于第一类,但与该类别四部典型作品有细小的差别。其余的三部作品,每一部自成一类,其中,《连城诀》具有最高水平的负面情绪、最低水平的正面情绪,脏话和死亡词使用最多,是负面型;《鹿鼎记》是情绪最欢快的作品,著作中负面情绪不低,但突出使用正面情绪词汇,情绪呈现出混合型风格;《白马啸西风》焦虑描写最多,可命名为焦虑型。
以时间维度聚类,也得到四类(见图3)。《神雕侠侣》自成一类,最突出当下。《鸳鸯刀》自成一类,其中透露的时间信息最少,尤其是关于过去和未来的信息,可命名为时间迷失型。《白马啸西风》和《越女剑》同属一类,其时间信息多指向于过去。其余著作形成第四类,时间信息在过去、现在和未来三个维度上都比较均衡,或某一维度略微突出,这是世俗生活最突出的一种类型,可命名为现实型。
最后依据个人-群体聚类,得到三大类六个小类(见图4)。第一大类是极化的群体主义,由《书剑恩仇录》和《鸳鸯刀》两部作品组成,书中突出了复数的使用,压低了单数人称的使用,用词有突出群体、碾压个体的特征,是在所有作品中讨论或描写群体的极端。第二类中的作品或偏向复数使用或偏向单数使用,形成非典型的集体主义和非典型的个人主义两个小类,其第一小类包括《笑傲江湖》、《鹿鼎记》和《碧血剑》,突出复数词的使用,但没有压制单数词的使用,第二小类包括《白马啸西风》和《侠客行》,与第一小类相反,突出单数词而不压制复数词的使用。第三大类与第一大类正好相反,是极化的个人主义,由《连城诀》和《天龙八部》两部作品构成,它们突出单数压制复数,是所有作品中讨论或描写个体的一极。第四大类是个人与集体迷失型,包括两个小类,第一个小类别由《越女剑》和《飞狐外传》两部作品构成,该类在所有的作品中人称使用最少,无论单数还是复数词汇的使用比例都是最低的,第二个小类包括《神雕侠侣》、《雪山飞狐》、《倚天屠龙记》和《射雕英雄传》四部作品,该小类都是单复数使用比例居于中间的作品,复数使用偏少,单数使用居中而不突出。
4 讨论
4.1 文学作品中的无意识心理维度
本研究探讨了金庸武侠小说词汇水平体现的心理维度。四个分析维度对于解释作品具有一定的合理性,但各个维度概念边界的清晰度不同,因素分析结果所展示的个人-集体主义维度、时间维度非常清晰,可以看作是无意识心理的强维度;情绪维度各个因子内容之间的交叉杂糅较多,社会认知内容在归属上也存在模糊空间,可以看作是无意识心理的复杂维度。
四个分析维度各自具有其理论渊源。社会认知基本维度有进化论、自我认知、群体刻板印象等系列研究为依托(毕重增, 2019)。人称代词的单数和复数是个人主义和集体主义的指标,文化心理学将单数与个人主义联系在一起,复数与集体主义联系在一起(Oyserman, Coon, & Kemmelmeier, 2002)。时间分段综合是主观时间的最基本框架(黄希庭, 2014)。情绪聚类虽未得到消极与积极的简化划分,但在复杂江湖的爱恨情仇背景下,其意义也是可以理解的。聚类分析中情绪偏向负面的作品只有三部,符合金庸侠情以“喜”为主的特点(卢敦基, 2017)。
因素分析虽然呈现了清晰结构,但也有一些词汇在非命名因子上有较高负荷。就时间取向而言,现在与未来有一定连续,过去则很强势地插入到现在之中,也包含了未来因素。本文认为这可以理解为作者叙事风格的体现。一方面,作品不可能平铺直叙,为了突出戏剧化效果,时间跳跃是个很好的选择;另一方面,个人成长经历和门派之间的渊源及其错综复杂的关系,也难于聚焦于同一个时间点展开。词汇在因素分析中的交叉负荷(成就词和工作词在社群性上有较高负荷),既是社会认知内容维度内容非独立性的表现,也是用词汇表达、区分社会认知维度的局限。理论上,社会认知两大内容维度相对独立,但能力和意圖本身并不矛盾,无论在生活或文学作品中,同一个词汇往往具有多重含义。例如狡猾一词,其形容的对象往往令人敬而远之,但另一方面,狡猾还蕴含着能力色彩,是一种聪明能干的贬义表达。也就是说,在用社会认知内容基本维度去描述个人或群体时,可能会呈现矛盾的刻板印象类别(Fiske,Cuddy,Glick, & Xu, 2002),反过来,依据现实的或想象的词汇去描述内容维度,就会出现同一内容在维度归属上的模糊。
4.2 金庸武侠小说的个性化特征
聚类分析体现了每本书的“个性化”特征,也就是不同于其他书籍的地方。四个维度的聚类从不同角度展示了金庸武侠小说的区别化,也体现了蕴含在类似文词中的多样化。
体现特异性是作品展示不同角色、人物命运和主题所需要的,这些类别的鲜明特征使得整个金庸武侠作品系列复杂磅礴。那些在聚类分析上相似、实际内容和风格却有鲜明差异的作品,则超出了词汇水平智能化分析的区分力,换言之,聚为同一类但具有鲜明差异的作品,作者构思和铺陈的高明超出了智能化词汇分析水平所能探测的差异。如《射雕英雄传》和《倚天屠龙记》在四个维度的聚类分析中总是聚为一类,但两部作品品读起来差异巨大。这个特点也体现在特定类别上,以《射雕英雄传》为例,其在社会认知内容维度上属于厌世型,即多用消极的能动性和社群性词汇,但该作品虽然有各种各样的负面描写,却又是金庸武侠小说中最富青春气息的作品,是最质朴、健康又极为明亮的(赵小琪,王宁宁, 2012)。
4.3 局限和展望
就方法而言,采用词汇而不是语段或篇章水平的分析,无法体现文本高水平的意义;而基于词汇统计的作品聚类分析,也会产生类似的局限。另外,本文只进行了单维度多因子聚类,也没有纳入其他的武侠小说作家作品或非武侠小说进行对比,因而分析框架是否具有时代意义或领域风格特征,尚不得而知。未来研究可以在领域或时代背景中,通过大量文本考察该方法的适应性。
5 结论
通过智能化文本分析,获得了金庸小说潜在的心理维度,并在整书水平对金庸武侠作品进行了有意义的类别划分。本文的研究发现表明智能化文本分析有助于从社会文化心理基质去解读文学作品。
参考文献
毕重增 (2019). “社会认知内容的基本维度”专题简介. 心理技术与应用, 7(1), 1.
毕重增 (2019). 德行与才智——幸福生活的社会认知基本维度. 北京: 商务印书馆.
黄希庭 (2014). 探究心理时间. 北京: 商务印书馆.
卢敦基 (2017). 侠情与武功: 金庸武侠小说的创新性集大成——《书剑恩仇录》与《卧虎藏龙》的比较研究. 东岳论丛, 38(12), 12-19.
魏仪 (2003). 金庸小说的叙事模式. 福建商业高等专科学校学报, (4), 51-53.
吴育锋, 吴胜涛, 朱廷劭, 刘洪飞, 焦冬冬 (2018). 小说人物性格的文学智能分析: 以《平凡的世界》为例. 中文信息学报, 32(7), 128-136.
赵小琪, 王宁宁 (2012). 台港名家名作选读. 北京: 中国民主法制出版社.
Fiske, S. T., Cuddy, A. J., Glick, P., & Xu, J. (2002). A model of (often mixed) stereotype content: Competence and warmth respectively follow from perceived status and competition. Journal of Personality and Social Psychology, 82(6), 878-902.
Gao, R., Hao, B., Li, H., Gao, Y., & Zhu, T. (2013). Developing simplified Chinese psychological linguistic analysis dictionary for microblog. In Brain and Health Informatics: International Conference, BHI 2013, Maebashi, Japan, October 29-31, 2013. Proceedings (Vol. 8211, pp. 359-368). New York: Springer.
Oyserman, D., Coon, H. M., & Kemmelmeier, M. (2002). Rethinking individualism and collectivism: Evaluation of theoretical assumptions and meta-analyses. Psychological Bulletin, 128(1), 3-72.