APP下载

哈金小说《等待》的读者接受研究
——基于Python的情感分析方法

2024-01-18

闽西职业技术学院学报 2023年4期
关键词:哈金评论者等待

黄 剑

(南昌大学外国语学院,南昌 330000)

华裔美国作家哈金的小说《等待》在美国声名远扬,引起学术界广泛关注。根据余小梅对21 世纪以来CSSCI 及其扩展版期刊的统计,有关《等待》的研究论文主要涉及道德问题、作者的批判观点、创作与批评、离散书写、孔林形象、风格、主题、东方主义、语言、文化翻译以及将就的婚姻观等[1]。蒋东梅对哈金作品的研究总结发现,主要的评论范式包括后殖民主义批评、存在主义和形式主义[2]。然而,这些研究大多从文本角度出发,未将文学作品涉及的重要维度——读者,纳入考虑。读者对作品的接受是文学作品实现其旨归意义的关键,缺乏对读者的研究可能使对作品的解读显得不完整。亚马逊网站作为美国最大的电商购书平台以其众多的图书信息、客观公正的言论和全社会的广泛参与享有盛誉[3]。同样,好读网站作为图书分享型社交网站,已经汇聚了庞大的图书评论信息,截至2019 年,注册用户已达到9 000 万[4]。本研究的数据来源于这两个网站,但由于信息量巨大,单纯依靠人工检索难以有效收集和处理。因此,迫切需要计算机技术介入以帮助用户采集和整理相关评价信息。正如俗语所言,“工欲善其事,必先利其器”,情感分析方法是解决这一问题的良好途径。以哈金的小说《等待》为例,本研究选取了亚马逊和好读网站上读者对《等待》的评论进行情感分析,旨在探究读者评论的特点和规律,试图揭示本小说成功的秘诀,为中国故事走向世界提供参考。

一、情感分析的研究原理及可行性

情感分析(Sentimental Analysis),又称意见挖掘(Opinion Mining)或情绪人工智能(Emotion AI),是一种运用自然语言处理技术对文本的情感倾向性进行分类的方法。本过程涉及对主观信息的提取、量化和研究。情感分析的分类包括极性(积极、消极、中立),情感(喜爱、厌恶、伤感等),迫切度(迫切或不迫切)和倾向(感兴趣或不感兴趣)。其目的在于发现文本中的积极或消极情感因素,通常应用于商品评论信息和公共舆论的分析。在商品评论方面,生产者通过抓取商品评论数据可以了解消费者对产品的体验和反馈,以生产更符合市场需求的产品。同时,消费者通过评论了解产品质量等信息,优化购买决策。在舆情监测方面,情感分析通过提取和分析社交媒体上的用户评论,了解公众对重大事件和公共政策的情感态度。[5]

情感分析目前主要采用机器学习和情感词典两种方式。机器学习方法利用未标记的语料和人类对语言的理解,使机器能够有效识别文本的情感倾向。情感词典方法则利用文本中带有情感倾向的极少数词汇对文本进行分类,通过构建朴素贝叶斯分类器等算法实现[6]。在构建情感分类器时,需要进行特征选择、特征权值计算、分类器训练和分类器测评等步骤。构建情感词典时,需要人工标记文本的情感倾向,计算情感倾向通常取决于文本中的较为极端的词汇,如褒义词和贬义词等[7]。基于情感词典的方法是在构建情感字典的基础上实现的。由于Python语言开源性、可扩展性等特点,且网络上有许多现成的标准库,可以利用开源代码平台上的工具包和情感字典进行情感分析。TextBlob 是一个基于Python 的文本处理程序库,可执行多种自然语言处理任务,如词性标注和情感分析。

二、情感分析的实验过程

利用Python 程序导入csv、time、requests 等库向亚马逊及好读网站中哈金《等待》一书的读者评论页面发起访问请求,进行数据爬取。笔者在亚马逊网站爬取相关读者评论共计346 条,在好读网站爬取到1 199条评论。由于好读网站默认只显示300条读者评论,且较长的评论用more 条件隐藏,故在抓取时将读者评分(1~5级)和more隐藏内容作为筛选条件,成功抓取到全部读者评论。抓取时保留评论者用户名、评论日期、赞同数及评论内容等有效信息。获取的读者评论输出为一个csv 表格文件。从抓取的总计1 545条评论中剔除乱码、重复评论及无法判断情感倾向的无效读者评论33 条,余下1 512 条有效评论。

在任务管理器命令行运行清华大学pip源(地址为https://pypi.tuna.tsinghua.edu.cn/simple/),下载TextBlob 和wordcloud工具包并安装。在Python中导入用于情感分析的工具包TextBlob。TextBlob 是用Python 编写的开源程序库,具有词性标注、名词性成分提取、情感分析等功能,在此调取其情感分析功能。随后导入wordcloud 程序库,从而以关键词为单位更加直观地呈现读者评论的情感倾向。进而利用pandas 程序库以便Python 读取之前保存的csv 表格中的读者评论并进行情感分析。接下来,笔者定义了函数get comments,用于获取评论中的所有单词;再定义函数get wordcloud,用于词云的生成;再设置一个用于获取情绪极性评分的函数get rating comments,计算每条评论的情绪极性评分,并划定阈值将评论分类为积极、中立或消极。TextBlob 工具包返回的读者评论数据情感极性值在-1 到1 之间,如极性值为正,评论被视作积极;如极性值接近0(区间为-0.05 到0.05),则视为中性;若极性值为负,则视作消极。所有搜集到的读者情感极性值被输出为csv表格文件,从而便于对读者对《等待》一书的接受程度进行总体、直观、定量的分析。

(一)读者的总体评价

在对抓取到的1 512 条评论进行智能情感分析后发现,积极评价有1 096 条(占72.5%),正向情感极性均值为0.24,中性评价有219 条(占14.5%),消极评价有197 条(占13 %),负向情感均值为-0.22,读者正负情感评论数量比约为5.5:1,故从网站读者评论分布以及读者评论量化分析来看,读者对本书总体上持肯定态度。另外,就读者的评分而言,从笔者抓取的2 个网站评论数据看。从总体评价看,好读网站中《等待》一书的读者评分为3.52 分(满分为5 分,即5 星),显得差强人意。其中,给出5 星评价的读者有3 216 人(占16%),给出4 星和3 星的读者分别为7 296人(占36%)和6 682人(占33%),打2星以及1 星的读者也分别达到2 195 人(占11 %)和555 人(占2 %)。可见,好读用户对本书的评价呈“中间大、两头小”趋势,两极化的评论相对偏少,而中等偏上的评论(4 星和3 星)占大多数。亚马逊网站的446 名读者对本书给出了4.1 分的总体评分(满分亦为5 分)。其中,5 星评论占172 条(占52%),4星评论占143 条(占23 %),3 星及以下评论则只有131 条(占25 %)。相对而言,亚马逊用户给本书的总体评分较高,且评分多集中于高分段。网站的星级评价得分与本次实验的情感分析结论结果一致,呈正比例关系。

将评论分数降序排列,选取其中情感极性值排名前10%且长度达到30 词的前100 条评论,笔者发现对《等待》一书做出正面评价的读者,大多提到以下几点。一是对小说标题的隐喻性表示认同,引起多位读者共鸣。多位评论者认为等待具有普适性,且具有多重指涉性,不仅指孔林为离婚而等待了漫长的18 年,而且喻指我们每个人的生存状态。有的评论者指出,我们活着的每一个人都是在等待,等待死亡,不管你是尽你所能掌控人生,还是日复一日如机器人般重复日常生活。有的评论者指出,标题即是主题,发人深思,我们多少次在等待,我们等待过多少东西?标题就是我的感受,我一直在等待。有的评论者指出,只有读到书的末尾,才明白真正等待的人不是孔林,也不是曼娜,而是淑玉,她的等待最终有了回报。根据哈金的设想,读者也应该耐心等待结局。为何是“18 年”的等待,它喻指古代传说故事,王宝钏在寒窑苦等薛平贵18 年,却不知,后者已在军中娶妻,哈金是在写一个现代版王宝钏和薛平贵的故事。《等待》中的主人公都能在王宝钏和薛平贵故事中找到对应者。二是对小说的哲理性有同感,引发出对人性的思考,发人深思。评论者认为从书中得到人生的教训。多位评论者引用谚语“The grass is always greener than the other side”指出人总是觉得得不到的才是最好的,殊不知幸福往往就在身边,而我们却去追求很多没有得到的东西。孔林的结局就是这样,费尽心思与淑玉离婚,等到最后真正离婚了,却发现淑玉的好,又想念以前的生活,故事令人意外的结局也更彰显了此书对幸福真谛的探求。有评论者喜爱哈金以反思的方式描述已婚军医和护士纯真但却有违世俗的爱情故事。有评论者指出,这个关于爱情、人生和等待的故事越读越有趣,也让他越来越理解书中人物,结局具有相当的开放性,预示更多的等待。三是关注哈金的写作,对他高超的英文写作水平表示赞扬,为一个中国人用非母语写作而能达到语言优美、地道而惊叹不已。有评论者指出哈金有望复兴美国极简主义写作风格,他柔和、不张扬的叙事风格让我们了解了人物,节奏悠闲,时不时地用温和的幽默给这部作品增添几分趣味。

(二)词云图解析

通过Python 中导入的wordcloud 工具包筛选出读者评论中出现频度最高的关键词绘制词云图,见图1。其中出现频率越高的关键词字号就越大,视觉效果越突出。为更准确了解关键词出现情况,笔者统计出关键词出现频次表格,见表1。据此,可以直观地了解读者最为关注的热点及情感态度。读者评论中出现频次最高的主题词大致可以分为三类:一是作品名、角色名及作者名等,如等待(waiting)、哈金(Ha Jin)、孔林(Lin Kong)、淑玉(Shuyu)、曼娜(Manna),其中等待出现452 次,哈金出现224 次;二是作品组成要素,如人物(character)、故事(story)及写作风格(writing),其中故事出现613次,位居榜首,人物出现564 次,writing 出现165 次,可见评论者最为关注的还是小说讲述的故事本身,故事中出现的人物和写作方式也很受关注;三是读者阅读后的感受与评价,如有趣、好及享受,其中给予好的评价次数达到203。

表1 关键词出现频次表

图1 读者评论词云图

(三)读者评论关注的作品特征分析

表1 可见读者较多关注小说的人物、故事、写作这三方面作品特征,经过Python分析,得出亚马逊和好读网站读者对这三者的情感态度。可以看出,故事的积极情感均值得分最高,读者对故事的评价最高,人物、写作其次。在亚马逊网站,积极情感分值最高的为故事(0.1948),依次为人物(0.1788)、写作(0.1780);在好读网站,积极情感分值最高的为故事(0.2127),依次为写作(0.1909)、人物(0.1822)。

1.关于故事的评论分析。在所有读者评论中,关于故事(story)的读者评论所占比重最大,共613条。在亚马逊网站的共计346 条评论中,含关键词story 的有182 次,其中积极的最多,占152 条。在相关评论中大多对故事情节进行概述,或进行积极的评价。好读网站的1 199 条评论中,含关键词story的有431条,其中积极的为最多,占348条,积极评论情感极性均值为0.213。故事的情感均值为0.230,在三者中分值最高,是读者最为满意的作品元素。小说本就是讲故事的艺术形式,故事选择得恰当,作品也就成功了一大半,多数评论者对中国20世纪60—70 年代的社会及人物故事好奇感兴趣。有评论者认为选择这段时期的中国爱情故事,像打开了另一个异国历史的世界。虽然是小说,但是小说故事有可能是真实发生的事情。优秀的作家都是讲故事的高手,哈金就是杰出的故事讲述者。有评论者认为,哈金带着怜悯与忠实,能够编制一个有着复杂人物关系的故事。多位评论者提到故事精彩的开头,称其一下子抓住读者,非常吸引人。也有评论者提到,小说以完美连贯的方式叙述了一个跨越18 年的令人伤心的爱情故事。可见,打动人心的故事能跨越国界和语言的障碍。不少读者对特殊年代下主人公孔林为了离婚进行的漫长等待感到惋惜,有评论者指出:根据中国当时的法律,如果没有妻子的同意,男主人公只有18 年后才能与妻子离婚。他的生活是如此痛苦和无价值。也有人对当时制度和中国传统文化中的包办婚姻等因素对人们欲望的压抑提出了思考——也许等待并不只是小说真正的主题,作者只是利用孔林的故事描绘20世纪70—80年代普通中国人的生活。这部小说的动人之处在于它反映了中国社会的剧烈变化。

涉及故事的消极评价中,有评论者指出,本书获奖是由于符合西方大众对旧中国陋习的指责,哈金旨在讲述一个有异国风情的故事,他的偏见显而易见,故事没有什么发展,没有深层次内涵,没有唤起读者同感,只是在意识形态方面极力展示中国的一些不好的风俗。有评论者指出,故事的无趣沉闷让他想起日裔英国作家石黑一雄的风格;不同在于,哈金采用第三人称叙述,而非第一人称,但结局却发人深思。让人想起伊索的狗骨头寓言,它总是想要不能拥有的东西,当它得到了它想要的一件东西时,它仍然想要另一件东西。

2.关于人物的分析。关于人物的读者评论也大多持积极态度,以亚马逊网站为例,168 条涉及人物(character)的评论,积极的有135 条,情感极性均值为0.179。好读网站与人物相关评论则有396 条,其中倾向为积极的有306 条,情感极性均值为0.182。部分读者认为男主人公孔林比较被动、软弱,性格优柔寡断,遇到难题就是视而不见,不做决定,抱着顺其自然的想法。有些人则同情淑玉这一传统女性的角色。孔林的妻子淑玉并不是出于金钱等现实原因拒绝离婚,她只是一个朴素的传统中国女人,这从她裹着小脚这一点可以看出。也有人从更深层次的时代背景和传统文化角度出发,认为这些因素抑制了个人的情感。也有读者为孔林对淑玉的所作所为哭泣,但依然担心他,想质问他,知道什么是幸福吗?尽管他只是小说中虚构的人物。还有评论者喜欢孔林,认为他是好人又谦逊,曼娜也是好人只是有点软弱。

涉及人物的消极评价中,有评论者指出人物就像木偶,传递着没有多少情感的台词,而且人物也不可信,他们的举止和个性令人恼火。孔林所经历的等待是懦弱的表现,得不到读者的任何同情,淑玉的爱和等待逐渐变成一种可悲的渴望,她希冀实现没有真正感情基础的家庭团圆。

3.关于写作技巧的评论分析。统计结果显示,读者大多对哈金的写作技巧(writing)持正面态度。亚马逊网站涉及写作技巧的63 条评论中正向评论有53 条(占84.1%)。好读网站相关评论有144 条,其中积极评论108 条,情感极性均值为0.191。其中不少评论都用了非凡及好这样的形容词来描述哈金的写作,例如:“哈金的写作风格十分出色。我很享受关于现代中国的故事,它揭示了生活的本来面目。”哈金用简洁但却美丽的语言,提醒文学创作的目的——让读者爱读。有评论者认为其写作让人想起赛珍珠的小说《大地》。赛珍珠的《大地》的确与《等待》有一定的相似性。一是体现在两位作家都未借鉴运用现代或后现代的写作技巧。哈金曾表示,魔幻现实主义创作技巧在欧美早已失去市场,他也没有试图运用这些技巧以增加故事的怪异性。而赛珍珠对西方意识流小说的批判也可以看出她的诗学观念。她指出西方小说中作者所做的各种各样的实验让读者觉得大多有些熟悉,用一些诸如人生的片段、意识流之类的陈腐语句来表述[8]。二是中文特色语言的直接英译,未加注释。在《等待》中文版中“世上没有不透风的墙,在英文版中直接写成“there’s no wall without a crack”,再如“不做亏心事,不怕鬼敲门”,也是直接写成“If you had not done anything to be ashamed of, you would not be afraid of a ghost knocking at your door.”赛珍珠在《大地》中,用“fire dragon”指代“火车”,用“morning rice”“noon rice”指代“早饭”“中饭”。三是两位作家都走写实主义路线,叙述客观自然,遵循人物命运的变化。在《等待》《大地》中多是极简地运用白描手法,不重渲染。

为数不多的消极评论中,有人认为写作过于简化,另外哈金的写作方式让人感觉此书像翻译糟糕的作品。有必要指出的是,本书哈金用英文写成,再传到国内由中国人翻译成中文,书中关于有中国特色的词汇等可能会让母语非汉语的读者产生理解上的困难。

三、情感分析的实验结论

情感分析是量化海量网络数据的有效方式,借助情感词典及Python 技术,对网络平台不易直观的读者评论进行量化统计,得出情感评价趋势及特征,是有益的尝试,也是把文学与计算机科学结合的探索,为中国故事走向世界提供借鉴。人工智能技术能够极大提高工作效率[9]。

在本次实验中,发现读者对哈金小说《等待》的积极评价占比最高,中性评价次之,消极评价最少。从热门评论看,读者关注小说标题的隐喻性、小说蕴含的哲理性和哈金高超的写作水平。从特征情感看,读者最为满意的是故事,人物和写作次之。这也提示我们,故事是读者最为感兴趣的部分,人物的塑造和写作的方式也是读者关注的地方。

《等待》讲述的是中国20 世纪70—80 年代的爱情故事,故事发生的时空背景对于异国读者都是陌生的,极具民族性,其中蕴含的却是人类共通的情感,故事因而具有了世界性价值。哈金正是把富有民族性的一个中国故事,用英语讲述出来,走向了世界。

由于本书是一本描述20 世纪60—70 年代东方国度的小说,他们中不少人是因为本书曾获得国家图书奖、福克纳奖等奖项才对其产生好奇与关注。之后很多读者在评论中会谈及本书标题和内容的关系,有读者认为标题恰如其分,高度概括了男主人公孔林——一个懦弱的医生为了与包办婚姻中的妻子离婚而做出的长久、无意义的等待。大部分在好读网站给出3 星以上的读者总体上给此书做出了正面评论,且许多读者在读书前后对本书的背景及中国文化是有一定了解的,愿意放下一些先入为主的观点代入到故事情节,评论较有深度且独到,对故事的时代背景和人物性格做出了精准的分析,体现了好读与亚马逊网站读者的专业性。有相当部分的读者认为本书足够好或值得推荐,也有读者夸赞哈金的英语写作能力。

但是不少读者(尤其是给出3 星的读者)在总体肯定本书的同时,也指出了一些不足之处。有的读者指出这本书僵硬乏味且滞涩。有的读者认为这本书在其精彩的开头之后,没有能保持住这个势头,甚至感觉对全书有些五味杂陈,认为尽管这本书不坏,但却不值得向他人推荐,并描述了众多文学奖容易抬高读者预期的情况。有的读者认为本书所用语言过于简单,甚至是欺骗性的简单,仅有一些对风景的描写勉强谈得上美丽。有的读者认为本书的标题和全书都十分普通,就如同这本书的主角孔林一样乏善可陈,因为孔林是一个没有真正生活目标、随波逐流的人;同时认为本书也有可取之处,比如对梦境的描写为本书增添了些许童话色彩,还有孔林对他的“第二自我”说话的样子,就像一种对自己道德和价值观的拷问。有的读者提到自己对中国文化的不了解,强调书中描述的中国现实、政治与风俗习惯与自己作为西方人所经历的都不同,认为这本书与自己通常阅读的书都不相同,因此需要花费时间来达到沉浸式阅读体验。此外,书中的人名、地名,诸如林空、淑玉以及鹅庄,都给读者带来一种异域文化的冲击。

猜你喜欢

哈金评论者等待
人工智能技术的电子商务虚假评论者检测
你的过去在你脸上——哈金访谈录
哈金
信封里的头发
基于D-S证据理论的电子商务虚假评论者检测
安静的等待——观《归来》有感
在希望与绝望的旋律中交织
阅读教学:“吻醒”文本的过程
“等待”让学生拥有更多的出彩机会
基于情感特征和用户关系的虚假评论者的识别