基于情感分析技术的索尔 · 贝娄早期作品中的女性观
2023-08-24梁彪
【摘要】情感分析技术是自然语言处理领域的重要分支。将文学语言视为自然语言,利用百度智能云平台对贝娄早期作品中的女性书写进行情感分析是一次创新性尝试。实验表明,处于创作早期的贝娄整體上对女性人物呈正向情感倾向。利用百度智能云对文学语言进行情感分析具有一定的可靠性,但绝对依靠机器将使文学研究失去人文属性的本质,而单纯的文本细读会造成主观臆断的可能。机器与人工的结合是新文科建设背景下文学研究兼具科学与人文双重属性的有益尝试。
【关键词】索尔·贝娄;女性观;情感分析;百度智能云
【中图分类号】I107 【文献标识码】A 【文章编号】2096-8264(2023)28-0055-03
【DOI】10.20024/j.cnki.CN42-1911/I.2023.28.017
基金项目:本文系湖南工程学院青年科研项目“索尔·贝娄创作中期的女性观研究”(项目编号:XJ1815)阶段性成果;2022年湖南省教育厅科学研究项目(项目编号:22C0422)。
一、引言
美国诺奖作家索尔·贝娄历来是国内外研究者们的关注对象,其笔下的女性人物更是引发了不小争议。有学者认为,贝娄是一名厌女型作家,其笔下的女性人物大多为魔鬼化形象,与男性人物形成竞争关系。还有部分学者对此大加批判,认为贝娄塑造的女性人物是敢于对抗男权,追求自由平等的新女性。此类研究者大都采用文本细读法单凭一部或几部作品便断定其整个创作生涯的女性观积极与否,没有以发展的眼光看待贝娄女性观的演进,有失公允。贝娄的创作生涯长达近60年,学界普遍将其分为早、中、晚三个时期。在一次采访中,贝娄公开宣称:“我早期的作品没有多大用处,《晃来晃去的人》和《受害者》可不是我的乐子”[1]。即便如此,贝娄早期作品中的女性书写仍值得研究者们去挖掘,是综合考量其女性观演进的前期基础。此外,单纯的文本细读可能会因个体差异而产生不同的解读,容易造成主观臆断。因此,为增强对贝娄女性人物研究的科学性,响应新文科建设的呼唤,采用现代信息技术对贝娄作品进行“远读”尝试已变得紧迫且必要。鉴于语言文字的固有情感意义会传递出作者自身的感受和态度,本文将运用自然语言处理领域的情感分析技术对索尔·贝娄早期作品中的女性人物书写进行情感倾向分析,以揭示贝娄在该时期的女性观,进而探讨将文学语言视为自然语言进行情感分析的可行性问题。
二、文学研究与情感分析技术
21世纪以来,信息技术的迅猛发展影响着社会生活的方方面面,也给人文社科研究带来了巨大的机遇与挑战,国内部分研究者正主动融入这场信息化革命。早在1949年,意大利神父罗伯托·布萨(Roberto Busa)就与IBM合作对神学家托马斯·阿奎那(Thomas Aquinas)的全集做索引。自此,“人文计算”这一概念开始获得广泛关注和实践,相继出现了颇具影响力的研究协会与学术期刊。进入到21世纪,计算机技术与互联网的迅猛发展使得大型数据库的建设成为可能,学界逐步转向对“数字人文”这一概念的讨论,但对于其概念定义和出现时间至今仍未达成共识。
在文学研究领域,弗朗哥·莫莱蒂(Franco Moretti)是这一时期引领世界文学研究朝数字人文迈进的重要人物之一。2000年,他在《对世界文学的猜想》一文中,首次提出了“远距离阅读”(distant reading)这一术语[2]。2010年,莫莱蒂又牵头建立了斯坦福大学文学实验室,致力于运用现代计算机技术对世界文学进行研究,是该领域迄今为止最具世界影响力的项目。汉语世界中将信息技术与人文研究相结合的实践始于20世纪下半叶,研究领域主要集中在计算语言学、地理信息系统与历史信息系统、学术数据库、档案库库建设、大型商业数据库建设等。具体到文学研究相对较少,美国红学者陈炳藻在1980年首届国际红楼梦研讨会上宣读了论文《从词汇上的统计论〈红楼梦〉的作者问题》,率先利用计算机对《红楼梦》后四十回的著作权属进行探析,与会者对他的创造性研究方法表示赞赏[3]。近年来数字人文在中国学界获得了广泛关注和发展,但真正践行数字人文的研究者甚少。赵薇认为数字人文有强烈的“实践性”要求,需要用成果说话,把做数字人文研究变成“谈论数字人文”,最终难逃昙花一现的结局[4]。情感分析技术应用于文学研究既是对数字人文“实践性”呼唤的有效回应,也是增强文学研究科学性的有效手段。
情感分析,也称观点挖掘。这一研究领域的目标是从文本中分析出人们对于实体及其属性所表达的观点、情感、评价、态度和情绪[5]。2003年Nasukawa、Tetsuya和Jeonghee Yi在第二届知识获取国际研讨会上公开发表论文《情感分析:运用自然语言处理捕获好感度》。由此,这一术语开始进入学界的视野,但与其相关的研究早些时候便已开展。时下,情感分析技术已被广泛运用于电子商务、市场预测、舆情监控、政治选举等领域,与管理学、政治学、经济学、语言学呈现出跨学科交叉研究的繁荣景象。在文学研究领域,国内外部分学者已开始尝试将情感分析运用于文学计算批评实践,并取得了高质量成果。Yu Bei运用朴素贝叶斯(Na?ve Bayes)和支持向量机(SVM)两种算法对美国早期小说进行情感分类处理,以比较这两种分类器在处理文学文本时的表现[6]。张璐以中国科幻文学作品《三体》为例,将Python情感分析运用于《三体》海外读者的接受研究,从互联网海量评论中以量化的方式挖掘出英语读者对该书的情感态度和评价,总结该书在海外成功或失败的原因[7]。石春让和邓林通过运用情感分析技术,分析了西方读者对莫言小说十一部英译本发表的网络评论,量化其情感态度并分类整理代表性的评论,探索西方读者的接受程度[8]。
当前,情感分析主要依靠机器学习、情感词典以及借助第三方商业平台实现,三者各有其优缺点。机器学习需要构建机器学习模型,采用无监督学习和有监督学习两种方法。无监督学习依赖处理语料的领域范围,由于语料没有做过标记,存在对基准情感词的依赖性问题,准确率较低。而有监督学习是机器学习的常用手段,语料通常已被做过标记,采用的算法包括朴素贝叶斯(Na?ve Bayes)、最大熵(Max Entropy)、决策树(Decision Tree)、TF-IDF(term frequency-inverse document frequency)等。因其较高的准确性,有监督的机器学习现已成为国际上最常用的情感分析技术。基于情感词典的情感分析技术需要将事先已经构建好的情感词典加载到Python语言,然后根据正负情感数的差值判定情感的正负倾向,但现有的情感词典并未能收录全部英文字词。知网情感词典(HowNet)和sentiwordnet是常见的可以处理英文文本的情感词典。第三方商业平台因技术门槛求低且部分功能免费试用,在处理小型数据集时具有得天独厚的优势,包括百度智能云、讯飞开放平台、斯图飞腾(Stratifyd)等。
三、研究设计与流程
贝娄一生笔耕不辍,共创作出10部长篇小说,5部中篇小说,5部短篇小说和1部散文随笔。本文将根据学界普遍接受的分类,选取其早期创作的两部长篇小说作为研究对象,即《受害者》和《晃来晃去的人》。《受害者》中所涉及的女性人物主要有艾琳娜、玛丽、艾琳娜的母亲。《晃来晃去的人》中主要的女性人物有艾娃、基蒂、阿尔特施塔特夫人、埃特和多莉。
首先,数据获取。通过文本细读,抽取包含对各个女性人物描述的句子,其中有关艾琳娜的有24条,玛丽7条,艾琳娜的母亲16条,艾娃13条、基蒂7条、阿尔特施塔特夫人7条、埃特9条、多莉4条。
然后,基于百度智能云进行情感分析。考虑到数据集较小,本次实验将选择技术要求较低且可以供用户免费试用的第三方商业平台—百度智能云。基于Python语言, 用户只需简单的编程即可在该平台获得包含正向情感值、负向情感值、可信度等反馈结果。情感总值为1,当情感值大于0.5时判定为正向,当小于0.5时,判定为负向。
最后,人工标注并进行结果比对。与社会文本不同的是,小说文本包含了作者的复杂情感,文本表层之下的含义可能会受到其写作技巧的影响。因此,有必要进行人工标注情感倾向,以验证机器在小说文本情感分析中的准确性与可靠性。实验将邀请5位英美文学方向的研究生为数据集进行人工标注,统计正向情感和负向情感的占比,所得结果将与机器反馈的结果进行比对。
四、实驗结果与分析
表1为百度智能云分析统计结果,记录了各女性人物对应的正负情感倾向条数。表2为5位研究生的人工标注统计结果,记录了各女性人物对应的情感倾向条数在总条目数中的占比。经对比分析得出如下结论:
第一、总体上看,两种方法得出的结果具有一致性,都体现出了作家在描写女性人物时较为积极的情感倾向。经过对《受害者》中艾琳娜、玛丽和艾琳娜的母亲三位主要女性人物的分析,百度智能云得出的结果皆为正向,人工标注的正向占比也皆大于负向。尽管在《晃来晃去的人》中,人工标注法显示艾娃、埃特和多莉所对应的正向情感倾向占比小于负向,但埃特和多莉只是整部小说的配角,话语权重小。因此,综合考量两部作品中的主要女性人物,贝娄创作早期表现出了较为积极的女性观。
第二、两种方法在对同一人物进行分析时具有相似趋势。表一中艾娃和埃特首次出现负向情感倾向,分别为1条和2条,而表二中艾娃和埃特的负向情感倾向占比也皆大于正向。尽管两种方法得出的最终结果不同,但都表明贝娄在书写艾娃和埃特时开始出现负向情感倾向。
第三,两种方法对第二部小说的分析结果完全一致。第一部小说《晃来晃去的人》中女性人物较丰富,两种方法得出的结论略有不同,可能是因为贝娄在书写女性人物时较为复杂的心理状态,读者难以判定其正负情感倾向。针对第二部小说《受害者》,两种方法得出的结论完全一致,正向情感倾向皆占主导,表明贝娄对女性的态度由最初的复杂和不确定逐步走向成熟稳定。
表一:百度智能云分析结果
表二:人工标注结果
《晃来晃去的人》中的女主人公艾娃是典型的职业女性。尽管艾娃从未替自己发声,但读者却可以从文本中看到一个经济独立、追求自由的新型职业女性形象。约瑟夫在日记中写道,“在此期间,我老婆艾娃一直供养着我。她声称,这不算什么负担,还劝我借此机会好生自由自在几天,读读书,痛痛快快地玩一玩”。可见,在约瑟夫应征入伍前的日子,艾娃取代了约瑟夫的位置,成为家里的唯一经济来源,摆脱了男权社会中女性在经济上完全依附于男性的传统形象。此外,艾娃的内心也充斥着对男权的反叛意识,甚至连反叛对象约瑟夫自己都认为这合情合理。“艾娃和我总是不够和睦。这也不能全怪她。多年来,她一直由我摆布,现在,她有了反叛的能力……我期待着某种反抗。”[9]自由之于艾娃与自由之于约瑟夫已变得同等重要。艾娃成为贝娄早期作品中讴歌女性追求独立和自由的典范。
《受害者》中的玛丽出场次数较少,但却丝毫不影响其作为女主人公的重要性,贯穿着整部小说的始末。玛丽完美的女性形象在她对母亲的尽善尽孝中得到完美呈现。由于父亲新逝,玛丽立即前往巴尔的摩帮助母亲搬家,前往位于查尔斯顿的弟弟家中居住,一个孝顺的犹太女儿形象尽现在读者眼前。此外,小说中贝娄并没有安排代表“善”的玛丽与代表“恶”的阿尔比相识,体现了他对玛丽完美女性形象的保护,使她与“恶”保持着绝对的距离。在玛丽离家的日子,“他天天都盼着听到玛丽要回来的消息。如果她在这种局面结束之前回来怎么办呢?”尽管阿萨对妻子玛丽望眼欲穿,也不愿在他与阿尔比的麻烦未解决之前就希望玛丽归来。甚至在小说的最后一章,当阿萨携玛丽一起前往剧院观剧时,尽管阿萨认出了阿尔比,但贝娄并没有安排玛丽与阿尔比相识。
五、结语
作为自然语言处理领域的重要分支,情感分析技术在文本挖掘方面具有举足轻重的地位和优势。在对贝娄早期两部小说中的女性人物书写进行情感分析时,尽管基于机器的情感分析方法与人工文本细读法所得出的结果在细节上略显不同,但总体上保持着一致性,都体现出贝娄较为积极的女性观。实验结果也验证了百度智能云在对文学语言进行情感分析时具有一定的可靠性。但是,文学语言与自然语言的区别注定不能完全依靠机器解读作家的观点。在对文学文本进行类似处理时,研究者们应考虑将机器与人工两种方法相结合,取长补短,以避免机器远读的绝对性和人工细读的主观性。
本次实验采取了人工细读的方式来获取测试样本,虽可信度较高,但在处理大型文本语料时,便无法解决大量的未读问题。此外,百度智能云适用于大多数的生活应用场景,但在文学研究领域其可靠性仍待提升。因此,后续的研究将考虑设计基于特定主题的文本信息抓取模型,将更加可靠的机器学习方法应用于文学文本的情感倾向研究中。
参考文献:
[1]Roudané Matthew C.,Saul Bellow.An Interview with Saul Bellow[J].Contemporary Literature,1984, 25(3):265-280.
[2]Moretti Franco.Conjectures on world literature[J].New Left Review,2000,(1):54-68.
[3]海炯.首届国际红楼梦研讨会简况[J].社会科学, 1980,(5):156-157.
[4]赵薇.数字时代人文学研究的变革与超越——数字人文在中国[J].探索与争鸣,2021,(6):191-233.
[5]刘兵.情感分析:挖掘观点、情感和情绪[M].北京: 机械工业出版社,2017.
[6]Yu Bei.An evaluation of text classification methods for literary study[J].Literary and Linguistic Computing,2008,23(3):327-343.
[7]张璐.从Python情感分析看海外读者对中国译介文学的接受和评价:以《三体》英译本为例[J].外语研究,2019,(4):80-86.
[8]石春让,邓林.基于情感分析技术的莫言小说英译本在西方的接受程度研究[J].外国语文,2020,36(3):91-96.
[9]索尔·贝娄.索尔·贝娄全集[M].石家庄:河北教育出版社,2002.
作者简介:
梁彪,男,湖南邵阳人,湖南工程学院外国语学院讲师,主要从事英美文学、数字人文研究。