APP下载

从文本情感角度探究《红楼梦》作者问题

2021-04-12严志永

北京印刷学院学报 2021年3期
关键词:红楼梦分类评分

严志永

(北京印刷学院,北京 102600)

一、关于《红楼梦》作者的相关研究

《红楼梦》的作者问题是一个尚未尘埃落定的问题。对此,学界的看法包括如下几种:前80 回为曹雪芹所作,后40 回为高鹗续写;全部120 回由一人所作;作者包含多人[1]。其中持第一种看法的较为普遍。

近年来,随着计算机技术的发展,学界出现了若干采用计算机技术来分析《红楼梦》作者问题的工作。王世海和施政对这些工作进行了总结[2-3]。下面列举几个有代表性的工作。

瑞典汉学家高本汉和美国威斯康星大学的陈炳藻分别使用统计方法对《红楼梦》的词汇进行分析,认为《红楼梦》前80 回和后40 回为同一人所作[1]。陈大康从数理语言学角度使用计算机对《红楼梦》的词、字、句采用CMNPHOB 法进行145次分布检验,认为后40 回并非曹雪芹所作[4]。李贤平通过对从《红楼梦》中抽取的47 个虚字进行层次聚类来分析《红楼梦》的作者,认为该书是由不同作者在不同时期写成的[5]。张运良等使用K近邻算法对《红楼梦》的句类特征进行分析,发现前40 回和中间40 回句类风格类似,后40 回和前80 回句类风格差异较大,由此认为前80 回和后40回作者不是同一个人[6]。施建军使用支持向量机对《红楼梦》中抽取的44 个虚字进行分类,得出前80 回和后40 回作者是两个人的结论[1]。马创新和陈小荷从从高频词等级相关角度来分析《红楼梦》,认为前80 回应是同一人所写,后40 回应是另一人所写[7]。王阳阳使用朴素贝叶斯和BP 网络神经两种分类方法对《红楼梦》中的虚字进行分类,得出前80 回与后40 回作者不是同一人的结论[8]。周靖使用机器学习中的Bagging、Adaboost和Rotation Forest 三种算法对选取的100 个高频词汇进行分类研究,结果表明前80 回和后40 回有明显差异[9]。姜娜娜使用机器学习中的支持向量机、Logistic 回归算法和K-means 算法从虚词、长短句、词性标注、特有词四个主要特征入手,结果表明前80 回和后40 回作者不是同一人[10]。

总体来看,研究者主要使用计算机技术来对《红楼梦》的字、词进行分析,尤其是对虚字进行分析。这里暗含的假设是字、词的使用频率能够反映作者的写作风格,并且作者的写作风格会保持稳定。余韵对巴金小说的文本进行计量分析(包括词长、词长分布、词汇丰富度、共现词与独有词、平均句长、断句句长、句长分布、实词和虚词的分布、高频词与低频词的词性分布、人称代词的使用情况),发现巴金小说没有明显体现出创作分期现象,创作风格在语言结构上具有高度的一致性[11]。该研究为通过写作风格来分析《红楼梦》作者提供了支持。

从研究趋势上来看,早期的研究主要使用统计方法(如主成分分析、典型相关分析),近期的研究则大量使用了人工智能中的聚类(如层次聚类算法、K-means 算法)和分类技术(如K 近邻算法、如支持向量机、朴素贝叶斯、BP 神经网络),本文使用人工智能中的文本情感分析技术对这个问题进行探究。

二、文本情感分析技术简介

情感分析(Sentiment Analysis)是目前人工智能领域自然语言处理中的一个热门任务,也是计算传播学中的一项重要内容[12]。情感分析“主要探究人们对新闻报道、热点话题、突发事件的情感倾向”,并分析“由此产生的对特定主题的态度”[13]。情感分析可以进行积极、中性、消极等粗粒度分类,也可以进行喜、怒、哀、乐等细粒度分类[13],其中后者又可以称为情绪分析[14]。

在计算传播学领域,情感分析技术主要用来分析人们对于事件、话题、产品和服务等对象的态度,具体包括用户评论的情感倾向分析和口碑营销、社会化媒体虚假信息的判定以及社会化媒体的情绪刻画与情绪传播[12]。在计算传播学领域,情感分析还可以应用于政治传播领域,如检测推文对美国总统候选人的态度[15]。情感分析技术可以用于比较观点挖掘、垃圾评论检测、情感演化分析、情感与话题传播分析、结合观点的商品推荐[16]。

从实践来看,情感分析技术所处理的文本主要包括微博、评论、新闻等。这类文本数量巨大,并且每天都会增加很多,仅靠人工分析很难达到所需要的处理速度。本文探讨将情感分析技术应用于小说这样的长篇文本。

文本情感分析的技术包括基于词典匹配的方法和有监督机器学习情感分类方法[12]。有监督机器学习情感分类首先对文本进行分词、去除词根和停用词等预处理,然后挑选一部分文本人工标注情感作为训练集和测试集,之后进行特征选择以降低文本特征空间的维度,接着将分类算法在训练集上进行训练得到分类模型,最后在测试集上对分类模型进行评估[12]。

文本情感分析所使用的机器学习算法包括朴素贝叶斯算法、K 近邻算法、支持向量机等[16]。在深度学习兴起之后,出现了大量使用深度神经网络进行情感分析的技术。陈凌和宋衍欣使用LSTM(Long Short Term Memory,长短期记忆网络)对微博上台风“利奇马”事件的相关推文进行情感分析,剖析用户情感演化规律[17]。李井辉等使用CNN(Convolutional Neural Networks,卷积神经网络)和LSTM 对电影评论数据进行了情感分析[18]。

目前有很多开放的情感分析工具,例如对于Python 语言有Textblob、Snownlp 等程序包。百度的飞桨(PaddlePaddle)开源深度学习平台也提供了文本情感分析服务。

飞桨平台提供了多种深度神经网络的预训练模型,包括CNN、LSTM 和ERNIE(Enhanced Representation through kNowledge IntEgration) 等,其 中ERNIE 模型的预测准确率最高,达到95.4%[19]。ERNIE 模型预测结果包括属于积极类别的概率、属于消极类别的概率和情感标签。属于积极类别的概率和属于消极类别的概率都介于0 和1 之间,并且二者之和为1,情感标签根据属于两个类别概率的相对大小给出。本文使用属于积极类别的概率作为情感评分。

使用文本情感分析技术对小说作者进行分析的一个假设是作者写作的情感风格保持稳定。从情感分析所使用的技术可知,机器学习算法是以文本的用词作为特征来进行情感分类,而根据余韵对巴金不同时期小说写作风格一致性的研究可知,作者在小说写作的用词和构句上具有稳定性,这表明作者的写作情感风格也会保持稳定。也就是说,本文使用文本情感分析技术来分析《红楼梦》的作者与之前研究者使用统计方法和机器学习方法分析《红楼梦》的作者所依据的假设是一样的,本文没有做额外的假设。

三、基于文本情感的《红楼梦》作者分析

本文使用百度飞桨平台提供的ERNIE 情感分析模型对《红楼梦》的文本进行情感分析,根据各回的情感评分来分析《红楼梦》的作者问题。

在对各回做情感分析时,将一回划分成若干句子,分别使用ERNIE 模型来预测每一个句子的评分,最后对所有句子的情感评分进行平均得到该回的情感评分。本文将ERNIE 情感分析模型预测的属于积极类别的概率作为情感评分。

在将各回划分为句子时,采用下面的规则:(1)对于人物说话,引导语和引号内的话作为一个句子;(2)对于非人物说话,以句号、问号和感叹号作为一句话结束的标志。

《红楼梦》各回的情感评分见表1 和图1。从表1 和图1 可知,《红楼梦》120 回各回的情感评分并不是一成不变的,而是在保持基本稳定的情况下 在一定范围内波动。

表1 《红楼梦》各回情感评分

从表1 和图1 可以看出,《红楼梦》前80 回的情感评分变化模式和后40 回的情感评分变化模式不同。

图1 《红楼梦》各回的情感评分

首先,前80 回的情感评分波动范围更大。从表1 可知,前80 回的最大值为0.742(第2 回《贾夫人仙逝扬州城,冷子兴演说荣国府》),最小值为0.522(第80 回《美香菱屈受贪夫棒,王道士胡诌妒妇方》),二者之差为0.220;后40 回的最大值为0.695(第120 回《甄士隐详说太虚情,贾雨村归结红楼梦》),最小值为0.544(第112 回《活冤孽妙尼遭大劫,死雠仇赵妾赴冥曹》),二者之差为0.151。

其次,从情感评分波动模式来看,以局部最低点为标志,可以把前80 回划分为7 个部分(局部最低点放在前一部分中),每部分包含的回数为12、8、13、11、15、10 和11;可以把后40 回划分为3 个部分,每部分包含的回数为23、9 和8。前80 回的情感评分波动模式较为清晰,大约11 回就会出现以局部最低点区分的区间;而后40 回的波动模式不太明显,因为三个区间包含的回数相差很大。

最后,从表1 的数据可知,前80 回的情感评分的平均值为0.641,后40 回的情感评分平均值为0.619。前80 回的情感评分的中位数为0.644,后40 回的情感评分中位数为0.619。前80 回的情感评分的标准差为0.049,后40 回的情感评分的标准差为0.035。双样本异方差假设下双尾t 检验结果表明前80 回和后40 回情感评分均值显著不同。

从上述分析可知,前80 回较后40 回情感评分波动范围大,前80 回和后40 回的不同回之间情感波动模式也不同,从情感均值来看前80 回和后40回有显著不同。总之,从文本情感来看,前80 回和后40 回有较大差异。由此,本文认为《红楼梦》的前80 回合后40 回不是同一个作者所写。

本文研究虽然能够在一定程度上揭示《红楼梦》的作者不只有一人,但仍有以下需要改进的地方。首先,和现有的很多研究一样,本文一开始就接受了红学界的主流观点,认为《红楼梦》的作者争议出现在前80 回和后40 回,所以在分析各回的情感评分时,将前80 回作为一个整体,将后40 回作为另一个整体。因此,本文仅仅是从一个新的角度来验证了红学界的主流观点。未来可以深入研究每一回更细微的情感变化。其次,本文使用的百度飞桨平台的ERNIE 情感分析模型是基于现代汉语来训练的,《红楼梦》虽然是白话小说,但是成书距今至少有200 年的时间,语言习惯可能与现在不同,使用现代汉语的语言情感模型去预测200 年前的白话小说的情感可能有一定偏差。未来可以基于古代汉语的语料对ERNIE 情感分析模型进行细调以获得更精准的情感分析。

四、总结与展望

本文从文本情感的角度对《红楼梦》120 回的文本进行了情感分析,从情感波动范围、情感波动模式和情感均值三个方面分析的结果表明前80 回和后40 回的文本情感具有比较明显的不同,因此得出《红楼梦》的前80 回和后40 回不是同一作者所写的结论,从而从一个新的角度验证了红学界的主流观点。

目前人工智能界投入了很大精力来研发文本情感分析技术,也取得了重要的进展,不过在应用上还是集中在传统的意见分析领域。可以将该重要技术用于更广泛的领域,如作者写作风格的分析、图书的审读等。

猜你喜欢

红楼梦分类评分
车联网系统驾驶行为评分功能开发
VI-RADS评分对膀胱癌精准治疗的价值
“互联网+医疗健康系统”对脑卒中患者HAMA、HAMD、SCHFI评分及SF-36评分的影响分析
APACHEⅡ评分在制定ICU患者护理干预措施中的应用研究
论《红楼梦》中的赌博之风
从《红楼梦》看养生
《〈红楼梦〉写作之美》序
别样解读《红楼梦》
按需分类
教你一招:数的分类