大数据视域下余华文学作品文本挖掘研究
2022-09-20杨秀璋武帅宋籍文任天舒廖文婧刘建义夏换于小民
杨秀璋,武帅,2,宋籍文,任天舒,廖文婧,刘建义,夏换,于小民
(1.贵州财经大学信息学院,贵阳 550025;2.涟水县财政局,淮安 223400;3.贵州高速公路集团有限公司,贵阳550027;4.贵州财经大学贵州省经济系统仿真重点实验室,贵阳 550025)
0 引言
余华是国际文坛声望最高的中国作者之一,其作品在国内外受到一致好评。对中国当代文学来说,以余华为核心的先锋文学是一里程碑式的标志。余华作品文献作为余华小说的交流与传播的主要载体,有效地推动了余华小说的传播。当前余华作品的研究主要采用期刊阅读、电影观赏、原著阅读、相关讲座论坛等。大数据环境下,研究成果层出不穷,大量学者各抒己见,对同一部小说往往有着不同的主题见解,从而不能精准地反映原作者的主题初衷。
随着文学、电影等文化艺术的发展,近年来针对文学和电影等方面的研究和文艺批评,学者们针对某一作者和作品从不同角度进行解构,学术成果硕果累累、百花齐放。为了更精准地从海量学术成果中分析出主流的学术观点,藉此了解文学作者和作品的主题特征、行文脉络、思想倾向、主流观点和发展脉络等方面,为短时间内准确把握作者创作倾向和特点提供依据。
同时,国内外利用数据挖掘或机器学习算法深层次分析文学和电影作品的研究相对较少,传统的文学和电影作品分析方法主要是基于剧情表现手法、视听特效、时间维度、阅读量或票房的,其分析方法比较单一,不足以直观地呈现文学或电影作品深层次的主题,缺乏利用数据挖掘和社交网络方法研究文学作品的热点主题及关系脉络。
针对这些问题,本文提出一种基于数据挖掘和主题演化的余华小说电影文献的分析方法,结合数据可视化技术和社交网络直观地反映余华小说的发展历程以及主题时间演化趋势,发现各热点关键词之间的关系,进一步验证余华小说“向死而生”的主题观点。本文实验数据为中国知网(CNKI)收录的自1986年起至2019年7月5日的2825篇余华小说期刊文献的相关数据。
实验结果表明,本文的研究成果具有重要的理论研究意义和实用价值,通过大数据相关技术挖掘出了余华作品的核心主题、现实意义和艺术价值,为以其小说为素材的艺术创作尽可能还原原著主题起到积极作用,该方法可以为投资方和导演们的艺术创作或电影拍摄提供更好的建议,为观众提供更好的精神粮食。
1 相关研究
近年来,国内外学者致力于文献主题演化研究并提出各自解决文献主题的办法。何伟林等提 出 一 种 名 为CSToT(content similaritytopicsover time)的主题模型,分析国内情报学领域2012-2016年的研究主题结构以及演化过程。朱茂然等提出一种基于隐性狄利克雷分布(LDA)主题演化模型分析中文情报学领域。王燕鹏通过人工判读提炼主题分析科技文献发展演化过程。曾利等基于标准LDA模型,依据时序关系进行切片,建立动态LDA主题模型分析科研发展趋势。张子振等基于KL距离和LDA主题分析机器学习领域。杨秀璋基于LDA模型挖掘和文本聚类进行聚类分析水族文献主题。许丹等基于主题词法和自然语言法分析最新文献新颖性。李军莲等基于多维特征概率通用度算法有效降低通用概念对文献主题自动标引的噪音影响。马思婷等基于CiteSpace分析中国医养结合的热点分析。Tran等基于AI主题分析抑郁症治疗。杨秀璋等基于综合指数算法和知识图谱分析水族文献核心作者群。
余华小说和电影文献作为余华作品分析研究成果的主要展现方式,有效地推动余华作品的发展。但传统的余华作品研究方法缺乏核心作者以及核心主题的引导,其核心作者仅依据发文量来衡量,核心主题只是通过大众普遍认知的主题来确立,缺乏严谨科学的核心作者及主题的确认方式。同时,没有从多个角度去深层次挖掘余华作品的热点关键词、热门期刊、核心作者以及主题演化趋势,没有深入剖析余华小说和电影主题关系网络。
由此可见,开展人文数字交叉领域的研究成为了新的研究热点。基于此,本文利用大数据和数据挖掘技术对余华作品相关的文献开展研究。首先,本文提出一种依托普赖斯定律来确定核心作者候选人,结合发文量和引用量综合指数方法确定排名前20位的余华作品核心作者;其次,基于频次和共现矩阵确认核心主题词,引入社交网络和WordCloud等方法,结合可视化技术从多个角度深层次挖掘余华作品文献的潜在规律,为以其小说为素材的艺术创作尽可能还原原著主题起着积极作用,推动文学研究发展。
2 框架模型
本文旨在对余华小说和影视作品在中国知网相关期刊文献进行分析和研究,挖掘2825篇文献的热门期刊、机构,核心作者及热点主题。其具体的流程如图1所示。
图1 余华小说文献分析流程图
具体流程如下:
(1)通过Selenium和Xpath技术抓取中国知网1986年至2019年7月间2825篇余华作品相关的学术期刊文献,所抓取的相关字段包括文章标题、作者、出版社、出版日期、摘要、关键词、下载量以及被引用量。
(2)对所抓取的文献进行预处理操作,包括数值提取、缺失值填充、异常值判定、数据清洗、中文分词、停用词过滤等,从而得到质量更好的数据,提取文献相关的主题特征并存储。
(3)开展核心作者发现研究。利用计量统计分析挖掘重点引文机构,结合普赖斯定律筛选核心作者候选人,并基于综合指数算法遴选核心作者。
(4)开展主题演化分析研究。通过CiteSpace进行时间序列主题演化,利用WordCloud词云显示热点关键词,基于Python共词矩阵分析和社交网络构建余华作品文献的主题知识图谱。
3 余华小说文献核心作者发现
本文采用普赖斯定律计算余华作品核心作者候选人,再基于综合指数算法结合文献的发文量和被引用量来遴选研究余华作品文献的核心作者。
3.1 引文机构分析
国内引文机构主要包括全国各大高校、研究院、图书馆以及部分事业单位和公司。本文针对所爬取的2825篇余华作品期刊论文的第一作者单位进行计量分析,得出如图2所示的核心机构。
图2 余华作品期刊文献主要研究机构
其中刊载相关论文数量排名前三位的分别是:浙江师范大学(共刊载76篇)、南京师范大学(共刊载55篇)、辽东师范大学(共刊载48篇);论文总下载量最高的三个机构分别是:浙江师范大学(共被下载52893次)、武汉大学(共被下载33168次)、南京大学(共被下载32955次);论文总被引用量最高的三个机构分别是:复旦大学(共被引用443次)、浙江师范大学(共被引用357次)、南京大学(共被引用264次)。
3.2 普赖斯定律计算候选人
(1)依托普赖斯定律统计最低发文量来确定核心作者候选人,其计算公式如(1)所示:
公式(1)中为普赖斯定律统计的发表余华作品文献最高发文量,余华作品个人最高发文量为20,依据普赖斯定律确认余华作品核心作者候选人最低发文量为4。
(2)依托普赖斯定律统计最低被引用量来确定核心作者候选人,其计算公式如(2)所示:
公式(2)中为普赖斯定律统计的发布余华作品文献最高被引用量,余华作品文献单篇文章最高被引用量为216,依据普赖斯定律确认核心作者候选人最低被引用量累计次数为11。
(3)筛选符合第(1)、(2)步的作者并进行重新统计,最终确定余华小说文献核心作者候选人共186位,候选人共发表499篇关于余华作品期刊论文,总被引用量为7290次。
3.3 综合指数遴选核心作者
本文将采用综合指数算法,从186位核心作者候选人中选出前20位研究余华作品的核心作者,具体步骤如下:
(1)计算核心作者候选人的平均发文量。表示余华作品文献的核心作者总发文量,表示核心作者候选人数,其计算公式如(3)所示:
(2)计算核心作者候选人的平均被引用量。表示余华作品文献的核心作者总被引用量,表示核心作者候选人数,其计算公式如(4)所示:
(3)依据发文量和被引用量构建综合指数。score表示第位余华作品核心作者候选人的综合指数得分,x表示第位核心作者候选人的发文量,y表示其总被引用量,发文量系数和被引用量系数均为0.5。具体公式如(5)所示:
运用此综合指数算法得出余华作品相关期刊文献的前20位核心作者,如表1所示。从表1可以看出,余华就自己的作品发表了近20篇期刊文章,并且被引用量最高,综合指数为12.49;洪治纲发表余华作品相关的文献15篇,被引用量为325,综合指数为6.61;叶立文发表余华作品相关的文献12篇,被引用量为263,综合指数为5.32。通过综合指数算法推算出这20位核心作者所发表有关余华作品的期刊论文具有较强的参考价值,他们也是余华作品的核心研究群体。
表1 余华小说相关文献核心作者
4 余华作品文献主题演化分析
关键词作为论文的重要部分,可以反映论文研究的核心主题和主旨。余华作品相关文献的关键词共词分析和核心主题挖掘,可以把握该领域的研究方向和热点主题。本文对1986年至2019年中国知网收录的2825篇期刊论文的关键词进行热点主题挖掘分析,提出了一种基于共现矩阵和社交网络的热点主题识别方法,构建中国知网余华作品热点关键词的共现关系,从而挖掘出其核心主题,以及发现余华作品的核心主题随时间推移发生演化过程。
4.1 CiteSpace时间序列主题演化
CiteSpace时间序列主题演化主要是以时间发展为轴的主题演化分析,本文基于余华作品的相关文献研究生成了主题演化图,如图3所示。
图3 基于时间序列的余华作品文献主题演化
图中每个节点代表一个主题,时间横跨1986年至2019年,两点之间的连线表示各主题之间的共现关系。通过考察词频的时间分布,将主题和关键词变化率高的词从大量的主题词中挖掘出来,依靠词频的变化趋势,来确定主题前沿领域和发展趋势。分析发现,2007年各主题开始汇交于电影、电视主题,可大致推算从那一年起以余华小说为素材和主题的影视剧拍摄增多。其核心主题包括“小说家”、“呼吸与细雨”、“心理描写”、“神秘主题”、“余华小说”“哲学”“故事”“现代主义文学”“中国当代文学”等。总之,近三十年来我国学者对余华作品的相关研究经历了由点到线、由线到面的发展历程,主要以故事情节、艺术价值、心理描写为主。通过时间序列主题演化研究,更加客观准确地还原了原著主题,把握作者创作倾向,为将余华作品改编为影视剧创作提供依据。
4.2 高频词统计分析
来自中国知网与余华作品相关的2825篇期刊文献共涉及关键词5245个,关键词出现总次数为14369次,每个关键词出现的平均频次约为2.74次。该领域3950个关键词仅出现1次,占总关键词数的75.3%;593个关键词出现2次,占总关键词数的11.3%;出现频次在5次及以上的高频关键词共353个,共出现8066次,占所有关键词出现总次数的56.1%。同时,“余华”“活着”“小说”是出现频率最高的三个关键词,分别出现1400次、428次和277次,紧接着是“余华小说”“许三观卖血记”“苦难”“第七天”“先锋小说”“文学”“许三观”“福贵”“死亡”“兄弟”“人性”“在细雨中呼喊”等关键词。充分体现了余华小说“向死而生”的主题,以及对人性和生命的描写,从小说升华到艺术价值,WordCloud生成的词云分布图如图4所示。
图4 余华作品文献关键词的词云图
4.3 关键词共词分析
针对高频关键词无法反映词语和主题之间的内在关联,不能全面揭示出文献的研究热点及关键词动态。本文采用共词分析方法构建余华作品文献的关键词共现矩阵,如公式(6)所示,当两个关键词共同出现在一篇学术文章中,则认为共现并构建一条相关联的边,其边对应的权重加1;反之,两个关键词不存在共现关系,其权重为0。
共词分析中,两个关键词共同出现的次数越多,说明关键词联系越紧密,越能体现主题的研究内容相关联;如果共现次数为0,说明两个关键词之间没有关系。本文根据余华作品文献关键词共现分析,得出了如表2所示的文献共现高频词。其中排名前5位的分别是:“余华”和“小说”,共现230次;“余华”和“作家”,共现187次;“余华”和“活着”,共现175次;“余华”和“许三观卖血记”,共现116次;“余华”和“第七天”,共现83次。
表2 余华作品期刊文献共现高频词表
4.4 关键词社交网络分析
采用Gephi软件构建余华作品文献关键词共现知识图谱,为使热点主题词之间的关系更加明细,过滤掉共现权重为5以下的关系,形成如图5所示的核心主题共现图谱。图中圆圈表示关键词,连线表示共现关系,连线越粗表示其共现次数越多,反之越少。该图谱共包括790个核心主题节点,2687条边,模块化系数0.127,平均路径长度2.417,居于中心位置的主题是“余华”,其他的主题词逐渐向边缘分布扩散。其中“余华”和“小说”“作家”“活着”“许三观卖血记”“第七天”“苦难”“文学”“福贵”“先锋”等关键词共现明显,其连线较粗。从图5可以发现余华作为关系核心与各个主题词之间均有联系,其核心主题分布明显,这些关键词能更有效地推动余华小说改编为影视作品以及艺术创作。
图5 余华作品期刊文献的主题关系图谱
接着通过过滤算法进一步提取余华小说文献的核心主题关键词,构建社交网络关系,绘制如图6所示的关系图谱。其核心特征词共23个,存在关系317条,主要集中于余华的作品、人物和小说主题。其中,作品包括《许三观卖血记》《活着》《在细雨中呼喊》《第七天》,人物包括“福贵”“余华”“马原”等,小说主题包括“活着”“苦难”“人性”“暴力”等,以及“文学史”“先锋文学”“先锋”等积极评价。通过上述分析,本文从数字人文视域对余华小说作品进行了主题关联分析,进一步挖掘出余华小说的文学色彩,有效帮助学者实施智能化文本挖掘,发扬传统文化。
图6 余华作品核心主题关系图谱
5 结语
当前社会,文学作品改编影视剧已成为热潮,电影创作者们对文学作品的二次创作,往往建立在对作家和作品的个人理解上,同时要充分考虑原著的精髓和绝大多数受众对原著的认识等方面。为了更加客观准确地还原原著主题、把握作者创作倾向,为影视剧改编创作提供依据,本文提出了一种基于数据挖掘和主题演化的分析方法,分析余华作品的核心作者和热点主题,并揭示出余华作品的发展历程、关键词共现关系及主题演化趋势。
本文抓取了中国知网1986年至2019年7月间2825篇余华作品相关的学术期刊文献,并进行了详细的分析与研究。实验结果表明,本文的研究成果具有重要的理论研究意义和实用价值,通过大数据相关技术挖掘出了余华作品的核心主题、现实意义和艺术价值,为以其小说为素材的影视改编、艺术创作尽可能还原原著主题起到积极作用,可以提供有效参考和借鉴。