APP下载

基于综合指数和可视化分析的红学热门主题及核心作者研究

2019-01-06张亚成夏换杨秀璋于小民朱涤尘窦悦琪

电脑知识与技术 2019年32期
关键词:红学

张亚成 夏换 杨秀璋 于小民 朱涤尘 窦悦琪

摘要:针对目前红学研究主题繁多且学术成果数量庞大,对核心作者及其文献筛选工作困难的问题,该文提出了一种基于综合指数和可视化分析的红学热门主题及核心作者研究方法,筛选出九大热门主题,并从多方面分析了评估红学核心作者的因素,从多个角度分析了红学研究文献的特性,研究其特征和主旨。该文采用Python语言进行了详细的实验,分析了红学核心作者与其作品的联系,挖掘出作品研究价值高且适用性广的核心作者。实验结果表明该算法具有一定的理论意义和研究价值,可以应用到作者推荐、文献分析等领域,同时能优化红学研究方式,推动红学研究发展。

关键词:红学;核心作者;综合指数;Python;普赖斯定律

中图分类号:1207.411 文献标识码:A

文章编号:1009-3044(2019)32-0023-04

1基于综合指数分析红学核心作者的必要性

《红楼梦》是中国历代以来唯一以一本书的研究,而建立起一门专门学问的作品,这就是大家所称的“红学”。进入“红学”圈子的人,上至高层官员、国学大家、著名作家,下至普通的研究者,人数之众多,可与西方的“莎士比亚学”相媲美。

目前我国红学研究主题繁多,每年有大量文献被收录,同时不乏大量商业炒作和虚假文献,为广大红学学者对核心作者和文献的筛选和研究带来的很大阻碍。针对以上问题,本文提出了一种基于综合指数的分析方法,通过该算法结合可视化分析,可以直观反映出热门主题的核心作者。本文旨在分析出热门主题文献和其核心作者之间的关系,从多个角度挖掘红学主题,利用综合指数分析方法对收集到的红学文献数据,从而得出核心作者群体,并利用数据可视化技术进行直观展现。

本文实验数据集是CNKI收录的19598篇红学文献的相关数据。主要步骤是利用Python技术自定义爬取CNKI的相关数据,构建词云和综合指数分析等模型分析文献信息,從多个角度挖掘热门主题和文献的关系,根据提取的特征预测核心作者。实验结果表明,本文提出的算法可以有效挖掘出红学热门主题有价值的信息,包括核心文献的下载量、被引量等;该方法可以给红学研究者甄别文献质量,快速筛选热门话题相关核心作者,从而为研究者学习、引用红学核心文献提供帮助,具有重要的理论意义和实际应用价值,可广泛应用于红学研究事业,优化红学研究方式,推动红学研究发展。

2红学文献和核心作者的相关研究现状

核心作者是对本学科研究的发展具有较大贡献的科研人员,同时也是期刊学术影响力、竞争力的重要贡献者,他们影响着期刊的生存与发展,对核心作者进行测评有助于学科研究和学术期刊的发展嘲。目前对文献的研究主要分为文献分析、核心作者算法分析两方面。高淮生对红学高端论坛的学术内容进行综述。崔淼对近三十年作者的文献、学术思想进行了评述,分析具有代表性的观点,总结近三十年来《红楼梦》作者新说的研究路径、文化传统、新变及局限,反思作者研究之于《红楼梦》这部传统小说经典的价值所在,并引入基于“阐释循环”理论的理想作者研究模式。高源对《红楼梦》的哲学性进行了考辨,分析其能否进入哲学的视阈并成为严格意义上中国哲学研究的一个领域。杨子倩等通过对《红楼梦》中家具相关文献的互证,研究《红楼梦》中与桌案相关的物质文化细节鉴古知今,以期为了解《红楼梦》的器物文化和研究家具文化与礼制提供参考意义。朱淡文对《红楼梦》文献学提出了研究综述,在校勘整理及红学资料的搜集汇编等方面皆取得了重要收获。

在核心作者算法分析方面,钟文娟基于普赖斯定律和综合指数法对《图书馆建设》的核心作者进行分析测评。段和平等对核心作者群和期刊发文的意义做出了探讨。张磊以《现代大学教育》为例,探究了如何建立积极互动的“杂志与作者(读者)关系”。李智毅等对公开发表的学术文献数据为基础,采用文献计量学等方法和多种专业工具组合,对国内军民融合研究文献的作者进行了多方位的研究,以发掘相关领域的核心作者。杜宇等对我国医学论文进行综合评测筛选,了解检验医学重要期刊和核心作者,为医学人员的研究提供帮助。

这些文献研究或核心作者算法研究通常是利用文献计量学方法对某一小部分学科的核心作者进行研究,或是仅仅从学术角度对红学进行分析,没有将核心作者的算法研究和红学文献研究相结合,深层次对红学核心作者及其文献进行挖掘。本文将引入综合指数分析、WordCloud等方法,结合可视化技术从多个角度深层次挖掘红学核心作者及其文献,更好地优化红学研究产业,为红学学者提供帮助。

3红学文献热门主题核心作者分析及可视化研究过程

3.1系统架构

本文旨在对CNKI收录的19598篇红学文献进行数据分析,其系统框架如图1所示,主要包括数据采集、数据预处理、数据分析、实验分析及结果评估四个步骤,具体流程如下:

(1)首先采用Python自定义爬虫抓取文献数据。

(2)对收集到的数据进行预处理操作,包括异常值处理、数据清洗、缺失值补齐等操作。

(3)数据分析主要包括可视化分析和算法分析。通过echarts、热点词云等方式直观展示影响红学热门主题及文献的相关因素,利用综合指数分析方法深层次挖掘热门话题和核心作者的关系。

(4)最后评估实验结果,得出结论。

3.2数据采集

本文使用Pvthon自定义爬虫对CNKI红学相关文献进行抓取,并将信息存储到本地excel。图2是CNKI文献《“历史回顾与未来展望——《红楼梦》文献学研究高端论坛”学术综述》对应的页面,包括题名、作者、来源、发表时间、数据库、被引次数和下载量等信息。

3.3数据预处理

在进行数据分析之前,需要对所爬取的文献数据进行预处理操作,包括缺失值填充、异常值处理、数据清洗等步骤,其目的是为了保证数据的质量和标准,从而保证分析的准确性。本文的数据预处理操作过程包括:

(1)缺失值填充。在爬取文献数据的过程中,存在缺失部分信息例如作者信息、下载量等情况,在标记缺失项后,利用定向爬取补全数据,部分数据采用手动填充。

(2)异常值处理。所爬取的小部分文献数据不符合实际情况,如无作者、部分数值为0等,此时采用excel排序后进行定向校验。

(3)数据清洗。原始数据中存在重复发文和与红学相关性较低的文献,比如学者逝世讣告等,需要删除重复项、筛选无关项进行处理。

最终得出从1954年到2019年5月的19589篇红学相关学术成果如表1所示。

3.4词云分析

“词云”是对数据文本中出现频率较高的热点词,予以视觉突出,使浏览者可以很快了解文本的主旨,主要利用文本挖掘和可视化技术。本文中使用的词云是在Python中,通过安装WordCloud词云扩展包以形成的词云图片。

本文主要对红学热门文献的题材及标签进行分析来生成词云。其流程如图3所示。

3.5综合指数

综合指数分析是从评价红学中9大热门主题的作者人手,先采用普赖斯定律得出核心作者候选人,接着选用发文量和被引量这两项指标得出该作者的质量指标值,也就是该作者在热门主题学术成果中的平均指标值,最后比较各作者间的指标值大小,得出最终的核心作者群。

4实验分析及结果评估

4.1红学近十五年发展综述可视化分析

如表2所示,筛选出2004年至2018年的所有学术成果,包括发文量、第一引用量和第一下载量,如图4所示。红学的学术成果发文量在2011年达到顶峰,随后呈现下降趋势,可见有关红学的研究熱度有所减弱,第一引用量和下载量亦是如此。其中,引用量第一的是2005年童庆炳在北京大学学报发表的《文学经典建构诸因素及其关系》,被引用230次;下载量第一的是2009年湖南师范大学邓娜发表的硕士论文《<简·爱>与<红楼梦>女主人公形象的比较研究——中西文化互观中的简·爱与林黛玉》,被下载10473次。由此可见,不少相关文献是采用红楼梦本身或是其中人物事件作为案例或交叉比较研究,所以要在众多文献中准确找出需要的研究点,还是有一定难度。因此,筛选总结出热门主题的核心作者是十分有必要的。

4.2主题词词云分析

利用python的wordeloud词云技术,对爬取的19598条红学学术成果以主题词为关键词,形成热门词云,如图5所示。其中,“红楼梦”出现次数最多共14602次,但由于红楼梦与红学本是同源,所以该主题不纳入计算核心作者群的候选热门主题中。剩余主题选取总占比超过2%的9个主题,即“翻译”“小说”“人物形象”“曹雪芹”“清代”“林黛玉”“悲剧”“后四十回”和“贾宝玉”,出现频次分别是3216次、789次、749次、693次、675次、526次、465次、417次和380次。

其中,score;表示第i位核心作者候选人的综合指标数,xi表示其总发文量,Yi表示其总被引量。发文量和被引量的系数都为0.5。

运用此公式对76位九大主题核心作者候选人进行计算,得出如表4所示的前18位综合指数超过1的核心作者。其中刘泽权发表相关文献25篇,被引次数594次,综合指数为5.758;洪涛发表相关文献25篇,被引次数337次,综合指数为3.865;江帆发表相关文献11篇,被引次数421次,综合指数为3.709。这种多方面指标的方法计算核心作者的方法更加准确客观,具有很高的参考价值。

5结束语

传统红学分析方法普遍利用文献计量学的方法对文献进行分析,步骤较为烦琐,效率较低,工作量大,没有结合可视化分析对现有文献进行深层次挖掘。针对这一情况,本文提出了基于综合指数的核心作者研究,结合数据可视化,得出以下结论:

(1)红学近十五年发展综述可视化分析显示红学文献引用量第一的是2005年童庆炳在北京大学学报发表的《文学经典建构诸因素及其关系》,下载量第一的是2009年湖南师范大学邓娜发表的硕士论文《<简·爱>与<红楼梦>女主人公形象的比较研究——中西文化互观中的简·爱与林黛玉》,可见红学中人物案例和其他文学作品交叉比较这一方向是较为热门的研究方向。

(2)主体词云分析得出“红楼梦”是研究的核心内容,“曹雪芹”“小说”“翻译”“人物形象”是比较热门的研究题材。

(3)综合指数算法对核心作者候选人进行筛选,通过构建综合指数模型得出了发表文献最具有参考和研究价值的18名核心作者,他们的综合指数指标最高。

综上,本文提出的研究方法可以对红学相关文献进行了有效挖掘和分析,这对于红学相关研究者以及对红学感兴趣的学者都具有良好的参考价值,避免了文献过多而无法精准找到所需要的主题和作者的情况。实验证明用这样的方法识别出核心作者是可行的,同样对于其他学术领域的文献检索也可以同样实现,这样大大减少了人工筛选的过程,提高了学习的效率和研究的准确性。此外,本文对于传播弘扬红学文化也具有一定的宣传意义,有望再次激发起各学者对于红学文化的研究兴趣与热情,推动红学研究的发展与进步。

猜你喜欢

红学
今天,我们如何面对红学?
吴宓档案中的“红学”资料
赵建忠《红学流派批评史论》序
新中国红学第一人——追忆李希凡老师
Force-Based Quadrilateral Plate Bending Element for Plate Using Large Increment Method
红学研究溯源