大数据视域下阳明心学主题挖掘及作者发现研究
2020-02-01杨秀璋武帅夏换窦悦琪赵紫如朱涤尘张亚成
杨秀璋,武帅,夏换,窦悦琪,赵紫如,朱涤尘,张亚成
(1.贵州财经大学信息学院,贵阳550025;2.贵州财经大学,贵州省经济系统仿真重点实验室,贵阳550025;3.贵州财经大学,贵州省电子商务大数据营销工程研究中心,贵阳550025)
0 引言
阳明心学是明代著名思想家王阳明的心学思想,是中国传统文化的精华,其精神内涵包括“知行合一”“致良知”“身之主宰便是心”等[1]。阳明文学强调“心即是理”,即最高的道理不需外求,而从自己本心得到,其中的四句教“无善之恶心之体,有善有恶意之动,知善知恶是良知,为善去恶是格物”广为流传。目前共分为七个学派:右派(江右学派)、南中王门学派、闽粤王门学派、北方王门学派、楚中王门学派、左派(浙中王门学派)、泰州学派[2-3]。阳明心学文献作为其交流与传播的重要载体,有效地推动阳明心学的发展。当前阳明心学的研究主要采用期刊阅读、书籍查阅、学派交流,核心作者仅仅依据发文量来判断,缺乏利用大数据技术来进行分析和研究。
随着互联网和大数据技术的迅速发展,传统文化相关的学术成果和在线博客呈爆炸式增长,如何从海量文献中识别出核心科研作者、挖掘出热门主题变得越来越重要。核心作者是学科研究的坚实基础,决定着学科研究方向以及学术成果的质量[4]。传统识别方法是通过发文量来认定,却忽略了论文质量,缺乏利用社交网络或知识图谱技术构建核心作者间的关系,识别结果往往存在片面性,针对这些问题,本文通过社交网络方法挖掘阳明心学的核心作者深层次合作关系。同时,利用LDA主题模型挖掘阳明心学文献的核心主题关键词,并结合可视化技术直观地反映阳明心学的研究热点。
近年来,国内外学者致力于学术文献研究并提出各自的分析方法。侯建华[5]通过PathFinder算法,基于美国科学情报研究所的Web of Science三个检索数据库(SCI、SSCI、A&HCI)绘制和分析工商管理学科主干理论演进的关键路径图谱。杨秀璋等[6]基于LDA主题模型挖掘水族文献知识,揭示学科领域作者合作关系。何超[7]借助知识图谱理论与方法研究我国工商管理学科,并系统绘制管理科学学科知识图谱。严红等人[8]基于CSSCI引文索引数据库为数据来源,采用CiteSpace引文空间可视化分析方法,绘制国内协同创新研究热点知识图谱。黄海瑛[9]通过知识图谱和可视化技术系统分析外国文学文献及热点变迁。
综上,结合国内外学者的研究现状,本文提出一种基于大数据分析技术的阳明心学研究方法,包括社交网络、LDA模型、词云可视化,旨在挖掘阳明心学文献的热门主题和核心作者,并结合可视化技术展现阳明心学的研究热点及作者关系图谱。
1 研究方法
1.1 基本思路与框架
本文旨在利用大数据分析技术研究阳明心学文献,通过文献计量、社交网络、LDA模型、综合指数、可视化分析方法挖掘阳明心学文献的热门主题和核心作者。该算法的框架图如图1所示。
(1)采用Python和Selenium技术自定义爬虫抓取KI阳明心学文献数据。
(2)数据预处理包括中文分词、停用词过滤和特征提取,提取阳明心学相关的特征并存储至数据库,包括文献标题、文献作者、文献摘要、文献来源、发表时间、被引量和下载量。
(3)阳明心学大数据分析包括文献计量分析、核心作者计算、科研团体发现和研究主题挖掘,所涉及的技术包括文献计量、普赖斯定律、综合指数、社交网络、LDA模型和可视化技术。
1.2 数据采集及预处理
本文旨在挖掘中国知网阳明心学文献的核心作者,分析阳明心学核心期刊杂志及研究主题,共抓取中国知网1974年至2019年4月期间2463篇阳明心学相关的学术成果,并对抓取的文献进行数据预处理,从而得到更准确、更完整、质量更高的文献信息。实验所采用的数据预处理主要包括异常值处理、数据清洗和中分分词。
图1 阳明心学研究框架图
1.3 LDA模型
LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,由Blei等人[10]在2003年首次提出,是一种基于主题(T)、文档(D)和主题词(W)的三层贝叶斯结构,其中文档到主题(D-T)以及主题到主题词(T-W)层面均服从多层分布。LDA模型将一篇文本的每个词都按照一定概率分布到某个主题上,并从这个主题中选择相关的词语集,如图1所示,将d篇文档映射到k个主题中,每个主题包括一定量的主题词。
图2 文档-主题-词映射模型
本文针对阳明心学文献完成主题挖掘研究,经过LDA主题分布后,得到各个文档的不同主题所占比例,实现阳明心学各主题关键词的挖掘。
2 阳明心学文献计量分析
本文采用Python自定义爬虫抓取中国知网阳明心学相关的学术成果,共获取2463篇学术成果,包括学术期刊论文1825篇、博士论文134篇、硕士论文354篇、国内外会议论文63篇、报纸文献87篇,详细信息如表1所示。
表1 中国知网1974年至2019年3月的阳明心学学术成果汇总表
2.1 近十年发展综述分析
本文首先利用文献计量和可视化技术分析阳明心学近十年的发展概况。通过PyEcharts库绘制如图3所示的趋势图,图中横轴为2009至2018年这十年的时间轴,纵轴为近十年中国知网阳明心学相关的学术成果的发文量(紫色折线图)、最高引用量(红色柱状图)和最高下载量(蓝色柱状图)。整体而言,发文量呈平缓增长趋势,可见越来越多的学者关注阳明心学研究,对阳明心学的传承和弘扬起到一定的推广作用。其中,2014年陈琪[11]《王阳明“致良知”思想研究》博士论文下载量最高,共被下载6780次,被引用29次。
图3 近十年学术成果发展趋势图
2.2 发文作者分析
对阳明心学学术成果相关作者发文量进行汇总排名,得出如表2所示的结果。其中,贵州大学中国文化书院的张新民、贵阳学院阳明学与黔学研究所陆永胜均发表26篇以阳明心学为主题的文献。
表2 作者发文量前十统计表
2.3 学科类别和研究类型分析
针对中国知网阳明心学学术成果的学科类别和研究类型进行计量分析,得出如图4和图5所示的结果。其中,图4是阳明心学学术成果学科类别分析,以哲学与文学为主,其中哲学占59.07%、文学占10.11%,阳明心学主要归于哲学和文学范畴。
图4 学科类别统计分析
图5是阳明心学研究类型分析,排名最高的分别是基础研究(社科)、政策研究(社科)、行业研究(社科),分别占80.07%、4.38%、3.69%,该结果间接反映出我国大多数研究阳明心学的为基础社科研究。
图5 研究类型统计分析
2.4 学术期刊分析
学术期刊分析能有效挖掘研究阳明心学的中坚力量,它们有效推动了中国传统文化的研究。本文采用WordCloud技术挖掘热门期刊,得出如图6所示的结果。其中,“贵阳学院学报(社会科学版)”“孔子研究”“贵州师范大学学报(社会科学版)”“哲学研究”“贵州大学学报(社会科学版)”五家期刊杂志社的出现频数最高,分别为82次、29次、27次、26次、22次,它们均对阳明心学的研究作出重要共现,也侧面反映出贵州省对阳明心学的重视程度。
图6 期刊文献分析
3 阳明心学核心作者计算
针对传统的核心作者发现仅采用发文量或被引用量来评判的缺陷,本文采用一种同时考虑发文量和被引用量来确定核心作者候选人的方法,再通过普赖斯定律计算阳明心学文献核心作者候选人的测评样本[12],最终计算出文献的核心作者。具体步骤如下:
(1)依据普赖斯定律统计核心作者候选人刊发文章的累计最低发文量。其计算公式如式(1)所示:
其中,Mp为普赖斯定律统计发表阳明心学文献的最低发文量,Npmax为普赖斯定律统计的最高发文量。实验统计发现,阳明心学文献最高发文量为26,依据普赖斯定律,选择发表四篇或四篇以上的作者作为阳明心学文献核心作者的候选人。
(2)计算核心作者候选人刊发文章的累计最低被引用量。实验发现,阳明心学文献中作者发文被引用量最高为71次,依据普赖斯定律确定核心作者候选人的最低被引用量,其计算公式(2)如下:
其中,Mc为普赖斯定律统计阳明心学文献的最低被引用量,Ncmax为作者发文单篇被引用最高量。依据普赖斯定律,选择被引用量在七次以上的作者作为阳明心学文献核心作者的候选人。
(3)筛选符合①和②的作者进行统计分析,最终确定阳明心学文献核心作者候选人为45位,候选人共发表学术成果396篇,占全部阳明心学文献的16.1%,候选核心作者的总被引用次数为1794次,占阳明心学文献总被引用量的28.4%。
(4)计算阳明心学核心作者候选人的平均发文量和平均被引用量。其计算公式如下:
其中,X表示核心作者候选人总发文量,Y表示核心作者候选人发文的总被引用量,n表示核心作者候选人数。
(5)依据发文量与被引用量构建综合指数,从阳明心学在中国知网收录文献的数量和质量两个角度评估核心作者候选人。综合指数计算公式如下:
其中,scorei表示第i位核心作者候选人的综合指数得分,xi和yi分别表示第i位核心作者候选人的发文量和累计被引用量,发文量和被引用量系数均为0.5。
运用此综合指数方法对45位核心作者候选人进行计算,得出如表3所示的前20位核心作者。其中,左东岭发表阳明心学相关文献9篇,被引用量为180次,综合指数为2.77;杨国荣发表阳明心学相关文献11篇,被引用次数为159次,综合指数为2.62;张新民发表阳明心学相关文献26篇,被引用量为46次,综合指数为2.06;王路平发表阳明心学相关文献22篇,被引用次数为58次,综合指数为1.98;陆永胜发表阳明心学相关文献26篇,被引用次数为29次,综合指数为1.85。该方法有效挖掘出阳明心学研究的核心科研工作者。
表3 阳明心学学术成果核心作者统计表
4 阳明心学作者关系发现
针对阳明文化核心作者关系发现,本文提出一种基于社交网络和共现矩阵的分析方法,利用Gephi构建阳明心学文献作者间的关系图谱,进一步挖掘对阳明心学做出重要贡献的科研群体。具体操作如下:
(1)首先计算中国知网2463篇阳明心学学术成果的所有作者共现矩阵,当两位作者出现在同一篇文献中时,则认为共现并构建一条相关联关系边,否则没有。
(2)采用Gephi构建阳明心学作者关系图谱,绘制如图7所示的效果图。由图可知,圆圈越大表示合作关系越密切,反之越少。
图7 阳明心学核心作者合作关系图谱
该知识图谱共挖掘具有合作关系的核心作者435名,合作次数321次,平均聚类系数为0.844,平均路径长度为1.137。阳明心学核心科研群体包括以张新民老师为代表的贵州大学中国文化书院科研团队,其研究方向是中国古代史、哲学和阳明文化;以邹建锋老师为代表的湖州师范学院团队,他们的研究方向是明代思想史、明代儒学和哲学;以陆永胜老师为代表的贵阳学院科研团队,其研究方向是中国文学、哲学和王阳明心学美学。
综上,这些科研团队对中国传统文学及阳明文化研究均有一定的贡献,同时,更多阳明心学研究者采用独自科研并发表相关学术成果的方式。本文也鼓励科研工作者合作研究、共同探讨,为中华传统文化的保护和传承提供帮助。
5 阳明心学研究主题挖掘
本文采用WordCloud和LDA模型挖掘阳明心学的主题关键词。其中,词云分析得出如图8所示的分布图,阳明心学学术成果的热门主题词主要包括“王阳明”“阳明心学”“王阳明心学”“致良知”“传习录”“知行合一”“龙场悟道”“程朱理学”等,它们被研究的频率较高,直接反映了阳明心学的核心价值及学术研究方向。
图8 阳明心学文献的热点主题词
在基于LDA模型的主题挖掘实验中,本文通过实验发现最佳主题数为3,迭代次数为500,最终实验结果如图9所示,三个圆圈分别代表阳明心学学术成果的三个核心主题,即阳明心学和知行合一(Topic 1)、哲学思想和美学启示(Topic 2)、儒学思潮和明代文学(Topic 3),它们明显区别且联系密切。图9展示了主题3对应的词频大小,LDA主题模型有效凝聚了阳明心学的主题,可视化直观地呈现各主题对应的关键词分布差异及重要程度。同时,为进一步挖掘各主题的核心关键词,通过LDA主题模型提取三大主题的前20个主题词,如表4所示。
图9 阳明心学LDA主题挖掘
表4 LDA模型主题-关键词识别结果
由表可知,每个主题的差异明显,主题1中的特征词主要是阳明心学和知行合一,包括“心学”“王阳明”“知行合一”“龙场悟道”“研究”等主题关键词;主题2中的特征词主要是哲学思想和美学启示,包括“王阳明”“哲学”“良 知”“哲 学 思想”“伦理”“精神启示”等主题关键词;主题3中的特征词主要是儒学思潮和明代文学,包括“儒家”“文化”“阳明心学”“影响”“明代”“文学”“儒学理论”等主题关键词。
6 结语
针对中国传统文学和哲学缺乏利用大数据技术分析的特点,本文提出一种基于大数据分析技术的阳明心学研究方法,主要采用文献计量、社交网络、LDA模型、词云可视化对中国知网所收录的阳明心学相关的2463篇学术成果进行研究。
实验结果表明,本文方法发现了以左东岭、杨国荣、张新民、王路平、陆永胜为代表的阳明心学核心研究者,挖掘的热门主题包括“王阳明”“阳明心学”“知行合一”“致良知”“传习录”等,LDA模型识别出三大核心主题,分别是阳明心学和知行合一、哲学思想和美学启示、儒学思潮和明代文学。本文方法能有效地挖掘出中国传统文化的主题关键词及作者关系图谱,使研究的主题脉络更加清晰,为推动阳明心学的弘扬与发展提供帮助,具有一定的应用前景和和实用价值。