基于LDA模型的新文科研究热点主题分析
2022-12-02唐运舒
唐运舒, 朱 研
(合肥工业大学 管理学院,安徽 合肥 230009)
一、引 言
在中国特色社会主义进入新时代的背景下,加快我国高等教育的内涵式发展已经成为社会各界的共识。面对着新挑战,在2018年10月,教育部决定实施“六卓越一拔尖”计划2.0,全面推进“四新”建设,这标志着中国新文科建设的开始。新文科建设是发展社会主义先进文化的重要载体,也是提升国家文化软实力的重要手段,然而由于新文科建设在我国是一个全新的事物,学界对新文科建设的本质以及对新文科“新”在何处等问题的理解并不十分清晰。
有许多学者从不同视角对新文科建设的内涵、思路进行了解读并提出了新文科建设的建议,通过梳理这些文献,有助于了解新文科建设的全貌,并可以进一步抽丝剥茧,认清新文科建设的本质。而在以往对于相关文献内容的研究中,主要依赖的是学者的人工阅读及分类,不可避免地存在较大主观性,并且在文献数量较多的情况下,传统方法需要耗费大量的人力。近年来,随着自然语言处理技术(NLP)的逐渐成熟,中文分词、词性分析等技术不断完善,将文本分析的技术应用于文献的计量分析成为一种新趋势。
本文拟采用文本无监督学习中的主题建模LDA(Latent Dirichlet Allocation)方法,以中国知网收录的期刊为原始文本数据,对关键词为“新文科”,发表时间在2018年1月1日至2021年10月31日的文献摘要部分进行分析,尝试分析以下三方面的问题:一是当前“新文科”研究领域的热点主题;二是学者对“新文科”不同主题关注度的演变规律;三是“新文科”领域未来可能的研究方向和趋势。
二、数据和方法
1.数据来源
本研究以中文权威数据库——中国知网作为数据源,设定“新文科”为主题,选择精确检索,时间限定为2018年1月1日-2021年10月31日,其他条件均不限制 。对检索结果进行人工阅读和整理,删除了图书、专利、访谈报告、会议预告等文献。另外,删去了摘要缺失的文献,最终得到有效文献1 137篇,其中2018年文献2篇,2019年65篇,2020年311篇,2021年759篇。对文献数量变化情况进行归纳,如图1所示。
可以直观地看出,2018-2021年期间针对“新文科”研究的发文量呈现爆发性增长的趋势。
图1 2018-2021年样本文献年度总量变化趋势
2.研究方法
(1)LDA方法 LDA主题建模是从大型数据集中提取潜在变量的一种统计工具,被广泛应用于文本的分析。主题建模最初发展于20世纪80年代,是从“生成性概率建模”领域细分出来的方向。在1990年由Deerwester等人开发出的潜在语义分析模型(LSA)被视为最早的概率主题模型,当在大型语料库上执行时,LSA可以实现显著的数据压缩,但存在“一词多义”的问题。在1999年由Hofman等人提出的概率LSA(PLSA)模型,可以在一定程度上避免一词多义的出现,但是这种方法有过度拟合的风险。2003年,Blei等人在PLSA模型中加入了Dirichlet先验分布,解决了过度拟合的问题,形成了LDA主题模型。
LDA包含“词语-主题-文档”三层贝叶斯网络。在LDA模型中,隐含的主题被视为词语特征的概率分布,同时,文档被视为主题的概率分布。LDA的运行过程可以简化理解为三步:首先,对语料库里的每一篇文章,以一定的概率从主题分布中选择某个主题t;其次,从主题t中以一定概率选择某个单词w;最后,重复前两步,直到生成文章中的所有词语。LDA主题模型可以从整体的角度挖掘隐藏在文本中的潜在主题。
(2)文本预处理和LDA参数设置 首先,下载文献的标题、摘要、发表年份等信息,将其编码为UTF-8的格式,随后采用jieba中文分词组件进行分词,为了降低文本中的噪声信息,又进行了词性过滤和停用词过滤的处理,经过上述步骤,就生成了文档-词矩阵。
紧接着进行LDA模型参数设置,作为无监督的机器学习,LDA模型的运行需要事先确定3个超参数α、β、k(最优主题数),α、β一般取默认值,而对于最优主题数k的确定,一直没有公认的确定方法,目前的主流方法有三种:根据困惑度(perplexity)确定、根据一致性分数确定(coherence score)和人工评估确定。在文档的来源相对分散,或者文本没有经过标注处理时,使用困惑度或一致性分数可能会出现效果较差的情况,此时,使用人工评价的方法往往更具可信性[1]。本文采用人工调整k值的方法,得到不同的模型训练结果,通过这些结果的比较,确定最优主题数。如果主题数过少,包含的信息量就较少,而且容易在主题中出现语义不相关的内容,而过多的主题虽然包含了更多的信息,但是可能导致相关语义词的分裂情况。经过多次尝试后,最终确定主题数目为8,这些主题可以提供足够的信息,并且不会产生过多的噪声,可以获得较好的效果。
三、结果与分析
1.主题可视化结果
LDAvis是一种基于Web的主题可视化方法,在2014年由Sievert和Shirley等人提出[2],可以提供主题的全局视图。简单来说,就是LDAvis通过投影的方式,使主题-主题的多维标度降维在平面,从而进行比较分析,并且LDAvis以特征词和主题的关联性选择主题的特征词,关联性的指标由词频和词语独特性这两项综合构成。这样一来,LDAvis就可以从整体的角度来观察主题-主题、主题-词语之间的关联。
在完成主题建模后,本文基于pyLDAvis.sklearn包将主题结果可视化。得到主题可视化的总体结果,如图2所示。可以将图2分为左右两部分来看,左侧8个带有编号的圆圈代表8个对应的主题,主题1~8分别为新文科的建设内涵、技术背景、搭建文科实验室、时代背景、学科定位、教学模式变革、建设理念和构建课程体系。圆圈大小表示该主题的文档数量,圆圈间的重合度表示主题间的相似性,距离越近代表主题间的关联强度就越大。从图2可以看出,主题1的圆圈半径最大,则表明主题1的文档数量越多;主题1与主题2之间的关联度最强。
图2右侧的每条横条前面都有一个主题词,横条的长度代表主题词在整个语料库中出现的频率,整个语料库中最流行主题词包括人才培养、实践、跨学科、应用型、课程思政、学科建设、交叉融合等。
图2 LDAvis主题可视化结果
2.主题内容分析
基于主题建模的结果,对不同主题下的一系列关键词进行归纳总结,概括出该主题的主题名称,形成新文科研究领域的主题词表,见表1所列。
从表1可以看出,对新文科的建设内涵、技术背景、搭建文科实验室、时代背景、学科定位、教学模式变革、建设理念和构建课程体系这8个主题的内容进行识别后,可以进一步发现主题之间存在一定的关联性。将这8个主题进行归纳梳理后,可以将其划分为新文科建设背景、新文科建设内涵与理念、新文科建设路径三个方面。新文科建设背景包括时代背景和技术背景两部分;新文科建设内涵与建设理念之间的联系较密切,因此将这两方面内容放在一起分析。构建课程体系、教学模式变革和搭建文科实验室都是课程建设相关的内容,学科定位与学科建设相关,将课程建设与学科建设归纳为新文科建设路径。
本研究将按照新文科建设“建设背景-建设内涵和理念-建设路径”的逻辑主线对新文科建设相关的主题进行深入的解读和分析,如图3所示。
表1 LDA主题建模结果
图3 新文科研究主题逻辑框架图
主题4和主题2与建设背景相关。主题4中关键词包括“传统文化”“社会主义”“软实力”“自信”“中华文化”“复兴”“话语体系”“新格局”等,这些关键词反映了新文科建设的时代背景。伴随着中国的崛起,国际地位的提高,需要坚定中国特色社会主义文化自信,提升国家软实力,在当今世界各种文化交融交锋的新格局下,需要在世界的舞台上,听到中国声音。显然,新时期下,传统的哲学社会科学体系已经不能适应新技术的发展和中国特色社会主义的需要,新时代呼唤建立中国自己的学科体系、话语体系[3]。
正是基于上述背景,2020年11月3日,由教育部新文科建设工作组主办的新文科建设工作会议在山东大学(威海)召开。会议研究了新时代中国高等文科教育创新发展举措,发布了《新文科建设宣言》[4],对新文科建设作出了全面部署。明确了“新时代新使命要求文科教育必须加快创新发展”的共识,同时提出“提升综合国力、坚定文化自信、培养时代新人、建设高等教育强国、文科教育融合发展都需要新文科”的重要论点。
主题2中包括“人工智能”“数字”“大数据”“智能”“互联网”“数字化”“信息技术”等关键词,这些关键词反映了新文科建设的信息技术发展背景。数据不仅是工具,也是思维方式。在大数据的时代,从大学内部来看,不同学科之间的互动与交往频次逐渐上升,学科知识实现交融,一些交叉学科相继出现[5]。中国“新文科”概念的提出与新一代信息技术的发展密切相关,在互联网、人工智能、数字化等技术深入渗透到各个学科的背景下,“新文科”特别强调新技术[6]。新技术的不断发展为新文科建设提供了全新的、必不可少的技术手段,在教育领域,新技术打破了传统教学的时间和空间障碍,使得高质量、个性化、终身化、即时性的学习活动成为可能[7]。在这一技术背景下,新时代的哲学社会科学的内涵、价值向度、功能定位、历史使命、研究范式和学科体系都在发生极其深刻的变革,传统文科教育面临全方位的深刻变革需求。新需求促使学科之间的主动交叉,而新技术的发展又给学科之间的交叉提供了条件和现实的可能。《新文科建设宣言》也指出,新文科建设的重点工作之一在于促进专业优化,积极推动现代信息技术与文科专业深入融合,积极发展文科类新兴专业,促进原有文科专业改造升级。
通过主题2和主题4的分析可知,“新文科”建设是回应新时代要求、顺应新科技革命和产业变革趋势,培育新时代中国特色、中国风格、中国气派的新文化,传承文化根脉,创新文化发展,坚定文化自信,推动社会发展的重要举措。
主题1关键词包括“交叉融合”“跨学科”“学科交叉”“跨文化”“新理念”等,这些内容主要与新文科建设的内涵相关。要想切实理解“新文科”的内涵,需要将其放到学科与人类文明的历史发展过程与逻辑,以及人才培育成长与时代创新规律的背景下考察[8]。高等教育的根本目标之一就是扩大知识生产。而知识生产的内在要求会以问题为导向,不断突破既有的学科边界,并迫使学科作出相应的调整,跨学科交叉与文理交叉就是这种调整的具体实现,因此新文科的建设内涵,应该围绕中国现代化进程的认识来展开,应该放在中国高等教育的内在要求来理解[9]。新文科的“新”体现在交叉融合,人文与社会科学交叉、社会科学内部交叉、人文与自然学科之间的交叉[10]。相应地,在新时代、新技术背景下,文科呈现出一系列新特点,其中之一就是学科之间的交叉变得越来越多,不仅文科内各学科的交叉变得越来越明显,文理之间的交融也越来越需要[6]。由上可见, “跨学科”“交叉融合”“学科交叉”是新文科建设的重要内涵之一。
主题7关键词有“教育理念”“立德树人”“课程思政”“跨界融合”“时代背景”“新技术”等,这些内容与新文科建设理念有关。新文科建设的理念包括转变传统文科模式,打破学科间的壁垒,推动跨界融合,以立德树人为宗旨,提升国家软实力,实现文科之间的融合、文科与社会科学的融合、文科与新技术的融合,培养符合新时代要求的复合型人才[11]。新文科建设必须坚持以人为本、立德树人的育人理念,充分考虑人才培养周期与科技进步发展相适应的问题,从而谋划设计新文科发展方向[12]。从本质上说,不论采用何种方式,教育的最终目的都是为了培养人。而现在的标准往往更注重对人才培养工具性的度量,忽视了对人的德性培养,长此以往,则会造成巨大的危害[9]。新文科强调文科教育对于立德树人的价值,而非仅仅强调知识的重要。在教育和人才培养中强调立德树人的意义,是中国特色“新文科”建设的首要任务[13]。唐衍军等建议高校在新文科建设中,通过课程思政的方式开展德育培养,通过开设思政类课程、强化课程思政、加强社会实践、开展诚信教育等多种形式,在人才培养的全过程中贯彻“立德树人”的理念,弘扬社会主义核心价值观,提升学生的道德修养[14]。高校思政改革要发挥文科育人作用,坚持立德树人,以文化人。强化课程思政和专业思政建设,以学生为中心,推进通识教育与思政教育融合,扎实推进社会主义核心价值观教育[15]。由上可见,“立德树人”是新文科建设倡导的核心理念,实施“课程思政”是新文科建设的重要抓手。
主题5与新文科学科定位有关,而主题8、主题6和主题3分别是关于新文科课程建设中课程体系构建、教学模式变革和文科实验室建设等主题,上述主题在此统一称为新文科建设路径。以下将逐一进行分析。
主题5关键词包括“学科建设”“双一流”“跨学科”“数字人文”“交叉学科”“培养模式”“综合性”等,主要是关于新文科建设的学科定位。学科是大学的最基本元素,是教学、科研、师资等方面实力的集中反映,也是高校实现人才培养、科学研究、社会服务和文化传承创新职能的依托。“新文科”概念的出现,源于新形势下对传统学科建设和人才培养模式的反思。传统的文理工科界限分明,导致知识不能融通,限制了学科的创新发展。伴随着新一代信息技术的发展,产生了一些“互联网+”的新业态,同时,这些新技术的发展加快了业态更新的速度。在这一背景下,新业态下的人才培养模式与传统的培养模式相比面临新的要求,这就需要学科更融合,知识更多元的培养模式。新文科建设不仅仅是解决传统文科发展中的瓶颈,更重要的要打造一种全新的格局[16]。
创新学科结构体系,是新文科建设工作的重点。新文科建设要求破除传统学科之间的壁垒,促进学科间的深度融合,不仅是经济类、管理类、艺术类文科之间的内部融通,更重要的是融合理科、工科的元素,实现文理学科的共同繁荣[3]。“新文科”建设需要学科重组、文理交叉,强调新技术的学科融入,强化学科间的跨越融通,实现价值共享,其目的是培育新时代需求的高素质创新人才及系统理论,并努力建成“中国学派”[8]。新文科要求云计算、大数据、人工智能等新技术有机地融于中国特色人文社会科学的学科体系中[17]。正是在上述背景下,数字人文应运而生,作为在新兴技术支撑下发展的新型人文学科领域,数字人文的产生本质上是方法论的创新,开设数字人文专业方向是跨学科交叉融合的人文社会科学人才培养,是创新学科布局和新文科人才培养改革的重要尝试[18]。
主题8关键词有“应用型”“课程体系”“实践教学”“师资队伍”“复合型”“课程设置”等,这些内容主要与课程体系构建有关。课程与学科是一种相互依存、相互发展的关系。学科知识是构成课程的元素,而学科的人才培养需要以课程为中介来实现。目前高校文科专业的课程设计方面存在着一些基础问题,如工具性课程开设不完整,课程内容不能及时更新,课程缺少挑战性等,也存在着因为师资的限制导致一些高校的文科专业课程往往“各行其是”的情况,课程间缺少相应的连接,距离构建跨学科复合课程群还有很长的路要走[19]。加强新文科人才培养,应从通识教育、专业教育和人文教育三个向度,打造“全人”课程,使不同课程有效互补、融合,形成以通为主,通专结合,重视人文素质培养的课程体系[17]。就专业人才培养而言,新文科应将新科技融入哲学、文学、语言、艺术等课程,通过构建跨学科的课程体系和跨学科的师资队伍提升学生的能力,激发学生的创新思维[5]。
主题6与教学模式变革有关,关键词有“教学模式”“教学内容”“课程教学”“教学方法”“课程建设”“教学改革”等。在科技不断发展,全球化不断推进的背景下,推动教学现代化势在必行,要顺应新文科建设的需求,对教学模式、教学方法、教学内容等进行全面的改革[20]。随着新文科建设的推进,人才培养模式的调整,教学内容趋向跨学科性,教学模式呈现多元化,有越来越多的新技术应用在教育领域,在人才培养模式上有更广泛的跨学科融合和协同培养体系[21]。人工智能和云计算等技术的兴起,信息技术与教育教学深度融合,带来教育教学的深刻变革[22]。围绕新文科建设,可以借助互联网信息技术,推动核心课程共认共享,各高校可以构建资源共享平台,打造全国范围的“精品课”,实现优秀课程的推广,在一定程度上解决专业师资不足、不均衡的问题[23]。此外,新文科建设需要实施全要素的“课堂革命”,摒弃传统只由一个教师负责一门教学课程的模式,引入其他专业的优秀学者构建复合型的师资队伍,进行启发式、研讨式教学,突破之前单一学科的局限,切实提升学生的综合能力[19]。
主题3关键词包括“科技”“现代化”“整合”“政策”“新技术”“文科实验室”等,主要与搭建文科实验室相关。实验教学在文科人才的培养过程中一直处于边缘化的地位,文科实验室的发展起步较晚;虽然近年来国家对文科实验室的投入有所增加,但文科的实验教学相比于理工科来说,还没有形成系统体系。《关于加快建设高水平本科教育 全面提高人才培养能力的意见》和《中国教育现代化2035》中都特别指出,要重视对学生实践和创新能力的培养。建设文科实验室对达到上述目标尤为重要,特别是对于像新闻类、经管类、艺术类等应用性较强的专业来说,不论是在教学还是在科研工作中,都离不开实验室的支持。《教育部社会科学司2020年工作要点》[24]中明确指出,“应重点支持建设一批文科实验室,促进研究方法创新和学科交叉融合”,引领学术发展。
中国人民大学清史研究所副所长胡恒认为,“‘新文科’建设中‘新’的核心在于保持传统文科教学与研究方法的同时,如何加强人文学科内部相关专业的交叉融合,以及与自然科学的交叉融合”。而文科实验室建设恰好可以体现这个“新”字,我们应当将其放在更基础、更战略性的位置上,使其成为解决这个问题的抓手[25]。在目前关于新文科实验室建设的研究中,一些学者肯定了文科实验室对于教育体系改革及培养高素质复合型人才的重要意义并指出人文社科类实验室建设已经进入转型的关键时期,强调资源与制度的共建是实验室建设新模式的关键[26]。虽然在“新文科”蓬勃发展的背景下,文科实验室建设受到了越来越多的关注,但当前文科实验室的发展仍存在“多建少用”“建而不用”和“共享程度低”等问题。如何利用如“互联网+”、虚拟现实、人工智能、5G等信息技术手段建设高水平的文科实验室是亟待解决的问题[27]。
3.主题强度变化研究
通过LDA主题建模后,可以得到文档-主题矩阵。文档-主题矩阵中包含了每一篇文档在每一个主题上的概率值,即每一篇文档在每一个主题上的强度。再结合每篇论文的发表年份,将每一个主题在相同年份上的概率值相加并平均,得到该主题在该年份上的主题强度数值。主题强度公式如式(1):
(1)
其中:S(Zt,k)表示在t年份中主题k的强度;θd,k表示第d篇文档上第k个主题的强度;Dt表示t年份中所有文档的数量。根据上述方法,以下将对新文科研究中8个主题的强度演变情况进行分析。
2018年在中国知网上发表的主题为“新文科”的文献仅有2篇,不具有代表性,因此本研究重点关注2019-2021年的主题强度演变,并列出了2019-2021年的主题强度变化情况,如图4所示。
图4 主题强度图
从图4可以看出,主题8“构建课程体系”的强度显著高于其他主题,虽然在近两年的强度有一定程度的下降,这可能是因为主题强度是一个相对数值,由于其他主题强度的上升而引致了主题8强度的下降,尽管如此,主题8的强度还是远远高于其他主题。主题6“教学模式变革”和主题3“搭建文科实验室”的主题强度仅次于主题8强度,也明显高于其他主题。主题8、主题6和主题3同属于课程建设的内容,可见课程建设一直是新文科领域的研究热点,产生这样的结果可能是因为课程建设是新文科建设的基础,无论结合何种专业进行新文科建设,最终都需要具体的课程建设来实现新文科建设的目标。
主题7“建设理念”的强度在近两年呈持续上升的趋势,且在2021年上升的幅度较大,该主题可被视为是新文科研究的新兴热点,这一结果可能与我们之前的教育过分强调知识的重要,而忽视了对人的德性培养,而“新文科”建设重新强调立德树人的重要性并将其作为首要建设任务有关。
主题4“时代背景”、主题2“技术背景”以及主题5“学科建设”的主题强度相较于其他主题一直处于低位,通过进一步文献回溯分析发现,大多数文献摘要中都会提及经济环境变化、技术发展等背景语句,但一般是作为引入的句子,而不是摘要中的主要内容,导致主题强度低于其他主题。而学者对新文科建设中“学科建设”主题关注相对较少。
此外,主题1“建设内涵”的强度在2019年仅次于3个课程建设主题,说明在新文科提出之初,学者对新文科建设内涵较为关注;而在2020和2021年该主题强度呈略微下降趋势,原因可能是随着新文科建设的推进,学者的关注重点转向新文科建设中学科建设、课程建设等具体建设路径。
4.重点主题分析
由上述分析可知,“构建课程体系”是新文科领域的研究热点,“建设理念”为新文科研究的新兴热点,而“建设内涵”直接关系到新文科建设的方向,因此选取上述3个主题作为代表,在中国知网的主题搜索中限定条件设置为同时包含新文科与该主题标签,从而筛选出符合条件的文献。对这些文献进行LDA主题建模,得到主题词分布,进行进一步的分析。
(1)构建课程体系分析 在中国知网上进行主题搜索,以同时包含“课程体系”和“新文科”为条件进行筛选,时间限定为2018年1月1日-2021年10月31日,共得到102篇文献,对这些文献进行LDA主题建模。具体结果见表2所列。
表2 “构建课程体系”主题下LDA主题建模结果
从结果可以看出,关于课程体系的研究有以下几方面:关于加强实践教学的课程设置;关于融入信息技术手段的教学改革;关于教学内容的改革;关于师资队伍及培养模式的变革。
(2)建设理念分析 在中国知网上进行主题搜索,以同时包含“理念”和“新文科”为条件进行筛选,时间限定同上,共得到196篇文献,对这些文献进行LDA主题建模。具体结果见表3所列。
表3 “建设理念”主题下LDA主题建模结果
从结果可以看出,关于新文科建设理念的研究主题主要包括:融合新技术的教育理念,立德树人的教学理念以及创新型复合型人才培养理念。
(3)建设内涵分析 在中国知网上进行主题搜索,以同时包含“内涵”和“新文科”为条件进行筛选,时间限定同上,共得到76篇文献,对这些文献进行LDA主题建模。具体结果见表4所列。
表4 “建设内涵”主题下LDA主题建模结果
从结果可以看出,关于新文科建设内涵的主题有以下几个方面:现代化与新技术背景下的跨学科交叉;关于跨学科育人的学科知识体系;关于“四新”学科背景下传统文化传承;关于跨学科专业建设。由分析可知,关于新文科建设中学科交叉内涵已经得到了学者们的充分关注,但对于“四新”学科背景下传统文化传承等内涵的关注相对不足,研究尚不充分。鉴于新文科“建设内涵”直接关系到新文科建设的方向,新文科“建设内涵”主题有待获得学者们的重点关注和研究挖掘,有望成为未来的热点研究领域。
四、结 论
本文通过LDA主题建模的方法,对中国知网上“新文科”相关文献进行分析,利用主题可视化的方法展现主题间的全局视图,同时利用主题强度分析新文科研究的热点主题和新兴主题。通过分析发现,新文科的研究主题主要围绕在新文科的建设背景、建设内涵、建设理念、学科定位、构建课程体系、教学模式变革和搭建文科实验室等方面,其中关于“构建课程体系”、“教学模式变革”和“搭建文科实验室”等课程建设主题是当前新文科研究的热点主题,“建设理念”主题是新文科建设研究的新兴热点。而学者们针对“建设内涵”主题相对其重要性而言关注不足,研究尚不充分,有待获得学者们的重点关注和研究挖掘,有望成为新文科建设未来研究的热点领域。本文的研究尚存在以下不足:一是研究的文本量不大,且只对摘要部分进行分析,未对全文进行分析比较;二是主题标签的命名是根据主题词与主观判断生成的,未能兼顾到所有的主题词及其相关文献,可能与实际情况存在一定的偏差;三是主题强度可以反映一个主题的相关研究热度,但依据主题强度的变化来推断今后可能的研究方向依靠作者的专业经验与主观判断,这一方法并不完美,主题强度是一个相对数值,主题强度变化情况是推断今后研究方向的一个可能性依据,基于此,本文对未来研究趋势的推测的准确性有待后续考证。