新冠疫情期间基于LDA模型的大学生意见识别研究
2022-05-30秦新国薛雅
秦新国 薛雅
摘 要:文章以疫情期间“学生意见快递站”的数据为研究对象,利用LDA主题模型对学生意见进行主题建模,共识别出学生普遍关注的12个热点问题,并就相关问题进行剖析和解读,为职能部门的精准施策提供依据,最后从校园文化建设、校园环境建设、提高服务水平方面给出相关建议,希望给其他兄弟院校在疫情期间做好学生管理提供参照。
关键词:新冠肺炎;学生意见;主题识别;LDA Model
中图分类号:G434 文献标志码:A 文章编号:1673-8454(2022)09-0076-07
一、引言
新型冠状病毒肺炎(COVID-19)疫情对国内高校的正常运行造成巨大的冲击和影响,疫情期间,高校普遍采取一系列限制性措施以防止疫情的进一步扩散,课堂教学一律采用在线教学的方式,各项行政事务的办理,如选退课、学籍变更、业务咨询等,以线上咨询与办理方式进行,尽量避免学生之间、师生之间的直接接触,降低传染的风险。各项措施的出台有助于疫情防控,但是,也存在一定的负面影响,学生之间无法开展正常的社交活动,线上咨询增加学生问题解决的时间成本和复杂性,导致学生怨声载道,再加上疫情给学生的身心健康带来的巨大压力,使学生在解决问题时情绪易波动,极易造成冲突,导致矛盾激化,给舆情防控和教学管理工作带来巨大的挑战。
本文基于学校“学生意见快递站”平台,为学生问题咨询与办结提供权威的线上渠道,对问题的有效解决加强监督,实现问题解答的高时效、高质量、高满意度,进而达到安抚学生焦虑情绪的目的。同时,对学生反馈问题的数据进行分析、聚类,进一步聚焦问题本身,以便管理部门更加全面地掌握学生问题的共性,为精准施策提供依据。
二、相关研究回顾
(一)疫情对大学生心理健康发展产生的影响
疫情对大学生心理健康发展的影响是比较明显的,学生对疫情相关知识的了解不全面以及长期封闭无法社交,从而导致焦虑情绪的产生。有学者对广东3881名大学生进行网络问卷调查,结果显示,焦虑情绪发生率是26.60%,其中轻度、中度、重度焦虑发生率分别是23.19%、2.71%、0.70%;抑郁情绪发生率是21.16%,其中轻度、中度、重度分别为16.98%、3.17%、1.01%。[1]有学者对南京医科大学、中国药科大学、南京中医药大学3所医药类高校共4750名学生的心理焦虑情况进行测量,结果显示,医药类高校返校大学生中20.0%的学生有轻度焦虑情绪,6.5%的学生为中度或重度焦虑。[2]其中,因封闭管理和无法社交而产生焦虑情绪学生的比例较高,分别为52.9%和40.7%。有学者对安徽省两所本科院校的493名大学生进行问卷调查,分析学生的心理健康状况,采用“90项症状清单”(Symptom Check List 90,简称SCL-90)进行测试,结果显示总分达到阳性的人数为90例,阳性率为19.07%。[3]阳性率最高的单因子为焦虑(34.75%),接着依次为人际关系敏感(24.36%)、强迫症状(23.73%),阳性率最低的为精神病(13.77%)。
有学者认为,当个体产生焦虑情绪时,往往会自行寻找宣泄口以寻求安全感,一旦用户将他们的社会情绪映射到自媒体环境下,个体的社会情感在网络中可能引起共鸣或碰撞,进而导致主观焦虑被强化和放大,在一定条件下甚至演化为群体焦虑,进而刺激突发事件的产生。[4]因此,学校应当着重关注学生遇到的困难,及时帮助学生排忧解难,为学生营造轻松和谐的学习和生活环境,既有助于安抚学生的焦虑情绪,也可以避免突发事件或舆情的产生。
(二)面向用户生成内容的文本挖掘研究现状
用户生成内容(User Generated Content,简称UGC),即用户原创内容,是Web2.0下由网络用户创作的互联网信息。当前,基于UGC的研究及应用比较广泛,其作用已渐渐渗入到商业、新闻舆论、日常社交等层面。[5]有学者利用LDA(Latent Dirichlet Allocation)主题模型对多个网络学术社区的用户生成内容文本进行主题获取和分析,实现跨平台知识聚合,为社区内的科研工作者带来知识获取的便利。[6]有学者运用知识图谱分析方法对国内外视频网站用户生成内容的起源与发展、研究热点,以及发展趋势进行分析和可视化,以便更好地了解视频网站领域用户生成内容的研究进展和趋势。[7]有学者运用文本分析和可视化技术,从冗杂的用户在线文本中挖掘有用的信息,将其转化为可视化图表并建立创意思维映射,以帮助设计人员获取创意灵感。[8]还有学者使用语义技术对用户生成内容进行再组织,继而为用户提供更好的知识服务。[9][10]
(三)LDA主题模型应用研究
学生意见属于用户生成内容范畴,是用户情感、观点等的直接表达,对学生意见数据进行分析有助于快速洞悉学生动态和关注点,为学校提高管理实效提供依据。当前,在挖掘用户提问或评论主题方面常用的方法是LDA主题模型。有学者于2003年提出的一种文档生成模型,常用来推测文档的主题分布,进而根据文档主题分布进行主题聚类或文档分类。[11]有学者将LDA主题模型用于旅游微博文本分析,帮助研究者在特定维度框架约束下准确、客观地提取旅游地意象特征。[12]有些学者以天涯论坛用户发布的帖子为研究对象,对用户发布的帖子标题或帖子正文进行文本挖掘,通过LDA主题分类,进而捕捉网友的热点关注方向。[13][14]有学者以高校学生论坛数据为研究對象,将TF-IDF(Term Frequency-Inverse Document Frequency)和LDA主题模型相结合来计算文本相似度,进而进行文本聚类,取得良好的聚类效果和稳定性。[15]
综上所述,疫情期间,大学生的心理健康状况整体不佳,无论是医学专业的学生还是非医学专业学生,都或多或少存在焦虑情绪,在学生复学后,学校应加强监测和信息管理,引导大学生采取积极健康的行为方式,并通过互帮互助来防止其因受刺激而产生消极影响。[1]建立“学生意见快递站”,为学生提供权威的线上咨询交流平台,校方及时回应与落实,对舒缓学生情绪、防范舆情产生具有重要意义。由于学生反馈的问题量大,依靠人工进行分析,工作效率较低,鉴于LDA模型在用户生成内容上良好的表现效果,本研究拟将该模型应用于“学生意见快递站”,快速识别学生意见主题,为学校精准施策提供着力点。
三、研究设计
(一)模型构建
本文基于LDA模型分析学生意见的主题分布,数据分析流程如图1所示。数据处理过程由数据抓取、文档预处理、LDA主题建模与识别,以及结果分析与建议四部分组成。数据处理技术依托Python相关数据分析技术,包括Requests 数据抓取包、Jieba分词包、Gensim自然语言处理包等。
首先,通过数据抓取工具从“学生意见快递站”抓取学生意见及回复数据。其次,对文档数据进行清洗、分词、停用词、无效字符过滤等预处理;同时,加强未登录词识别,并加入到文档向量中;然后,通过LDA主题模型对文档进行建模,通过困惑度指标,确定最优主题数,并将该主题数运用于最终的LDA主题模型,识别文档主题集。最后,对LDA主题结果进行分析和解读,在此基础上,提出相关建议。
(二)数据来源与分布
“学生意见快递站”是学校权威的在线交流平台,旨在为学生提供问题咨询与反馈的快速通道。平台采用实名制在线投递问题,相对其它社交平台而言,数据质量及有效性较高。本文共抓取学生意见数据1395条,经过数据清洗,删除重复提交的数据、无效数据等,获得有效数据集1347条,有效数据占96.6%。有学者研究表明,年龄、性别、地区等因素会对学生的心理产生影响。[1]相比较而言,受疫情影响,年龄越小越容易产生焦虑,女生相对男生易产生焦虑,农村地区较城市地区易产生焦虑。对样本分布进行分析,共涉及在校生936人,覆盖学校各年级、全国各个省份(包括台湾地区),其中女生居多,占77.03%,农村户籍学生占34.72%。样本覆盖面比较全面,反馈的问题具有一定的普适性。学生分布数据分析如表1所示。
(三)数据预处理
对文档集做初步清洗后,文档长度在3至300之间(系统对文档长度有限制),平均长度为63。其中,长度低于平均数的文档有891篇,占66.15%。文档长度总体偏短,由于LDA对短文本效果不好,模型生成会遇到数据稀疏问题。[14]对此,有学者通过将短的Twitter文本拼接成长文本的方式来加以改进,以取得更高质量的主题。[16]因此,本实验将每条意见及其回复拼接成一个单独的文档来进行实验,合并后获得文档集长度在17至563之间,平均长度为137。
利用Jieba分词工具包对学生意见信息进行中文分词,删除标点符号、数字、单字,将文档转化为词向量表示。分词过程中,停用词采用“百度停用词表”和“哈工大停用词表”的合集。同时,将分词结果中的无实际意义的高频词也纳入到停用词表,如“学生”“学校”“你好”等。为保留学生意见的语义完整性,本文采用Bigram语言模型加强对学生意见中的高频短语的识别,以更准确地体现学生的关切。其基本原理是,关键词相邻同时出现且频率超过一定阈值,则将其合并为文档的特征词,加入到文档的分词结果中。本文设定词频阈值为10,表2展示的是词频超过50的部分未登录高频短语。
(四)学生意见特征词分布
对文档进行分词处理,共产生词条7922个,选取TF-IDF值最高的前60个关键词作为学生意见的特征词,如表3所示。图2展示的是学生意见分词结果的词云,更加直观地展现了学生关注的热点问题,词云用字的大小来反映词的热度,字越大说明关注度越高。
特征词的分布,一定程度上反映学生的关切,如快递类问题、图书馆相关问题、餐饮类问题等。学生反馈的问题大都与民生相关,“带来不便”一词出现171次,说明学校的供给还不能满足学生的需求,“希望”一词出现的频率最高,充分表现学生对学习和生活环境能够得到改善的殷切期待。“敬请谅解”一词出现144次,说明学校在问题的处理上态度比较诚恳。一方面,说明问题存在的客观性,另一方面,对相关问题的改进和落实也未来可期。 由此可见,“学生意见快递站”的开通对促进管理部门与学生的交流、推进问题的落实具有积极作用。
(五)学生意见主题选取
在LDA主题模型构建过程中,最优主题数T的值会直接影响到聚类的质量,而且主题的个数一般需要进行人为的事先设定。[15]LDA主题数量的确定通常可以采用主题困惑度(Perplexity Score)得分进行评估,主题困惑度用来描述模型的好坏程度,困惑度得分越低,模型越好。困惑度计算公式为:
本文将主题数设定在[5,30]区间内,通过比较不同主题数情况下困惑度得分来确定最优的主题数。实验结果如图 3所示,当主题数为12的时候,主题困惑度得分最小,根据困惑度越低模型效果越好的原则,选取主题数量为12。
四、实验结果分析
对学生意见进行主题聚类,选取每个主题中出现概率最高的10个词进行抽象概括,图 4展示的是LDA主题聚类结果,图5则是聚类结果的可视化展示,每个圆代表一个主题,主题之间的距离越远说明区分度越好。结果解读如下:
根据主题分析结果可知,餐飲、快递、校内交通、校园环境等是学生最关注的问题。主题1:餐饮问题,如“饮食”“餐厅”“菜品”等,餐饮是学生重点吐槽的对象,如餐厅的卫生环境偶尔存在不达标现象、菜品的价格偏高、菜品种类偏少、饭菜可口程度有待提高等,希望学校加以改善。主题2:校园快递问题,如“快递”“场地”“园区”“主流”等,主要体现在快递站在各宿舍区的设置不合理、主流快递运营商分布不均衡、快递服务质量不高等问题。主题3:校内交通问题,如“公交”“时间”“价格”等,重点反映公交车的部分站点偏离宿舍区,运营频率不能根据繁忙程度动态调整、公交线路安排不合理,存在部分宿舍区车少、乘坐难的问题。主题4:图书馆管理问题,如“图书馆”“自习”“储物柜”“空调”等,着重反映图书馆座位管理和储物柜管理不善,存在少量学生长期占用的现象,不利于资源的充分利用。关于空调,学生希望可以根据温度变化早点开空调,给学生营造一个良好的学习环境。主题5:故障维修问题,如“维修”“宿舍”“图书馆”等,一些插座、台灯、座椅等损坏长期得不到修复,希望学校提高维修效率。主题6:考试时间安排问题,主要涉及期末考试安排间隔不合理、在线考试系统缺陷,以及学生对考试的相关建议等。主题7:宿舍管理问题,如“宿舍”“空调”“寝室”等,宿舍条件不统一,四人间、五人间、六人间都有,宿舍条件的差异是学生吐槽的重点,希望学校能够改善住宿条件。另外,希望为宿舍安装门禁系统:可以防止校外人员随意出入,也可以提高查寝的效率。学生还希望每层宿舍配备饮水机,以便随时可以喝到热水。主题8:后勤管理与服务,如“总务委员会”“关注”“感谢”等,由于学生反映的问题主要体现在民生方面,大多数与后勤有关,后勤负责的教师对学生的问题都一一耐心答复,帮助学生排忧,体现后勤对学生的人文关怀。主题9:教室资源利用,如“教室”“自习”“考研”等,考研学生对通宵自习教室、通宵书库的需求比较迫切,对延长晚上学习时间的期望比较强烈,目前学校的供给跟需求不匹配。主题10、主题11、主题12还是侧重宿舍的环境问题,只是问题的角度不同,如宿舍洗澡相关,包括浴资不合理、水温不正常,以及部门宿舍区没有独立的浴室、洗澡不方便等。
总体来说,学生反映的问题相对来说比较集中,主要包括学习、生活环境,以及服务质量的改善等方面。希望学校能够从学生的利益出发,努力营造一个良好的校园软硬件环境,让学生学习得顺心、生活得舒心。
五、建议与对策
面对返校复学后学生可能产生的心理问题,以及这些问题带来的挑战,学校要高度重视学生关切,认真研判,积极应对和改进,出台相应的政策和措施,确保各项教学工作平稳运行。
(一)营造良好的校园文化氛围
首先,组织专业力量开展疫情心理健康专题教育。一方面,针对学生疫情期间可能存在的烦躁和焦虑情绪开展相应的心理讲座和辅导,让学生更加科学地认识到焦虑可能会产生的一些不适症状,掌握一定的应对策略,及时做好自我调节;另一方面,实施差异化的辅导策略,针对不同年龄、不同地区、不同性别的学生,实行多层次、多类别、多形式的辅导,提高辅导的针对性和有效性。其次,重视校园文化建设,丰富学生的业余生活。开展一些丰富多彩的文体项目,如阅读、运动、艺术活动等,既调节学生的紧张情绪,又愉悦身心,起到释放心理压力、缓解心理焦虑的效果。最后,加强师生互动,建立师生之间紧密的情感联结。着重发挥辅导员和班导师的作用,主动关心、关爱每一位学生,重点关注学生的情绪波动和异常行为,让学生感受到教师无微不至的关怀,当学生遇到困难的时候,可以快速找到心灵的依靠,继而起到良好的心理保护作用。
(二)加强校园硬实力建设
加强校园软硬件建设,改善校园环境,为学生提供更优质的服务,如食堂环境卫生、宿舍居住环境、自习教室环境等的改善,提高餐饮服务质量。及时排除设备故障,给学生创造良好的学习生活氛围。改善住宿条件,让学生在住宿环境上不产生心理落差。合理规划校园设施,提高服务效率,如校园快递站的设置,要尽量兼顾各宿舍区,不能让学生跑太远,尤其主流快递服务的设置要均衡等。优化校园公交的线路,根据人流量的变化,动态调整发车频次,提高公交乘坐的便利性和时效性。增加通宵教室的供给,满足考研学生的学习需要。通过学校软硬环境的综合改善和治理,让学生整体感受到家的温暖,减轻因封闭管理带来的压抑和不适应。
(三)提高管理服务水平
在管理过程中,学校应当秉持“以生为本、服务于人”的理念,从学生的根本利益出发,关爱学生、服务学生,全面提高服务水平和质量。在服务态度上:一方面,对学生反映的问题要高度重视,及时回应,不管能否解决、能解决到什么程度都要明确告知学生,确保事事有落实、事事有结果,杜绝拖沓懈怠;另一方面,实行首问负责制,大力提倡敢于负责、高效务实的工作作风,杜绝推诿扯皮。服务方式上:第一,拓展线上服务渠道,利用即时通讯工具,如企业微信员工服务平台等,为学生提供即时服务窗口,提高问题解答的效率;第二,推广主动服务,借助信息化手段,搜集学生反馈,分析学生行为数据,通过数据驱动实现精准决策、主动施策;第三,加强信息公开,如学生普遍对餐费、水费、电费等的定价和收缴环节存在质疑,学校应向学生公开相应的定价机制和依据,对不合理的地方应及时改进,避免因信息不对称性造成的误解。服务质量上:加强服务供给侧改革,以用户需求为导向,改善生活设施,优化学习环境,提高供给质量,解决学生学习、生活上的后顾之忧。
参考文献:
[1]昌敬惠,袁愈新,王冬.新型冠状病毒肺炎疫情下大学生心理健康状况及影响因素分析[J]. 南方医科大学学报,2020, 40(2):171-176.
[2]陈功,徐济达,卢佳.新冠肺炎疫情期间医学生返校后焦虑情绪及影响因素[J].中国学校卫生,2020,41(12):1851-1855.
[3]江瑞辰,李安民.新冠肺炎疫情期间安徽大学生心理健康状况及其影响因素[J].环境与职业医学,2020,37(9):867-871.
[4]尉永清,杨玉珍,朱振方,等.自媒体环境下突发事件网络舆情应急策略研究[J].西藏大学学报(社会科学版),2015,30(1):191-197.
[5]徐勇,武雅利,李东勤,等.用戶生成内容研究进展综述[J].现代情报,2018,38(11):130-135.
[6]陶兴,张向先,张莉曼,等.网络学术社区跨平台用户生成内容知识聚合研究[J].情报理论与实践,2020,43(7):151-156.
[7]刘婷艳,王晰巍,贾若男,等.视频网站用户生成内容国内外发展动态及发展趋势[J].情报科学,2020,38(10):133-140.
[8]李晓英,唐冬琳.面向用户生成内容的创意思维知识服务研究[J].计算机工程与应用,2021,57(4):236-244.
[9]郑姝雅,黄奇,张戈,等.面向用户生成内容的本体构建方法[J].情报科学,2019,37(11):43-47.
[10]丁文姚,韩毅.基于FOAF的UGC用户信息组织研究情报理论与实践[J].情报理论与实践,2019(8):124-130.
[11]DAVID M BLEI, ANDREW Y NG, MICHAEL I JORDAN. Latent dirichlet allocation[J]. Journal of Machine Learning Research, 2003(3):993-1022.
[12]梁晨晨,李仁杰.综合LDA与特征维度的丽江古城意象感知分析[J].地理科学进展,2020,39(4):614-626.
[13]李振鹏,黄帅.基于LDA主题模型的网络舆情研究[J].系统科学与数学,2020,40(3):434-447.
[14]田贤忠,姚明超,顾思义.基于BBS-LDA的论坛主题挖掘[J].浙江工业大学学报,2020,48(1):55-62.
[15]王少鹏,彭岩,王洁.基于LDA的文本聚类在网络舆情分析中的应用研究[J].山东大学学报(理学版),2014,49(9):129-134.
[16]HONG L, DAVISION B D. Empirical study of topic modeling in twitter[C]//Proceedings of the First Workshop on Social Media Analytics. New York:ACM. 2010:80-88.
作者簡介:
秦新国,办公室副主任,工程师,硕士,主要研究方向为智慧化教育、自然语言处理,邮箱:270010@nau.edu.cn;
薛雅,机要科科长,助理研究员,硕士,主要研究方向为教育管理,邮箱:310068@nau.edu.cn。
Research on Recognition of University Students Opinions Based on LDA Model
under the Background of COVID-19
Xinguo QIN Ya XUE
(1.Nanjing Audit University,Information Office,Nanjing Jiangsu 211815;
2.Nanjing Audit University,General Administration Office,Nanjing Jiangsu 211815)
Abstract: This paper uses LDA model to recognize the university students opinions during the COVID-19 pandemic, and identifies 12 hot concerned topic. Then, some analyses and interpretations of them are given, so as to provide basis for the accurate decision of relevent departments. Finally, the paper offers some suggestions from the perspective of campus culture, campus environment and service quality, hoping to provide for other universities reference as to students management during the pandemic.
Keywords: COVID-19; Student opinions; Topic recognition; LDA Model
编辑:王天鹏 校对:王晓明