APP下载

基于文本情感分析的大学生网络发帖调查

2021-09-22盛伟翔扶齐彦

电子技术与软件工程 2021年13期
关键词:价值观核心情感

盛伟翔 扶齐彦

(1.江西司法警官职业学院 江西省南昌市 330013 2.南昌大学信息工程学院 江西省南昌市 330013)

1 概述

价值观念是人们实际社会生活在道德层面的客观反映,社会主义核心价值观是社会主义文化的精髓之所在。党的十八大以来,中央高度重视培育和践行社会主义核心价值观。习近平总书记多次作出重要论述、提出明确要求,党中央高度重视、有力部署,为加强社会主义核心价值观教育实践指明了努力方向,提供了重要遵循。社会主义核心价值观的建设已经成为国家治理能力和治理体系的重要任务。历史和实践表明,提升核心价值观的感召力,是维护社会秩序和保证社会系统正常运行的重要途径,也是社会和谐稳定与国家长治久安的重要保障[1]。

随着新媒体时代的到来,互联网对人们日常生活、思维方式以及价值观的改变,在当代大学生中产生了广泛的影响,容易使学生产生困惑与迷茫,加强社会主义核心价值观教育势在必行,而对于当代大学生社会主义核心价值观的研究更显得尤为重要。文献[2]基于网络空间发展进程的视角,对高校学生社会主义核心价值观培育进行了研究;文献[3]通过分析新媒体的特点,分析了新媒体时代对大学生价值观念的影响,并提出了相应的应对策略;文献[4]通过对吉林省长春市的部分高校开展问卷调查,对大学生社会主义核心价值观认同现状进行了深入的研究;文献[5]通过调查问卷、个别访谈等方式,深入探讨和分析了高职院校学生价值观取向和践行情况。

传统的价值观研究方法普遍采用调查问卷或个别访谈的方式来采集研究数据,而调查问卷往往存在着调查结果广而不深、质量难以保证、问卷回收率低等问题,而进一步难以保障研究的客观性和准确性。本文从网络大数据的视角出发,通过对全国2631所普通高等学校(含独立学院265所)的百度贴吧信息进行采集,随机采集了2018年至2021年间由学生发布的139534篇网帖,通过对其标题、正文和评论信息进行情感分析,进而对全国高校学生的社会主义核心价值观的现状进行了研究,并在此基础上对高职学生核心价值观的培养进行了分析。本研究方法和研究成果,一定程度上增强了调研过程的客观性和准确度,对于相关社会科学领域的研究具有一定的参考意义。

2 研究对象

本课题研究力求在一个较大的样本中展开研究,于是选取以百度贴吧为研究载体。在人人网(原校内网)用户活跃度持续走低的情况下,百度贴吧成为了当前高校大学生最集中的网络交互环节。百度贴吧中,每位网民均有平等的话语权,较之调查问卷更易表达出自己的真实意见,同时发帖与回帖之间更易形成交互产生思想的碰撞,使得本课题研究的数据来源更加真实客观。另外,为了保障研究的数据来源的全面性,本研究采集了全国2631所普通高等学校(含独立学院265所)的百度贴吧中2018年以来发布的139534篇网帖(含标题、正文与回帖),平均每个贴吧采集贴文53篇,其中,985/211高校贴吧6334篇,普通本科高校47725篇,独立学院14154篇,高职院校64921篇,高专院校6400篇;评论数大于等于1000条的1732篇,大于等于100条的15097篇,大于等于10条的62097篇,小于10条的77437篇。在数据的选择方面秉持随机选取,最大限度地使研究的覆盖面达到足够大,保障数据集的全面性和客观性。本课题将2631所普通高等学校分为全国985高校、211(非985)高校、985/211高校、普通本科、独立学院、高职院校、高专院校进行分析,数据源集合的特征如表1所示。

3 评价模型

3.1 评价因子集

以百度贴吧网帖为研究对象,评价因子集可表示为:

其中,F1, F2, F3分别表示网帖标题、网帖首帖正文、网帖全部评论集合。由于每个网帖的评论数存在差异,因此,其权重也会随之变化。假设F3的元数为N,即F3={F31, F32,…, F3N},在本方法中,令各元具有相同的权值,则评价因子集中元素对应权重可表示为:

3.2 基于支持向量机的情感分析模型

为了应对网络大数据采集和分析过程的稳定运行,模型分为数据采集和数据分析两部分,以增强功能模块的高内聚低耦合性。该模型的数据处理流程如图1所示。

3.2.1 数据采集部分

对全国2631所高校的百度贴吧进行遍历,获取各贴吧内首页全部网帖网址,并依次进入网帖内获得评价因子集所制定的内容。整个数据采集过程,使用了requests、beautifulsoup等类库。

3.2.2 数据分析部分

本课题运用情感分析技术来对全国大学百度贴吧内网帖的标题、正文、评论等信息源进行分析。情感分析[6]又称意见挖掘,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程,其通常被归纳为3项层层递进的研究任务,即情感信息的抽取、情感信息的分类以及情感信息的检索与归纳。本课题采用了Python中文文本处理库SnowNLP,抽取文本中有意义的信息单元,将无结构化的情感文本转化为计算机可识别和处理的结构化文本,采用NLPCC2013微博文本情感分析数据集作为训练语料,采用支持向量机进行训练,实现语句的情感五分类[7],分别为积极、较积极、中性、较负面、负面,分别赋值1、0.75、0.5、0.25、0。

表1:数据源特征

表2:情绪评价分布情况

图1:情感分析模型数据处理流程

3.3 评价结果集

基于支持向量机的情感分析模型,对每个评价因子Fi进行五分类后,可得到其对应的评价结果,针对单个评价因子的评价结果集可描述为:

其中,R1, R2, R3, R4, R5分别代表积极、较积极、中性、较负面、负面,并用值1、0.75、0.5、0.25、0表示。而对于评价因子集F而言,其评价结果R'F为:

其中,Fj为将F3展开后全集的各子项。因此,针对评价因子集F的评价结果集可描述为:

当r趋近于0.5,意味着接近中性情绪;当r越趋近于1时,意味着越接近积极情绪;当r越趋近于0时,意味着越接近负面情绪。

4 实验结果

本课题对全部139534篇网帖按照前一节所述研究方法进行情感分析,得到实验结果数据,如表2所示,详细情况如图2所示。

总体上来看,当前大学生在互联网上的个人表达与倾诉大部分都展示了积极乐观的情绪,表现了当代大学生积极向上的精神风貌。相比较而言,985高校学生更希望进行有思想碰撞的交流,中性评论占比11.99%,211高校、普通本科高校、独立学院学生次之,分别占比13.8%、13.77%、13.62%,高职、高专院校学生评论最为中性,分别占比15.72%和17.3%;985高校学生负面情绪评论占比最高,为25.84%,211高校、普通本科高校、独立学院学生负面情绪评论相对减少,占比分别为21.62%、22.11%和21.27%,高职、高专院校学生评论最少,分别占比20.69%和19.63%;在积极情绪方面,985高校占比最低,为62.17%,高职、高专学生网络评论积极情绪占比次之,分别为63.59%和63.08%,211高校、普通本科高校、独立学院学生积极情绪评论最多,分别达到了64.59%、64.13%、65.11%。

根据对数据的研究和分析,我们可以看到,绝大部分大学生在网络上沟通友善、立场理智,思想道德素质、社会公德意识、精神风貌均表现得较为积极向上,对社会主义核心价值观表现出较高的认同和肯定。表明当前针对大学生的思想政治教育得到了较好的成绩,成功抵御了经济全球化、信息全球化背景下外来文化的冲击,一定程度上阻止了网络环境中的不良因素对学生发展的负面影响。但也可以发现,高职、高专学生立场中性占比较高,立场中庸或不愿发表真实意见,从侧面表现出了一定程度上的个人本位意识较强和社会活动参与意识较弱的问题。现阶段,大学生的价值观主流是积极向上的,但是也存在着许多不容忽视的问题,更要坚持高校思想政治教育不松懈,积极探索新媒体时代高职学生社会主义核心价值观的培育路径,促进高职学生的健康成长和成才,提高高职思想政治教育的实效性,将高职学生培育成中国特色社会主义事业的合格建设者和接班人。

5 结论

图2:情绪评价分布详情

本研究将文本情感分析方法引入到了当代大学生社会主义核心价值观研究之中,对全国2631所普通高等学校对应的百度贴吧的139534篇网帖进行情感分析,进而对全国高校学生的社会主义核心价值观的现状展开研究。研究发现,当代大学生在互联网上的个人表达与倾诉大部分都展示了积极乐观的情绪,表现了积极向上的思想道德素质、社会公德意识和精神风貌。本研究方法与传统调查问卷或个别访谈的方式相比,研究结果有更好的客观性和准确度,避免了被调查者的防备心理,降低了调查结果广而不深、质量难以保证、问卷回收率低等问题的出现。本研究成果为当前高等教育、思想政治教育提供了一定的研究基础和数据支撑,本文提出的研究方法和研究思路对德育相关领域的研究具有一定的参考价值。

猜你喜欢

价值观核心情感
我是如何拍摄天和核心舱的
近观天和核心舱
你好!我是“天和”核心舱
我的价值观
如何在情感中自我成长,保持独立
失落的情感
情感
如何在情感中自我成长,保持独立
知名企业的价值观
价值观就在你我的身边