基于Python的抖音“高职教育教学”舆情数据抓取与分析
2024-09-12彭健周扬帆
摘要:随着互联网和大数据技术的飞速发展,新媒体平台也随之迅速发展,其中,抖音是最受高职大学生欢迎的新媒体平台之一,对高职院校教育教学网络舆情环境产生了巨大的影响,因此对高职院校的教育教学抖音舆情数据进行研究具有重要的意义。用Python编程技术对抖音平台上的高职教育教学舆情数据进行抓取与可视化分析,为高职院校治理教育教学网络舆情环境提供真实有效的数据支持。
关键词:教育教学网络舆情Python可视化
中图分类号:TP311
PublicOpinionDataCaptureandAnalysisofTiktok"HigherVocationalEducationTeaching"BasedonPython
PENGJianZHOUYangfan
HunanFinancialandIndustrialVocational-TechnicalCollege,Hengyang,Hu’nanProvince,421002China
Abstract:WiththerapiddevelopmentoftheInternetandBigDatatechnology,newmediaplatformshavealsodevelopedrapidly.Amongthem,Tiktokisoneofthemostpopularnewmediaplatformsforhighervocationalcollegestudents,whichhasahugeimpactontheonlinepublicopinionenvironmentofhighervocationalcollegeeducationandteaching.Therefore,itisofgreatsignificancetostudytheTiktokpublicopiniondataofhighervocationalcollegeeducationandteaching.PythonprogramingtechnologyisusedtocaptureandvisuallyanalyzetheteachingpublicopiniondataofhighervocationaleducationonTiktokplatformand,soastoproviderealandeffectivedatasupportforhighervocationalcollegestomanagetheeducationandteachingnetworkpublicopinionenvironment.
KeyWords:Educationandteaching;Onlinepublicopinion;Python;Visualization
目前,抖音已成为网络舆情传播最广泛的新媒体平台之一,越来越多的高职大学生成为了抖音网络舆情的传播者,在诸多的舆情中,教育教学领域的舆情对高职大学生身心发展的影响尤为巨大,对抖音上的高职院校教育教学网络舆情数据进行抓取和分析具有重要意义。针对传统数据抓取方法存在抓取成功率小和时延长的问题,一种基于Python爬虫技术的互联网数据抓取方法已被提出,该方法的抓取成功率高,时延短[1]。使用网络爬虫对数据抓取后,需要对抓取的数据进行解析以获取目标信息。使用Chrome抓包分析可以对动态页面的少量信息进行获取,而正则表达方式可以更高效地对页面中大量的数据进行获取[2]。已有研究以“安徽审计职业学院百度贴吧”为例,分析Python网络爬虫技术的实现原理,爬取贴吧内的文本数据,利用分词、词频统计、词云图制作等技术进行数据分析,为校园相关部门舆情引导提供帮助和新的思路[3]。抖音是高职院校教育教学网络舆情传播最广泛和最便捷的网络平台之一,而目前利用Python网络爬虫技术对高职院校教育教学领域的抖音网络舆情数据的抓取与可视化分析方法都还没有完备的实验研究,因此,利用Python编程技术对抖音平台上的高职院校网络舆情数据进行抓取和可视化分析具有重要的研究价值。
1爬虫论述
1.1爬虫简介
目前,人类已经进入大数据时代,互联网上分布着大量的网络数据,这些网络数据对人们的生活产生了巨大的影响,为了快速与及时地获取网络数据,网路爬虫技术也随之应运而生。网络爬虫是一种按照网络协议编写相应代码来自动抓取万维网数据的一种程序。该程序一共包含三个模块,分别是数据请求、数据解析和数据保存[。本研究利用Python程序实现爬虫技术。
1.2爬虫的意义
随着互联网与大数据技术的蓬勃发展,网络数据越来越受到高职院校青年大学生的关注,网络舆情的传播对大学生的身心健康发展产生了巨大的影响。由于网络数据具有数据量大、价值密度低、数据处理速度快的特点,利用爬虫技术来及时获取所需数据,可以为后期决策提供支持与依据。
网络爬虫技术在搜索引擎中发挥着巨大的作用,极大地促进了网页数据更新的及时性和全面性,展开对网络爬虫技术的相关研究和分析,有利于推动搜索引擎的优化升级,以便实现更好地为网络社会服务。
在网络数据的获取中,网络爬虫技术发挥着重要的作用,例如,爬虫所获得的数据不仅可以为教育、金融、医疗等方面的研究提供依据,还可以实现数据的实时更新,确保信息的时效性。
1.3Python爬虫的执行流程
在网络爬虫技术中,由于Python的兼容性强,因利用Python实现网络爬虫技术逐渐成为主流方法。利用Python编程爬取网络数据主要分为以下步骤:首先,利用Python的requests库的get或者post方法向目标网站发出HTTP请求爬取网页源代码数据,然后根据网页源代码数据的特点与格式调用相应的解析函数对页面源代码数据进行解析以提取所需的目标字段数据,最后将提取的目标字段数据进行预处理后保存到本地文件或数据库中。
2数据抓取与可视化分析实验
2.1实验内容
本研究利用爬虫抓取了抖音平台以“高职教育教学”关键词的短视频舆情数据,并将爬取的数据进行了提取,提取的字段为标题、点赞数、评论数、收藏数、转发数、发布时间,最终对提取后的字段数据进行可视化分析。
2.2实验步骤
首先,确定爬虫采集的高职教育教学网络舆情数据的抖音平台链接;其次,获取数据来源网站源代码数据,并对源代码数据进行解析;然后,提取解析数据中的标题、收藏数、评论数、点赞数、转发数、发布时间字段的短视频舆情数据;最后,对抖音短视频舆情数据进行可视化分析。
2.2.1网页源码数据抓取
在网络爬虫技术中,由于Python的兼容性强,因此利用Python实现网络爬虫技术逐渐成为主流方法[4]。利用Python编程爬取网络数据一般流程为:首先,利用Python的requests库的get或者post方法向目标网站发出HTTP请求爬取网页源代码数据,然后根据网页源代码数据的特点与格式调用相应的解析函数对页面源代码数据进行解析以提取所需的目标字段数据,最后将提取的目标字段数据进行预处理后保存到本地文件或数据库中。在本研究数据抓取中,首先,打开抖音官方网站,搜索以“高职教育教学”关键词的抖音短视频舆情信息页面,确定抖音平台的高职院校网络舆情数据链接。然后,按快捷键F12打开网页检查功能,确定爬虫请求头headers中的一系列参数,其中就包括相应的referer、User-Agent及cookie所对应的内容,还有搜索请求参数中params的一系列参数,其中包括搜索关键词keyword“高职院校”、页码偏移量offset及每页记录条数count。最后,利用Python的requests库的get方法将上一步确定的参数传入方法中并向目标网页请求数据,请求数据一开始执行之后就会翻页爬取数据,第一页的页码偏移量offset为0,记录条数count为16,从第二页开始,之后每一页的页码偏移量offset都比上一页增加10,记录条数count保持为10不变。由于网络爬虫具有获取数据速度快、频率高的特点,一般的网站后台服务器会设置反爬虫机制以限制爬虫频繁请求网站数据,从而导致爬虫程序无法继续顺利进行。由于目标网站存在反爬机制,所爬取的数据量有限,待爬到一定数据量后程序将自动终止[5]。
2.2.2网页源码数据解析与提取
通过上一步执行后,已获得关键词为“高职教育教学”的抖音短视频舆情网页源代码数据,该数据的格式为json格式,该步骤中调用json方法将请求得到的json格式的网页源代码数据转换成字典,通过对字典中的键进行索引可以提取相应的标题数、收藏数、评论数、点赞数、转发数、发布时间目标字段信息。
2.2.3保存数据
通过上一步执行后,已获得关键词为“高职教育教学”的抖音短视频舆情目标字段数据,该步骤中调用csv库的writer接口将标题、收藏数、评论数、点赞数、转发数、发布时间数据写入到csv文件中,前10条数据展示如表1所示。
2.2.4分词与去停用词
本研究为了绘制以“高职教育教学”为关键词的抖音短视频标题文本中的词语与词频分布的词云图,需要对标题数据进行分词与去停用词处理。在分词器中,Jieba是优秀的中文分词器,它依靠中文词库确定汉字之间的关联概念,将汉字间概率大的字符串组成词组,形成分词结果[6]。对标题数据进行分词与去停用词处理的步骤为:首先,采用jieba分词工具的lcut方法对标题文本进行中文分词处理,处理后直接返回词语列表。然后,在哈工大的中文停用词库补充“高职教育教学”为关键词中的词语后利用补充后的停用词库去除分词后词语列表中的停用词以提高数据可视化分析的质量。
2.2.5数据可视化
词云图是一种计算机可视化技术,用于文档摘要的文本挖掘,简单且用户友好,被广泛用于各种现实生活中的应用程序,而不受领域限制,将给定原始文本或文档中最突出的关键字投影到视觉画布上[7]。本研究绘制词云图具体步骤如下:首先,利用collections库中的Counter模块对已完成分词和去停用词处理的抖音短视频标题列数据进行词频统计。其次,将词频统计结果转换成字典类型,从而得到以词语与词频所对应的键值对构成的字典。再次,将字典输入到wordcloud库的generate_from_frequencies函数中进行绘制词云图。最后,使用Matplotlib库输出显示以“高职教育教学”为关键词的抖音短视频标题文本中词频最高的前50个词语的词云图,绘制的词云图如图1所示。
饼图是在媒体上非常容易理解和受欢迎的常见图形[8]。本研究绘制饼图具体步骤如下:首先,采用字符串匹配方法将解析与提取的目标数据中的标题字段划分为素质、专业、比赛、考试、科研五个不同类别的教育教学标签,这五个标签将作为饼图扇形的分类标签。其次,调用pandas库的groupby方法按照领域标签进行分组。再次,调用mean方法计算不同领域类别分组下的抖音短视频的评论数的平均值,并将每个评论数的平均值除以平均值和结果保留小数点后两位来实现归一化处理。最后,将计算不同类别分组下的抖音短视频的归一化后的平均评论数和上述五个标签传入matplotlib库的pie方法中,从而绘制高职院校不同领域抖音短视频的平均评论数占比分布的饼图。绘制的饼图如图2所示。
2.3实验结果分析
从图1中可以看出,高职院校教育教学领域抖音短视频的“单招”“高考”词语较为明显突出,是两个热度非常高的词语,在抖音短视频舆情传播中单招和高考相关的短视频相比其他词语相关的短视频出现的频率会更高。从图2中可以看出,高职院校教育教学在专业、考试方面的抖音短视频平均评论数所占比例较大,在素质、科研与比赛方面的抖音短视频平均评论数所占比例较小。
3结论
本研究以抖音网站的短视频数据为数据源,使用Python爬虫对以“高职教育教学”为关键词的抖音短视频的舆情数据进行了爬取。然后对所爬取的数据进行解析与提取。通过绘制高职院校抖音短视频标题中词频最高的前50个词语的词云图进行可视化分析,得出结论为:“单招”和“高考”是非常明显突出的词语,这里说明单招与高考是高职院校非常关注的教育教学考试,因此对单招与高考方面的网络舆情加强监管与治理不但有利于高职院校自身的建设与发展,而且有利于教育引导准备参加考试的考生树立诚信公正的考试观念。通过高职院校不同领域抖音短视频的平均评论数占比分布饼图进行可视化分析,得出结论为:高职院校在考试、专业教育教学方面的抖音短视频平均评论数占的比例较大,在素质、科研与比赛方面的抖音短视频平均评论数占的比例较小,建议高职院校在教育教学上应持续加强专业、考试方面的网络舆情监控与治理,同时加大力度对素质、科研与比赛方面的教学建设以提高在网络舆情上的关注度,从而教育和促进高职大学生在专业技能与人文素质方面全面发展,激发青年大学生努力学习、积极探索和敢于创新的潜能。
参考文献
[1] 王芳.基于Python爬虫技术的互联网数据抓取方法设计[J].信息与电脑(理论版),2023,35(7):41-43.
[2] 温娅娜,袁梓梁,何咏宸,等.基于Python爬虫技术的网页解析与数据获取研究[J].现代信息科技,2020,4(1):12-13,16.
[3] 丁然.基于Python爬虫技术的高校网络舆情数据分析研究:以“安徽审计职业学院百度贴吧”为例[J].现代信息科技,2023,7(5):106-108,112.
[4] 古志敏,吴明珠.基于Python网络爬虫设计与实现[J].电脑编程技巧与维护,2023(9):163-166.
[5] 胡海潮.基于新浪微博的爬虫程序设计与实现[J].无线互联科技,2018,15(9):40-42.
[6] 唐宇.基于信息熵的中文地质文本分词[D].长沙:中南大学,2023.
[7] RAJANVM,RAMANUJANA.ArchitectureofaSemanticWordCloudVisualization[J].Springer,Cham,2021.
[8] BESSLERLR.PieChartsandDonutCharts[J].Apress,Berkeley,CA,2023,4:187-220.