APP下载

一种教育舆情的爬虫程序设计

2021-03-30

河北软件职业技术学院学报 2021年1期
关键词:爬虫寄语绘制

仇 明

(江苏旅游职业学院,江苏 扬州225009)

0 引言

中国互联网络信息中心2020 年4 月发布的第45 次《中国互联网络发展状况统计报告》显示,截至2020 年3 月,我国网民规模达9.04 亿,手机网络用户规模达8.97 亿。[1]网络深刻地影响和改变着人们的生活,越来越多的人通过网络获取信息并发表自己的观点和意见。公众开始依赖网络,对与自身利益相关的社会公共事件发表意见、留言,表明态度(即网络舆情)。[2]

随着我国经济的发展和人民生活水平的提高,人们对教育也提出了更高的要求。在网络舆情中,教育类问题往往成为大家关注的对象。近年来,“小升初”“培训机构”“公民统招”等教育措施的出台受到了广泛关注,一些地方政府开通了网上政务,方便群众进行问题反馈。本文尝试使用爬虫程序获取某市寄语市长网站中近三年的教育类留言,统计出一些高频的关键词并绘制词云,获得社会关注的热点教育问题,从而为教育教学改革和教育质量的提高提供依据和参考。

1 程序设计思路

本程序开发采用Python 作为开发语言,Python的版本为3.7.0,相应的开发工具为Pycharm,数据库则采用了SQLite。

Python 是一种既面向过程又支持面向对象的解释性编程语言,它是动态类型化的,无需声明变量类型。Python 便于对大规模数据进行操作与分析,对掌握其他语言的程序员及初学者比较友好。[3-4]

由于Python 语言容易学习,且第三方库丰富,本文采用Python 语言设计爬虫。本次程序获取的是文字数据且数据量较小,所以用SQLite 数据库存储相关数据。SQLite 是一款完全开源且免费的轻量级的关系型嵌入式数据库,具有便携性、易用性、高效性及可靠性多种优点。[5]使用Jieba 库进行中文分词和词频统计,使用Wordcloud 绘制相关的词云,实现数据的可视化。教育的舆情数据较多,有网络论坛、网站留言、QQ 群、微信群等,本文所采用的数据为某市寄语市长网站的教育类留言。该网站为政府所办,对于留言都有答复和回访,其信息能够较为真实地反映当下人们关心的教育热点问题。该网站界面如图1 所示。

2 相关程序代码

2.1 爬取留言

由于数据量不大,本程序使用Python 中的requests 库爬取网页中的留言,使用Xpath 的方式进行网页解析,最后将数据存放在SQLite 数据库中。

图1 寄语市长网站

通过上述操作,共爬取了近三年的教育类留言2079 条,相关数据信息如图2 所示。

图2 近三年的教育类留言信息表

2.2 绘制词云

首先,从数据库中读取各个留言,将所有留言拼接成一个字符文件;然后,使用Jieba 库进行分词,去除一些无意义的词语,统计出现频率较高的词语,这些词就是广大群众关注的教育热点问题;最后,将这些高频词语绘制词云,使得数据形象化。

相应的词云如图3 所示。从图3 中可以看出,人们对于义务教育的入学问题、补课、机构培训、招生、考试以及一些热点学校的教学情况等较为关注。

图3 根据出现频率较高的关键词生成的词云

3 结语

本次实验通过Python 爬虫来获取教育类的留言,并进行词频统计,绘制词云图,从中可以发现社会所关注的一些教育类热点问题,从而为教育教学的改革和教育质量的提高提供一些有益的参考。该程序较为简单实用,能够达到解决实际问题的效果,但还有很多不足,比如还没有实现图形用户界面,用户的体验效果不佳,程序的容错性也较差等,需要进一步研究改进。

猜你喜欢

爬虫寄语绘制
利用网络爬虫技术验证房地产灰犀牛之说
寄语
特约主编寄语
新年寄语
基于Python的网络爬虫和反爬虫技术研究
作品赏析
基于Excel VBA和AutoCAD的滚动轴承参数化比例图绘制方法
超萌小鹿课程表
大数据背景下校园舆情的爬虫应用研究
大数据环境下基于python的网络爬虫技术