基于百度贴吧大学生网络舆情分析
2018-01-04赵芬雷珍臻杨晓云苏鹏举王顺晔
赵芬 雷珍臻 杨晓云 苏鹏举 王顺晔
摘要:网络舆情是社会舆情在互联网空间的映射,是社会舆情的直接反映,可通过大量的数据集合,进行舆情分析,大学生作为高等教育的主体,如何更好地了解学生的所思所想,成为高校教育不可或缺的一部分。本文通过爬虫技术,在百度贴吧这个大学生聚集的社交平台爬取交流数据,通过对京津冀20所不同类型的高校的论坛内容进行网络舆情的情感分析,以方便高校管理部门更好地指导学生工作。
关键词:网络舆情;百度贴吧;网络爬虫
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2018)28-0227-03
Analysis on the Network Public Opinion of University students Based on Baidu Tieba
ZHAO Fen, LEI Zhen-zhen, YANG Xiao-yun, SU Peng-ju, WANG Shun-ye
(Langfang Normal University, Computer Technology Department, Langfang 065000, China)
Abstract: Network public opinion is the mapping of social public opinion in Internet. It relect the social public opinion directly. How to better understand what students think, becomes an indispensable part of higher education. Through crawler technology, this paper crawls the data from Baidu Tieba, a social platform gathered by university students. It makes an sentiment analysis of the network public opinion in Baidu Tieba which is from 20 different types of colleges and universities in Beijing, Tianjin and Hebei. It can facilitate the better management of colleges and universities students.
Key words: Network public opinion; Baidu Tieba; web crawler
1 概述
舆情是社会公众对各类现象问题事件所表达的态度意见言论和情绪的综合。随着信息技术的发展,网络舆情作为舆情领域的新问题备受关注。新时代大学生思想活跃,网民所占比例重,是各大社交平台的主流群体。掌握学生网络舆情对回应高校学生诉求、化解高校矛盾、维护高校秩序和稳定等发挥着巨大作用。在大数据环境下问卷调查已不具普适性,信息处理、定量分析无疑是最佳方法。因此探讨高校网络舆情的监测和引导问题是必要的和科学的。
本文通过爬虫技术,在百度贴吧這个大学生聚集的社交平台爬取交流数据,通过对京津冀20所不同类型的高校的论坛内容进行网络舆情的情感分析,以方便高校管理部门更好地指导学生工作。
2 大学生网络舆情
2.1网络舆情
随着时代的慢慢推移,科学技术水平的飞速发展,网络通信日渐发达,互联网已经变成了日常生活中不可或缺的一部分,人们对于网络信息的需求也越来越高,信息的过滤以及热点话题的分析也变得越来越急需,其中网络舆情分析也是其重要的一部分。网络舆情是现今社会中网友对待热点事件根据自身的感受以及社会现象等所显示和展现出来的状态以及意见。通过对网络舆情的研究分析可以随时了解到社会的各种现象,通过网络爬虫技术提取的数据信息,通过收集整理,可以实现对网络舆情研究的精准、准时的获取和判断。网络舆情现已成为各种公司、单位及社会部门预测以及监控的重要部分。
2.2大学生网络舆情
近年来,互联网已经在高校中随处可见,但受其网络的冲击,校园文化、风气也得到了很大的打击。百度贴吧作为网络交流平台中最受欢迎的一个,因为其方便、快捷、及时的特点,以及用户的隐匿性和交互性,受到了广大大学生的喜爱,成为大学生最常用的网络交流平台之一,许多大学生都通过百度贴吧获取信息或寻求帮助来解决问题。高校网络舆情是老师、学生通过各种网络平台对学校的管理制度、意见观点,学校热点话题,学校发展建议等做出的评价以及态度和情绪的集合。
3 网络爬虫
3.1网络爬虫定义
网络爬虫[1],最简单地来讲:将网页中的数据放到本地计算机上,是一种自动化浏览网页的程序,可以将其看成一个隐形的没有界面的简陋浏览器,爬虫为搜索引擎工作,作为搜索引擎的主要内核程序,通过搜索引擎将网页中的内容下载到本地。首先获取爬取信息的种子URL,通过分析网页结构,实现网页中数据的读取,并将其内容放置到本地计算机中,通过抓取网页中的URL,源源不断的将当前网页中的URL存储到循环队列中,实现一层层的抓取,当把网站中的所有网页抓取完成后,爬虫才算结束,如同在网络上爬行的大蜘蛛,通过以上的原理可以将整个网络上的所有网页爬取下来。
爬虫技术[2]被很快用于搜索引擎或者其他相关网站,以便及时获取数据网站的内容以及其他数据。网络爬虫可以通过设定自动收集所有可访问网页和其中的内容,收集到的数据以供搜索引擎做进一步处理,进而使用户可以在第一时间准确获得需要信息。
3.2网络爬虫原理
网络爬虫等同于浏览器,爬虫工作抓取网页的过程也是在于对 Request 和 Response 的处理。以浏览器渲染网页的过程为例,当用户打开某个网页时,浏览器将发起对目标网址所在服务器的请求 Request,服务器则应答请求,将网页以特定格式 Response 返回给浏览器,响应该请求后的浏览器会将网页Response 反馈给浏览器,最终,在通过浏览器解析 Response中的格式把内容显示到屏幕上。
网络爬虫流程分为下几步[3]:
(1)首先根据自身信息需要选择一部分种子URL。
(2)将以上种子URL放入URL队列中,等待抓取。
(3)从URL的带抓取队列中取出带抓取的URL,解析DNS,从而得到主机的ip,将对应的URL网页下载下来,存储进已下载网页库中。然后,把已经抓取过的URL放入已抓取队列中。
(4)分析URL已抓取队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列。
(5)以上工作完成之后,继续循环此流程。
4实例分析
4.1数据准备
百度贴吧的内容需要爬虫自动抓取,所以初始的URL要由人为定义,也就是根据用户输入的关键字来进行提取相关URL,并且对于抓取到的内容要进行过滤,获得自己需要的内容,本论文利用html技术做了Web前端版爬虫界面,增加了爬虫的完整性,根据用户输入的关键字,爬取相关的数据,并保存进入数据库。
本文借鉴相关问题的研究方法[4],根据所做爬虫进行数据采集,选取京津冀地区20 所高校,医药类大学 2所、理工类7 所、综合类5所、经管类1所、师范类 5所,并且其中985、211类院校6所、一本院校11所,二本院校3所。本论文在数据搜索方面,爬取20所高校的贴吧论坛的帖子共计10万的帖子,并将排名前50的帖子的帖子名称进行排序,把每个帖子中的内容爬取,进行数据分析,并对发帖类型和发帖数量进行数据统计。
4.2数据分析
SinglePass[5]算法属于聚类算法,有着简单的工作原理,所有的文本数据都会进行一次样本分析,并一一对比,如果某文本数据和样本数据匹配相似,便可归为样本数据的一类,如果某文本数据和样本数据不匹配,就将该文本数据单独划分为一类。
根据Single-pass算法,与文本相似度进行重复匹配。在进行数据重复率匹配之前,借用IKAnalyzer分词工具包对所有评论内容进行分词。
本文用分词后的文本数据与文章进行遍历,计算出数据与评论报道的相似度,如果若相似度大于已知的相似度阈值,将此文本数据视为该话题,如果相似度小于已知相似度阈值,则不将此文数据视为该话题,通过对所有文本数据的遍历,得到最终的文本话题集合。
根据表 2可以看出,20所大学前 50名的帖子主要集中在情感交流和信息分享,问题求助的帖子紧随其后。有关情绪发泄和评论意见的帖子在前 50名的帖子中占比很小,不到平均比例的10%。可见京津冀地区的20所高校,其中主要的贴吧帖子占情感以及信息分享额比例很大。大学生在百度贴吧中,通过发帖及互评,发现和自己有共同理想和目标的人,来进行交友和情感拓展,在其中还有一部分帖子是寻找伴侣的帖子。信息分享在其中的占比很大,通过百度贴吧,寻找考研、雅思等学习资料以及经验,可见各高校对于学习还是有很大的动力,考研、考雅已经成为一种社会趋势。
京津冀各高校分别隶属京、津、冀,有“双一流”“一本”“二本”高校,有理工类高校、综合类高校、偏重師范的高校,在大学生论坛中反映出来的网络舆情也不相同。
(1)情感交流贴中二本院校占的比例是所有高校中比例最高的,但从总体来看,除了极个别高校情感交流贴比例很小,和其他帖子相比还是偏高,情感交流帖子的数量明显较多。其中情感交流贴较少的几个高校,主要分布为理工科大学(女生少)、一本类师范大学(男生),各个高校的男女学生,相比几十年前的大学生,从思想上和生活方式上已经开放了很多,同学们通过百度贴吧,从中结交、认识兴趣爱好相同的人,男生也在此表达对女生的爱慕之情,现在已经成为一种常态化的事情。
(2)信息分享帖相比所有高校中在一本和211、985院校中的比重是最大的,其中北京交通大学高达52%,可以看出现在高校学生对于信息的分享中百度贴吧是一个重要的载体,百度贴吧成为大学生主要交流、互动、分享的平台,可以及时了解学校的公告动态,从信息分享的内容中可以看出,20所高校的信息分享帖,其中60%以上都是关于研究生考试、资料以及经验有关,从这一点也可以看出,现在考研是现在高校中的主流趋势。
5 总结
通过本次研究、分析,整理了京津冀地区20所高校的网络舆情,希望各高校可以根据舆情分析的结果,加强对学校的管理以及制度的改善,并且在舆情分析的过程中,让我对网络爬虫有了更好的理解,以及更大的好奇,也知道了网络爬虫的重要性。
此论文虽然完成高校网络舆情分析的功能,但是面对许多问题还有待解决,可以在以下几个方面进行适当的改进:
(1)可以将网络爬虫的加入更多的功能,将所有的功能细化,可以根据用户的需要,自行设置。
(2)可以加入其他大型的网络交流论坛,如知乎,豆瓣等,做成一个Web前端式整合版的网络爬虫。
(3)做成高校网络舆情分析的软件,将极大提高各个高校对于学生、学校的管理和改革。
参考文献:
[1] 韦玮.精通Python网络爬虫[M],北京:机械工业出版社,2017年4月 .
[2] 周中华,等.基于 Python新浪微博数据爬虫[J],计算机应用,34(2014) : 3131-3134.
[3] Ryan Mitchell.Python网络数据采集[M],北京:人民邮电出版社出版,2016.
[4] 阳晓艳,等.大连高校维稳工作与网络舆情现状分析——以微信、微博、百度贴吧平台为例[J].才智,2017.6.
[5] 张志林.基于云计算的网络舆情监控关键技术研究[D].内蒙古工业大学,2017.
【通联编辑:王力】