网络舆情监测的数据采集与文本分类技术分析
2019-11-07杜锦绣蔡静
杜锦绣 蔡静
摘 要:在这个信息爆炸的网络时代,基于网络与社会舆论而诞生的网络舆情,成为社会、国家关注的研究重点之一,构建互联网时代的舆情监控体系成了当前信息化时代的迫切需求。文章从网络舆情分析与监管的意义入手,介绍了国内外关于网络舆情监测的研究,围绕舆情采集、数据预处理、文本分类技术大致介绍了网络舆情研究的关键技术与步骤。
关键词:网络舆情;网络爬虫;多标签文本分类
随着网络技术的飞速发展,互联网已经成为人们生活和工作中的一部分,尤其随着5G技术的崛起,可以预见,互联网对我国的政治与经济发展都将产生越来越深远的影响,网络舆情便是由互联网衍生的一项重要产物。网络舆情是针对社会热点、大众生活等问题,由新闻媒体或者个人在互联网上表达的言论、建议或情绪,是社会舆论在网络上的一种特殊表现形式[1],近年来,随着网络舆情重要性的提升而逐渐成为一项研究热点。
1 相關简介
1.1 背景与意义
第43次《中国互联网络发展状况统计报告》中指出,中国网民规模已高达8.29亿,普及率已达59.6%,超过全球平均水平。目前,中国的网络舆论处于非常活跃的状态,一方面,互联网的发展带来极大的便利,人们轻松获得大量信息;另一方面,也滋生了许多违法犯罪信息,这些信息容易引发一系列的社会问题。因此,相关部门必须加强对网络舆情的分析与监控,在必要时对网络舆情进行正面的引导,这对国家社会的治安管理和维护稳定具有重要的现实意义。
1.2 国内外研究现状
近年来,互联网技术与大数据、人工智能技术的迅速发展,带动了网络舆情监测分析系统的发展,网络空间不断扩大,网民数量不断增加,随着数据呈爆炸式的指数级增长,网络空间中每天将产生超5亿TB的数据量,随着大数据技术以及人工智能技术应用于网络舆情监测分析系统,舆情监测分析系统从人工阶段趋于智能化和自动化。国外关于这方面的研究开始较早,世界上最早的舆情分析软件是由Dave等设计和实现的Review seer[2]。另外,还有美国国防高级研究计划署话题检测与跟踪(Topic Detection and Tracking,TDT)项目以及Opinion Finder智能舆情监督系统等。在舆情监测分析系统方面,虽然国内的研究开始较晚,但是发展势头迅猛,早已日渐成熟。如泰一舆情监测系统、军犬舆情、中国舆情网(PALAS)等。
在文本分类技术方面,目前各语料库使用的单标签分类体系有多种,例如搜狗实验室采集的中文新闻语料库,将搜狐网站上的新闻手工整理后分类成IT、财经、健康和教育等10个类别;谭松波等人收集的中文文本分类语料库,将所有文本分类为12个大类别,60个小类别。但这样的单标签分类体系不能适应网络舆情的特点,也将人们感兴趣的信息点埋没于单一领域中。人群在媒体所传达的舆情伴随着情绪化且常常伴有多义性的特点,使得舆情分析较为复杂,但是传统舆情分析主要采用单标签分类或多类分类,使得舆情分析得出的结果只能涵盖一个领域或情绪,从而导致舆情分析的片面化,多标签分类则能够很好地解决这一问题。目前较为常用的经典文本分类方法有类中心向量法、回归模型、支持向量机、人工神经网络、决策树法和关联规则等。
2 舆情采集
对网络中信息的采集是进行舆情分析研究的基础和前提。通常使用元搜索技术、应用程序编程接口(Application Programming Interface,API)调用、网络爬虫技术实现对舆情信息的自动抽取。
2.1 数据选择
网络上的舆情数据,从数据类型看可以分为文本、图片、音频和视频等,由于音频、视频需要处理信息计算量较大,且相比文本和图片承载的数据量较少,而图片相较于文本所能表达的网络舆情信息较少,因此,将网络舆情数据的主要来源选择为文本信息最为合适。考虑到数据的客观性和网络用户的覆盖度,舆情采集应选择用户体量大的社交媒体作为舆情数据来源,会使得所得的结果更具有通用性。
为保证舆情数据具有代表性,采集舆情数据的目标网站需要具有日常活跃用户多、涵盖话题领域广泛等特点。一般而言,微博数据覆盖范围广、信息更新快、数据产量大,是研究网络舆情的优质信息源。近年来,随着社交软件数量大范围、大幅度地提升,也有学者对微信、知乎、贴吧、论坛等平台使用网络爬虫等相关技术来进行数据采集和舆情分析。
2.2 网络爬虫
大数据技术的发展,使人们处在一个信息爆炸的时代,如果通过人工处理数据信息,必将跟不上信息的更迭速度,只有借助软件、程序、代码等自动搜索才可以大幅提高对网络数据信息的获取与处理效率,网络爬虫技术由此诞生。它可以对网络信息进行纵、横双向的数据与信息抓取,处理之后保存在数据库中。
网络爬虫最早诞生于1993年,是舆情信息采集的重要方法,也是数据获取和分析最常用的方法。它的工作流程大致如下:选取初始页面的统一资源定位符(Uniform Resource Locator,URL),将之放入待爬取队列,通过解析获得的IP地址就可以实现自动爬取网页的信息并进行保存,将爬取过的URL放入已爬取队列,从已爬取URL中获得新的链接,对新链接再进行解析处理,循环以上步骤直到爬取数据的数量达到规定的条件则停止。
3 数据预处理
在文本分类之前,需要对获取的原始文本进行数据预处理,这是因为网络信息冗余复杂,原始文本中包含许多干扰信息和无效信息,会阻碍进一步的舆情分析。通常情况下,对原始文本进行信息去噪处理、分词分句、信息内容提取、移除停用词等操作,这些操作繁琐复杂,却又是不可或缺的步骤,其中,最重要的两个操作是网页信息提取和中文分词。
3.1 网页信息提取
对于获取的网页信息,往往只需要正文内容,比如对购物网站进行分析时,只需要保留物品的信息,即结构化的信息。比较常用的两种抽取方式分别是模板和网页库结构信息抽取。前者较为简单,许多网页的格式模板是不变的,只有内容改变和更新,所以按照事先设定模板,抽取模板中的信息即可。后者不依赖于网页,采用网页结构分析技术,可自动抽取结构化数据。
3.2 中文分词
中文分词技术是将中文句子切分为一个一个单词,即把整个文本划分为一个一个具有实际语义的最小单元。在英文中,单词与单词之间有空格划分,但是中文的词与词之间没有间隔,所以要根据语义进行切分,难度较之英文提高很多。对于中文分词,我国学者已研究出较为成熟的系统,如中科院研发的汉语词法分词系统ICTCLAS,清华大学研发的SEG中文分词系统与SEGTAG中文分词系统。
4 文本分類技术
4.1 文本分类算法
面对如此庞大的网络信息,如果只使用人力来筛选和辨别信息是相当困难的,因此,文本分类技术应运而生。文本分类技术可以根据当前文本的某些特征,将其划分到预先定义好的类别中,从而帮助人们缩小查找的范围,过滤冗余和无效的信息,提高查询与检索信息的效率。文本分类方法的引入能够有效提高对网络舆情的判别速度,从而在网络舆情事件发生之前,及时预测并处理。常用的文本分类算法有K近邻分类算法、朴素贝叶斯分类算法和逻辑回归算法。
4.2 多标签文本分类
文本分类是将文本进行标注后的训练样本进行有监督学习的过程,可分为单标签文本分类和多标签文本分类两种[3]。
单标签文本分类中,类别与类别之间不存在交叉重叠的现象,一个文本只可以有一个标签。然而在实际生活中,事物可能带有多义性,有的文本可以同时属于多个类别,例如,一个与农民土地补贴有关的新闻文本可以同时属于“民生”“改革”等多个类别,这些类别相互不独立,存在交叉重叠现象,文本与标签都不是一对一的关系,这种文本分类就叫作多标签文本分类。尤其是在网络舆情监测方面,如果能够将文本分到多个可能的类别中,就可以更好地监测网络舆论可能的发展趋势以及网络舆论的关注面。
常见的多标签文本分类有两种,一种是将问题转化成单标签分类问题,另一种是将单标签分类算法改造以适应多标签分类,比如ML-KNN算法就是将传统的K近邻算法扩展为一种懒惰学习的多标签K近邻算法。在实际应用中,相比于单标签文本分类,多标签文本分类通常更能全面、准确地反映文本的特性。
5 结语
本文从网络舆情监测的意义和背景出发,详细介绍了国内外关于网络舆情监测系统和分类技术的研究,又从舆情采集、数据预处理和文本分类技术3点,概述了网络舆情分析的部分内容,除此之外,网络舆情监测还包括文本表示技术、舆情分析、舆情预警、统计分析、机器学习等多方面知识。可以预见,网络舆情的影响力将随着科技的发展承担越来越重要的责任。
[参考文献]
[1]姜春起.网络舆情监测系统应用问题研究[D].长春:吉林大学,2017.
[2]张旺.互联网舆情信息监测管理系统的设计与实现[D].长沙:湖南大学,2018.
[3]伏浩铭.一种改进的ML-KNN多标记分类方法研究[D].成都:电子科技大学,2017.
Abstract:In the era of information explosion, the network public opinion based on the network and social public opinion has become one of the research priorities of the society and the state, and the construction of a new concept of public opinion monitoring, research and judgment management in the Internet era has become an urgent need in the current information age. Starting with the significance of the analysis and supervision of network public opinion, this paper introduces the research on the monitoring of network public opinion at home and abroad, and generally introduces the key technologies and steps of the research on network public opinion around the technologies of public opinion collection, data preprocessing and text classification.
Key words:network public opinion; network crawler; multi-label text categorization