APP下载

微信订阅号文本采集及预处理关键技术研究

2019-09-10唐琳

赤峰学院学报·自然科学版 2019年11期
关键词:数据采集网络舆情

唐琳

摘 要:微信作为大众日常生活、工作的必备通信工具,已经随着互联网及移动终端的发展而被我国人民普遍使用,可以说,从小学生到古稀老人都在使用微信,而微信的一个公众平台--订阅号,又能发布各种各样的图文内容,这些文章,有的和新闻一样,属于客观性叙述,有的是带有作者强烈的主观引导,因此对微信订阅号中的文章进行分析和监测是目前网络安全的重中之重.这一工作又归属于网络舆情监测范畴,因此,本文在简要总结网络舆情分析相关理论及技术的基础上,对文本倾向性分析的前期工作所需的关键技术进行了初步研究,主要体现在数据采集和文本预处理领域,针对数据采集过程所采用的工具和方法进行论述,针对文本预处理流程进行了系统的总结和归纳.

关键词:网络舆情;数据采集;文本预处理;倾向性分析

中图分类号:G640  文献标识码:A  文章编号:1673-260X(2019)11-0054-03

21世纪,随着信息技术的不断更迭,数字技术正向人类生产生活的各个领域全面推进,人类正逐步由网络时代步入数字化时代(哲思时代)[1],人类社会也正从信息社会悄然向后信息社会不断演变.在这一时代背景下,各类互联网通信服务平台呈现出泛社交化态势,其中的典型代表——微信,已成为中国人民日常生活工作中不可缺少的一部分.微信(WeChat)[2]是腾讯公司于2011年1月21日推出的一款为智能终端提供即时通信服务的免费应用程序[2],由张小龙所带领的腾讯广州研发中心产品团队打造[3].2019年1月9日,微信官方公众号微信派发布了2018微信数据报告,据报告显示,2018年,微信月活用户达到了10.82亿.平均每天有450亿次的信息发送出去,4.1亿次音视频呼叫成功.通讯录朋友人均比三年前多了110%.用过微信的朋友们都知道,微信提供公众平台、朋友圈、消息推送等功能,用户可以通过“摇一摇”“搜索号码”“附近的人”、扫二维码方式添加好友和关注公众平台,同时微信将内容分享给好友以及将用户看到的精彩内容分享到微信朋友圈.在如此庞大用户基数的情况下,网民对某些社会问题通过微信表达自己的观点、情绪、态度,就成为舆情和社会安全的重要关口.

微信公众平台中的订阅号(又称公众号),是腾讯为媒体和个人提供的一种新的信息传播方式,主要功能是给用户传达资讯,功能类似报纸杂志,提供新闻信息或娱乐趣事,适用于个人、媒体、企业、政府或其他组织.用户只要创立了订阅号,1天内就可以群发1条消息,鉴于互联网的普及之广、传播之快使得这些消息中的情感倾向有着重大的社会影响,因此,针对如此庞大的数据量进行监测分析是目前的研究热点,本文正是基于此开展了系列研究后形成的成果.

1 网络舆情分析相关理论及技术

网络舆情是网民通过互联网平台,针对社会问题所发表观点的聚集和汇总,这些观点往往并不统一,网民们主要针对现实生活中的热点、焦点问题进行讨论,最终形成一些具有较强影响力、倾向性的言论和观点.网络舆情的主要特点是以互联网为媒介、以事件为核心,是广大网民情感、意见的表达互动和传播,并由此形成了社会舆论,并带有较强影响力.既然舆情具有影响力和倾向性,那就需要相关部门去监测和分析,避免出现影响社会安全的事情和问题发生.

网络舆情监测分析在计算机科学领域里涉及的理论和技术主要为信息采集、文本倾向性分析、数据挖掘等,网络舆情监测分析中的信息采集技术主要依靠爬虫手段来实现,但是目前很多社交通信平台都设有很强大的反爬虫手段,所以数据采集阶段的工作并不容易,因此很多科研机构和企业研发人员将主要精力都投入在了信息采集技术革新上;文本倾向性分析缘起于文章内容的情感倾向,文章作者往往带有一定的观点立场、喜好偏见,因此对文章的情感、立场、观点倾向进行分析,也是网络舆情分析的重要技术组成之一,这一技术领域涉及了多项算法的设计和实现;文本数据挖掘则是从采集到的信息、文本、数据中,找到有价值的消息和知识,主要技术手段为关联规则、文本聚类、分类等算法,这也是时下计算机领域的一个主流研究热门方向,针对关联规则、文本聚类、分类等算法的研究成果也是浩瀚如海,这些算法也都觉有各自的特点和代表,在具体实现上还需要依靠大家的火眼金睛去偽存真,才能让真正有意义的数据被有效“挖掘”.

网络舆情监测其实并不是一个前沿话题,自互联网诞生之后,网络舆情这一问题就随之产生,对其分析系统的研究已经非常成熟,形成了目前主流的网络舆情监测分析系统框架,见图1所示.

具体来说,主流网络舆情监测分析系统框架主要包括三层,数据采集层、分析处理层、结果展示层.笔者认为这一主流框架并不全面,有很多改进之处,因此笔者在主流框架的基础上做了进一步的扩充和完善,见图2所示.

2 数据采集技术

微信公众平台的文章主要集中在朋友圈和订阅号中,本文主要选取订阅号为主要数据来源,因腾讯与搜狗合作的关系,微信订阅号中的数据可以从搜狗网站上采集,但搜狗网站上有众多反爬限制,为数据采集带来更大的难度,因此,我们主要研究智能移动终端的微信平台数据采集方案.

2.1 传统网页爬虫技术

所谓网络爬虫,是一种使用计算机语言编写的按照特定规则和步骤,从指定网页上下载有价值的信息的脚本程序.爬虫爬取数据的基本思路是,获得初始网页URL,浏览网页过程中不断生成URL队列,在特定条件下持续访问网页,直到满足一定条件,停止爬取.网络爬虫的主要功能由控制器、解析器、网页库三个部件完成,分别负责多线程任务分配、页面脚本代码处理、存储网页资源等任务,传统网页爬虫系统结构见3所示.

2.2 移动端微信采集技术

采用Hook技术实现微信程序与腾讯服务器交互时的数据获取及过程监控,Hook技术又叫作钩子函数,其作用是在系统调用函数前,先截获消息,即在消息到达终点前就被截获并监控事件的传输.简单来说,Hook就是“钩住”系统的程序后,将自己的代码融入进去,成为一个新的进程.比如Android系统使用了沙箱机制,普通用户的进程空间互相独立,但Hook技术可以通过一个程序改变这些用户彼此间的进程,修改他们的代码,替换符号地址,从而实现数据采集.

Hook技术实现的步骤分为两步,首先是查找Hook点,可以通过Java层实现,其次将Hook函数放到系统之外执行,也就是在系统的程序中加入我们自己的逻辑,具体工作流程见图4所示.

2.3 Android数据采集技术

对于微信订阅号中的大规模数据(文本)的采集来说,我们可以借鉴和使用Android自动化测试技术及其测试工具,Android自动化测试技术又称为UI自动化测试,其中UI是User Interface的缩写,这一测试技术可以通过工具模拟人对手机的单击、滑动、输入等操作,从而使手工操作改为系统自动操作,已完成自动化测试的目标.对于数据采集而言,使用现有的Android自动化测试工具,最终实现自动化数据采集,无疑是个行之有效并节省人力的神器.目前,主流的自动化测试工具有MonkeyRunner、Rubotium、UIautoMator等,前两个优点很多,比如MonkeyRunner操作简单、Rubotium功能强大,但是二者一个功能受限、移植性差,另一个操作复杂,因此我们还是建议选择功能强大、操作简单的UIautoMator工具,来实现终端的自动化数据采集功能.

3 文本预处理技术

对于前面我们采集到的文本而言,需要进行必要的文本预处理,这里使用的技术主要包括了规范编码格式、切分技术、过滤技术、分词技术、去停用词技术等.

文本预处理流程如图5所示,具体步骤如下.

(1)将爬取的信息进行统一规范编码,一般常采用utf-8编码格式;

(2)对文档进行切分,切分的前提是所有文档都存储在一个文件内,经过切分,可以将每一篇文章独立的提取出来,存放到不同的文件中;

(3)过滤掉诸如HTML、JS、CSS等前端代码,以及图像等与文章内容无关的标记、链接等信息;

(4)将文章的单词和詞语切分提取出来,作为文本的特征值表示,以提取出来的词语作为倾向性分析的主要关键词,这里主要需要区别英文和中文的文章,因为英文和中文的构成结构和语法都不一样,因此提取关键词的方法也不同,对于英文来说相对较为容易一些,可以通过空格符来切分单词,而对中文来说,复杂度相对高了很多,需要将连续的汉字按照新的规则进行划分,这个过程,我们称为中文分词.我们直接采用了Python扩展库Jieba来进行关键词的提取和切分;

(5)去停用词,停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为Stop Words(停用词).这些停用词都是人工输入、非自动化生成的,生成后的停用词会形成一个停用词表.但是,并没有一个明确的停用词表能够适用于所有的工具.甚至有一些工具是明确地避免使用停用词来支持短语搜索的.[4]我们将采用哈尔滨工业大学停用词表和百度停用词表两个库来比对处理结果.[5]

限于篇幅,本文仅对网络舆情分析的相关理论及技术进行了简要的总结和叙述,对文本倾向性分析的前期工作所开展的研究进行了整理和论述,主要体现在数据采集和文本预处理领域,针对数据采集过程所采用的工具和方法进行论述,针对文本预处理流程进行了系统的总结和归纳,后期我们将对文本倾向性分析的关键技术进行进一步的研究和总结.

参考文献:

〔1〕(美)Negroponte著.胡泳译.数字化生存[M].海南出版社,1997.

〔2〕“微信”网络时代的变革者.中国存储.2016-08-03[引用日期2016-08-03].

〔3〕微信怎样诞生:张小龙给马化腾的一封邮件.网易[引用日期2016-12-03].

〔4〕停用词.百度百科.[引用日期2019-10-17].

〔5〕https://github.com/fighting41love/funNLP/tree/master/data/停用词.[引用日期2019-10-17].

猜你喜欢

数据采集网络舆情
数据挖掘技术在网络舆情管理中的研究
“互联网+”背景下高校平安校园建设研究
CS5463在植栽用电子镇流器老化监控系统中的应用
大数据时代高校数据管理的思考
基于广播模式的数据实时采集与处理系统
通用Web表单数据采集系统的设计与实现
浅析网络舆情治理
基于开源系统的综合业务数据采集系统的开发研究
基于社会稳定视角的网络舆情预警机制构建的思考
突发事件网络舆情的演化规律与监控