APP下载

基于数据融合的互联网舆情分析系统*

2017-07-20杜晓黎钱岭张海文杨希

电信工程技术与标准化 2017年7期
关键词:词典舆情情感

杜晓黎,钱岭,张海文,杨希

(中移(苏州)软件技术有限公司/中国移动苏州研发中心,苏州 215163)

基于数据融合的互联网舆情分析系统*

杜晓黎,钱岭,张海文,杨希

(中移(苏州)软件技术有限公司/中国移动苏州研发中心,苏州 215163)

本文提出了一种基于数据融合的互联网舆情分析系统。系统使用网络爬虫采集互联网新闻、微信公众号、博客、论坛、APP、微博、报纸、视频等信息,结合中国移动自有DPI数据,采用情感分析等多种自然语言处理算法实现数据融合分析处理,建立不同类型数据之间的关联关系,挖掘更多数据价值,且系统使用多租户模式实现底层数据共享和用户舆情信息隔离,大量节省硬件存储成本,也让用户体验个性化舆情。

互联网采集;数据融合;舆情;多租户;自然语言

1 引言

工业3.0是信息化的时代,信息的快速传播和发展推进了互联网的广泛应用,也让大数据成为这一时代的最热主题之一,互联网以及大数据给人们生活带来前所未有的体验,人们在享受互联网带来的便捷生活时,也面临着海量激增的信息,为了实施有效数据治理,实时监测舆论倾向,引导正确舆论走向,大量舆情系统涌现。

本文提出了一种基于数据融合的互联网舆情分析系统,系统实现了互联网新闻、微信公众号信息、博客、论坛、APP、微博以及中国移动脱敏DPI(Deep Packet Inspection)等数据的融合,利用自然语言处理算法,挖掘出融合数据更多价值,且提出了一种多租户架构实现数据共享和用户信息隔离,大量节省硬件存储成本,且让用户体验个性化舆情。

2 总体功能和架构设计

2.1 系统架构

基于数据融合的互联网舆情分析系统,是苏研自研基于大数据平台的“移智”系列产品。系统基于大数据平台采集互联网新闻、论坛、微博等信息,也可融合移动DPI数据等第三方应用数据,因此系统具有数据采集层;将采集到的数据放入消息通道,系统实时监测消息通道是否有最新未处理数据,如果有则进行情感分析、垃圾信息过滤、专题匹配、预警推送等数据处理,同时将信息建立索引,因此系统应该具备业务逻辑层;系统将处理后数据存入数据库,并进行日志记录、配置文件管理,因此需要具备数据存储层;系统需要实现舆情预警、舆情报告、舆情分析、用户画像等功能,因此系统应该具备应用展示层。由于系统面向互联网用户,需要进行统一用户管理、角色权限管理、套餐管理、多租户管理等功能,因此系统需要具备运营管理平台。根据以上的需求,本文提出了如图1所示的系统架构图。

从图1可以看出,本文设计的系统架构分为:数据采集层、数据存储层、业务逻辑层、应用展示层、运营管理。数据采集层负责互联网数据的采集,通过使用爬虫调度机制实时调度通用网络爬虫、定制化网络爬虫、元搜索技术实现互联网数据的实时爬取,将爬取后的数据放入消息通道(Kafka)中;业务逻辑层主要进行数据处理、信息检索,数据处理使用Spark技术,将热点分析、情感分析、舆情预警、垃圾信息过滤等算法以及专题匹配、数据统计、数据存取等处理逻辑模块独立运行在Spark中,实时从消息通道读取数据进行处理,将处理后数据存入数据库;信息检索使用solr作为底层技术,实现索引建立、关键字搜索和信息筛选等功能;数据存储层负责数据的存储,使用hbase存储原数据、日志数据、统计数据等,mysql存储用户信息、关系逻辑数据,使用redis实现缓存、去重等内存存储,以及日志信息、配置信息的存储;应用展示层主要实现系统功能可视化,包括舆情预警、舆情推送、舆情上报以及分析、溯源、用户画像等;运营管理主要负责对用户的角色权限、应用套餐、使用日志、用户信息进行管理,实现多租户管理,不同用户可共享底层数据,从而节省硬件存储和运维,用户舆情数据隔离,从而实现用户舆情个性化展示。这样的系统结构,使得系统层次清晰,模块独立,易于扩展与维护。

2.2 系统功能

本文使用基于互联网大数据的爬虫进行数据采集,将采集到的数据进行清洗、过滤以及数据处理后存入数据库;用户通过账号密码登陆系统后,可以根据自己关注的舆情类型进行专题设置,每个专题中需要设置关注舆情的关键词、不希望看到的信息的排除词、信息来源类型、以及关注舆情的区域网址等,系统根据用户设置的舆情专题将采集到的互联网信息进行匹配与过滤,将符合用户需求的信息放入用户设置的舆情专题中,如果有些信息对用户可能产生不好的负面影响,将及时进行舆情预警;另外系统可以进行舆情上报、舆情推送、实时热点分析、舆情传播分析、自动舆情报告以及可结合DPI数据得出用户画像等功能。

图1 系统架构图

根据上述设计思想,本文设计了如图2所示的功能模块图。

舆情预警:根据用户设置的舆情专题,如果发现对用户可能产生较严重负面影响的信息,及时通过Web平台、短信、邮件进行实时预警,用户可自定义预警级别(即信息对用户的负面影响是轻微、较重、严重)和预警方式(Web平台、短信、邮件)。预警分为智能预警和关键词预警。智能预警用户只需要设置专题,系统会自动根据用户设置的专题实现预警;关键词预警需要用户设置的专题中设置预警关键词,只要该专题中的信息包含设置的预警关键词,将实时自动预警。

舆情上报:系统实现了用户分级别,下级用户可以在系统中将紧急信息实时上报上级。

舆情推送:上级用户可以在系统中通过V网通和短信方式将重要信息下发给特定的下级用户。

实时热点:根据用户设置的专题,实时进行热点信息分析、热词分析、热门网站分析。

专题分析:分析每个舆情专题发展趋势、信息情感分布、来源分布。

舆情传播分析:分析每篇信息在互联网上传播溯源、传播热力图以及在每个区域上的浏览量分析。

用户画像:结合DPI信息,实现舆情专题在每个区域中的用户性别分布、年龄结构、区域分布等用户画像。

舆情报告:系统可自动生成舆情分析报告,报告分为日报、周报、月报,包括每个专题重点舆情信息、舆情信源统计、情感分布、每日信息发展趋势、主要媒体分布、区域分布、热词、热门信息、预警新闻、预警微博等信息。

3 关键技术及核心处理算法

3.1 数据融合

数据融合是本系统的亮点,也是中国移动脱敏DPI数据的重要应用。n维的信息产生n量级的价值,然而n维的信息融合则可以产生n2量级的价值。

用户在系统中设置关注舆情的关键词等信息,系统利用大数据平台进行互联网新闻、微博、论坛、博客、APP、微信公众号、报纸、视频等数据的采集,将采集后的信息与用户舆情专题进行匹配,匹配得到的数据以及中国移动脱敏DPI数据进行融合分析和统计,挖掘更深的信息价值。用户画像即互联网数据与中国移动脱敏DPI数据紧密融合的最佳应用,可以帮助用户更深入的了解所关注舆情中的事件传播模型、区域分布、人员分布等情况。

用户画像是互联网舆情信息结合中国移动脱敏DPI数据分析所得。用户画像描绘了在每个舆情专题中的信息在网络上的传播模型、对专题信息感兴趣的用户的性别分布和占比、用户年龄结构以及专题在每个区域中用户数量。

用户画像算法与用户设置业务紧密相关,首先用户需要设置专题,建立专题关键词、专题匹配和过滤规则,根据用户设置好的专题进行信息的匹配。

传播模型和热力图:结合中国移动脱敏DPI信息,查看专题中每篇信息的浏览等操作日志,从而分析出每篇信息在互联网上的传播模型以及互联网中的阅读浏览热度。

3.2 多租户管理

多租户管理主要实现数据共享和用户信息隔离。舆情应用虽然越来越个性化,但是每个用户的底层数据来源、数据类型以及数据详情基本相同,不同的是上层应用展示,而底层数据往往数量巨大,每个用户都存储独立的数据需要大量的硬件存储资源以及系统维护,因此本文在数据存储中实现了数据共享,将所有的互联网信息、中国移动脱敏DPI信息使用共同的存储系统。

图2 系统功能模块图

系统使用共享数据库和共享数据架构的模式实现多租户管理。不同的租户可拥有独立的个性化的舆情应用,用户信息隔离,互不影响。且系统实现了根据每个用户实际的信息量计算资源使用量,大大减少了用户成本。

3.3 核心处理算法:情感分析

舆情预警是基于互联网大数据的舆情分析系统最核心的功能,信息的情感分析判别是舆情预警的最重要组成部分。有效的对信息的情感倾向进行分析判别,能够更好的向用户预警信息情报。

文本情感分析也即文本情感倾向衡量,情感倾向衡量包括:情感倾向方向和情感倾向度。无论哪种情感分析方法,其基本原理都是先进行文本切割转换,然后情感定位,再聚合。

常见的情感分析分为两种:基于词典的情感分析方法和机器学习情感分析方法。

基于词典的情感分析方法过渡依赖词典,而中文词典并没有类似于英文SentiWordNet完善而开源的情感词典,且中文具有可以单字、多字成词的特殊性,导致建立完善的中文情感词典的难度非常大。所以单纯基于中文情感词典的情感分析算法效果都不是很理想。

使用机器学习方法进行情感分析,无论是全监督还是半监督方法都需要人工标注的语料作为训练模型,人工标注的效果因人而异,无法统一判断,且如果语料覆盖面不全(一般而言,对于层出不穷的新闻来说,无法做到覆盖面全)模型将无法适用于新的信息情感分析;机器学习的方法也存在可扩展性差、适应新词能力较差的特点,因此需要频繁的对模型进行训练与更新。

由于以上问题,本文提出了一种融合词典和机器学习的中文信息情感分析算法,算法由预处理模块、词典与统计计算模块、机器学习分类模块、特征融合模块构成,图3为情感分析算法总体流程图。

3.3.1 新闻预处理:情感词典的扩展

词典算法依赖于情感词典,而互联网新词每天都有更新,因此现有情感词典并不是很有效且准确性不高,需要对词典进行扩展。情感词典通常包括:基础情感词典、拓展情感词典、领域情感词典。基础情感词典通常使用知网情感词典和台湾大学简体中文情感极性词典;拓展情感词典其实就是把基础情感词典通过同义词词典找到情感词的同义词,可以使用哈工大的同义词词林;领域词典即某个领域特有的感情词,该部分即为情感词典扩展的重点。词典扩展通常有两种方法:一,互信息方法,所谓互信息是指,如果在文本中词A与正向情感词共现的频率比与负向情感词共现的频率大,则认为词A为正向情感词。二,通过计算相似度,即如果词A与正向情感词的相似度大于与负向情感词的相似度,则认为词A为正向情感词。相似度算法更倾向于字面的相似性,而互信息方法更重于统计和语义理解,因此本文使用互信息的方法来对情感词典进行扩展。

3.3.2 预测时预处理:文本切分处理

预处理模块将新闻文本进行预处理,为词典模块以及机器学习模块提供有效的输入数据。

词典算法预处理:通过标点符号对新闻语料进行切分,分别对每一句话进行解析形成规范语料:通过检查文本中的换行符,中文标点符号(比如句号,感叹号等)进行分句。对每一个分句进行中文分词,标注词性。

机器学习算法预处理:对已有规范语料剔除一些垃圾词(也即对情感分析没有作用的词语,以减少机器学习算法的特征维度):在词典算法预处理的基础上,根据词性筛选掉一些地名,人名以及一些没有情感属性的名词、副词。

3.3.3 总体流程

如图3所示,算法按以下流程处理:

(1)对新闻进行预处理,获得分句sentence。

(2)对每一个分句进行分词,获得单词及其词性。

(3)利用词典算法对分句后的单词进行处理获得词典特征D1。

(4)利用统计方法对已有分词结果进行统计获得统计特征S1、S2、S3。

(5)利用LR算法分词结果转换成的词向量进行预测获得 LR1﹑LR2、LR3。

(6)利用SVM算法对分词结果转换成的词向量进行预测获得SVM1、SVM2、SVM3。

(7)利用以上算法得到的所有特征作为输入,利用RF算法对情感值进行预测,获得新闻在正中负3个情感上的概率,得到最终情感分析结果。

3.3.4 测试结果

算法准确率:本算法已经实际应用于舆情系统中,采用开放的数据和方法进行测试,准确率已经达到80%以上,并且成功申请专利。

图3 情感分析算法总体流程图

4 结束语

基于数据融合的互联网舆情分析系统是本公司基于大数据平台自研的“移智”系列产品,实现了对互联网舆情信息进行收集、追踪、监控、溯源和预警的功能。平台利用实时数据采集和精准的自然语言处理技术,帮助各级政府以及大型企业对网络舆情信息及时监控预警,实现对影响面大、可能导致事件升级的网络舆情信息第一时间获知、第一时间上报、第一时间处理。为政府、企业、或者新闻媒体等机构提供舆情的实时监测、多维度图表分析展示、实时预警、报告生成等功能。

[1] 李光敏, 张行文, 张磊, 等. 面向网络舆情的评论文本情感分析研究[J]. 情报杂志, 2014.

[2] 陆文星, 王燕飞. 中文文本情感分析研究综述[J]. 计算机应用研究, 2012.

[3] 叶强, 张紫琼, 罗振雄. 面向互联网评论情感分析额中文主观性自动判别方法研究[J]. 信息系统学报, 2007.

An internet public sentiment analysis system based on data fusion

DU Xiao-li, QIAN Ling, ZHANG Hai-wen, YANG Xi
(China Mobile (Suzhou) Software Technology Co., Ltd./China Mobile Suzhou R & D Center, Suzhou 215163, China)

This paper proposes an Internet public sentiment analysis system based on data fusion. The news, WeChat public information, blog, forum, APP, micro-blog, newspapers, video which collected from the Internet by web crawler and DPI which from the China Mobile had been used to achieve data fusion and data analysis by using multiple Natural Language Processing algorithms such as the sentiment analysis algorithm. Multi-tenant had been used to achieve the data sharing and information isolation, which can improve resource utilization and allow user to experience personalized public opinion.

internet Web crawler; data fusion; public sentiment; multi-tenant; natural language processing

TN929.5

A

1008-5599(2017)07-0026-05

2017-06-21

* 中国移动集团级一类科技创新成果,原成果名称为《互联网舆情分析系统》。

猜你喜欢

词典舆情情感
如何在情感中自我成长,保持独立
米兰·昆德拉的A-Z词典(节选)
米沃什词典
情感
诗歌与情感的断想
如何在情感中自我成长,保持独立
舆情
舆情
舆情
漫画词典