基于大数据的多媒体舆情分析方法研究

2019-09-16颜建弘

科技传播 2019年14期

颜建弘

摘要：网络舆情研究的要点之一是如何在大数据时代从互联网海量信息中及时发现舆情并进行全面的分析，以判别舆情的性质和发展趋势并对症下药地加以管控。但在目前复杂的互联网大数据环境下，网络舆情通常包裹在各种多媒体形式的外壳中。文章在分析大数据及多媒体网络舆情概念和特点的基础上，将大数据处理技术应用到多媒体网络舆情分析中来，研究基于大数据的多媒体网络舆情分析方法。

关键词：大数据技术;舆情分析;多媒体

中图分类号：TP3 文献标识码A 文章编号1674-6708（2019）239-0100-02

网络舆论就是在互联网上传播的公众对某一焦点所表现出的有一定影响力的、带倾向性的意见或言论。截至2018年12月，我国网民规模达8.29亿，普及率达59.6%，较2017年底提升3.8个百分点，全年新增网民5653万。其中手机网民规模达8.17亿，网民通过手机接入互联网的比例高达98.6%。在如今的大数据网络资源环境下，各种网络新业务和多媒体的发展普及为网民提供了更多样的信息发布载体，微信、QQ、微博、新闻客户端、直播平台、短视频平台、知识问答平台等使得网络舆情的表现方式发展得更为多元化。

1多媒体网络舆情特点和研究现状

多媒体网络舆情为社会公众和政府、传统媒体构成的主体将对舆情客体的观点和态度加工成多元外现的舆情本体，通过多媒体传播通道在大数据网络空问中进行互动的总和。多媒体舆情信息文件类型多样，传播快速而广泛，在大数据环境下具有规模性、多样性、变化快速性、价值等4个特征。多媒体舆情的复杂特性大大增加了以它为对象的舆情分析的难度和工作量，当前对于多媒体舆情信息的分析研究大部分仍集中在对低维度文本舆情的分析上，而对于以图片、音频、视频等多媒体形式为载体的高维度舆情信息的挖掘分析研究还比较少。针对目前多媒体舆情的复杂性，采用传统舆情的识别分析方式不易获得准确有效的信息，需要对舆情信息的多媒体外壳在已有舆情分析研究方法的基础上，结合大数据分析技术进行处理。

2多媒体网络舆情大数据分析方法

目前，使用大数据技术处理数据时最常使用Hadoop、MapReduce、Spark等分布式处理方式。而最常运用的大数据分析方法主要分为两种，第一种是基于人工经验建立分析模型，这种方法对人力、物力资源的消耗较高，对数据的体量有限制，不能高效率地处理巨大量的数据且无法迁移。第二种是基于人工智能的大数据分析方法，其中最重要的技术包含有机器学习、聚类、关联分析算法和卷积神经网络等，这些方法适合于大数据量的处理，且数据量越大精确度越高，但在提取分析动态多媒体数据特征方面能力有限。目前较为新型高效的大数据分析方法是基于无限深度神经网络（infinite deep neural networks，infinite DNN s）的大数据分析，这是一种全互连的回复式神经网络（recurrentneural networks，RNN s）神经元之问存在反馈连接，能够处理动态数据。深度神经网络的学习算法通过调节神经元之问的网络连接权值实现，其中比较经典实用的算法有基于反向传播算法扩展的训练前馈网络BPTT算法，误差从前向后传播的RTRL（real-timer ecurrent learning）算法，以及Gers等人提出的改进“长短时记忆”（long short-termmemory）LsTM算法。本文主要以这种大数据分析方法将高维度的多媒体载体信息转换为低维度的文本信息加以处理。具体分析处理方法如下：

2.1视频信息分析

当前流传在网络上的视频信息多为短视频形式，生产流程简单、制作门槛低、制作周期短、民众参与性强、传播度高。由于时长较短且背景音乐多为网红歌曲片段且与视频内容关联不大，对短视频舆情分析需侧重于对视频中的人物动作表情和文字信息的识别提取。对于视频中的人物动作，可使用基于行为模板的方式获取不同动作的特征从而设立各自的模板，实际使用时将捕捉到的动作与模板进行匹配，以达到对各种行为进行准确地识别的效果。通过镜头分割与分帧技术、关键帧提取技术等将视频节选为图像。也可以使用基于LSTM的网络模型处理复杂的视频序列，从传统的视觉特征或深度特征中学习动态时序信息，然后识别视频序列中的行为，并自动生成一个不定长的语句来正确地描述视频内容。

2.2音频信息分析简化

网络舆情分析中音频的有效信息可分为人类语音信息和环境音。为更好地分析有用的音频信息可使用Matlab的滤波器进行降噪预处理，之后利用拉普拉斯变换、快速傅里叶变换等工具能对音频信号进行时频分析;利用基于语音信号的梅尔频谱倒谱系数对人类语音信息进行特征提取;对于环境音可利用基于非平稳信号的经验模态分解法、局部均值分解、极点对称模态分解等声音特征提取方法达到特征提取的目的。在语音识别任务中，大数据技术在音频转换方面通常使用自动语音识别技术和相关算法，针对视音頻处理模块统一转码重采样后的音频流进行智能识别，将其中的语音内容转换为计算机可以识别的文本字符信息。而无限深度神经网络不仅能够记住上下文，有更高的识别精度，且抗噪性能更强，能更为准确高效地将语音传译为文字信息。

2.3图像信息分析简化

目前网络中的图像信息多以新闻和自媒体文章插图、电脑手机截屏图片、各类表情包等形式存在，内容多为人物、文字对话。图像信息的分析识别主要在于图像分割：通过对单个像素点或整个像素区域的分析提取出图像的局部特征。传统方法常基于聚类、小波变换、阈值、区域等进行图像分割，由于关键信息比较复杂多变，以至处理效率不高。基于多代表点近邻传播聚类的MSMEAP算法，可以有效实现大数据图像的快速分割。对于经过分割处理后的图像，无限深度神经网络的LSTM模型能学习将单张图像的像素强度映射成一个语法正确的自然语句，再结合人物动作、表情、文本、背景特点等信息将图像赋予文本性质的描述。

2.4文本信息分析

在网络文本舆情分析方面，文献提出了基于网络日志数据挖掘的隐性舆情分析、基于社会网络分析的舆情主体关系发现、关联不同领域数据进行舆情分析以及基于网络民意调查的4种面向大数据的舆情分析方法。文本分布式预处理可利用MapReduce框架将文本集的分词、停用词去除以及文本内的词频统计放置在Map阶段，将构造倒排索引文件的任务设置在Reduce阶段以最大化实现并行。此外，分析文本可使用jieba分词、THULAC工具包、NLPIR分词系统等技术进行分词预处理，提高分析的效率和准确率。在此基础上，对舆情分析关键词进行检索并通过结合上下文、挖掘词语之间的联系来较快定位推文所属的范畴、解读文本信息所包含的情感特征。从文本信息中识别出话题范畴、作者观点情感，用户情感态度等等。通过分词技术和词向量模型及其比较分析分析与谁相关、是否是舆情、是否是负面、是否具有敏感含义等。

3总结

目前的大数据环境为网络舆情分析管理提供了创新高效的大数据技术和算法，同时也使网络舆情分析面临着更复杂的挑战。在多媒体网络舆情分析研究方面以应用无限深度神经网络为主，其他大数据算法为辅的方式，将高维度的视频、图像、声音信息转化为低维度的文字信息进行处理，实现语义密集度由低到高的转变，从而实现多媒体网络舆情分析的目的。当前对于多媒体形式的舆情信息分析研究还主要集中在对于多媒体各个载体的单独分析上，新兴媒体平台层出不穷，大数据技术对以多媒体为整体的舆情信息挖掘分析的应用还有待于进一步研究。