基于YouTube数据的美国主流媒体涉华报道研究
2023-12-22沙吉亮
沙吉亮
大连外国语大学 大 连 116041 中 国
一、引言
当今世界正经历“百年未有之大变局”,中国的经济实力、政治实力不断上升。以往以西方世界为主导的全球治理格局式微,全球技术权力格局和信息传播秩序都正在产生结构性的变化。而以美国为首的部分西方国家,凭借处于全球传播秩序高点的优势,对中国的崛起进行一定的打压,宣扬“中国威胁论”“中国傲慢论”等论调,一些西方媒体更是成为政治统治的工具,成为迎合某些政治集团的工具,发表一系列不符的丑化中国的报道,美国前总统特朗普曾多次指责CNN发布新闻为“fake news”(虚假新闻)。普通国外观众由于缺少对中国的现实认知条件,往往易受到不实信息的影响,进而影响他们对中国的认识。
新闻媒体已经成为新闻报道的媒介化传播是输出意识形态的有力载体(曾润喜杨喜喜,2017:99)和塑造形象的重要手段(赵永刚,2017;钱毓芳 董颖颖,2020)。YouTube视频网站作为全球最大的网络视频分享网站,每天的访问量超过10亿人次(腾讯科技网,2009),美国的主流媒体也陆续在YouTube平台开通了媒体频道。而以往针对Youtube数据的研究,多是从“走出去”的角度出发,如李勇等(2021)采用双路径模型和媒介传播效果框架学来分析李子柒爆火的深层原因,英颖和孟群(2022)对中国网红在YouTube的跨文化传播的讨论。鲜有分析YouTube频道上国外媒体的涉华态度。本研究旨在Python进行数据挖掘和文本分析,对美国多家媒体发表的涉华报道视频数据进行爬取分析,识别文本情感倾向,并对报道标题数据、报道与评论情感占比、词频统计进行可视化分析,力求结果更加清晰、简洁、可信。
二、研究设计
1. 研究问题:
本研究将回答以下三个方面的问题:
(1)YouTube美媒对华关注度如何?研究中的各家媒体对中国的相关报道持什么态度?
(2)这些视频的受众群体对这些媒体的涉华报道持何种态度?
(3)美国媒体的涉华报道集中在哪些领域?这些媒体在YouTube上构建了一个怎样的中国形象?
2. 理论框架
随着全球化趋势的发展,形象建构不再是某个单一因素作用的产物,而是具有复杂性、多重性和历时演变性(刘鼎甲,2021)。本研究主要依托批评话语分析理论,批评话语分析理论关注话语与意识形态、社会以及话语与控制和权力之间的辩证关系。“是一种致力于语言、权力和意识形态之间关系的研究框架”(邵斌 回之明,2014:28),在于“揭露意识形态对话语的影响,话语对意识形态的反作用,以及两者是如何源于社会结构和权势关系,又是如何为之服务的”(丁建新 廖益清, 2001:305)。Fairclough(1989)将社会学与文化和系统功能语法结合,作为分析的基础;Wodak(2001)采用话语历史分析方法分析话语。新闻媒体因其具有主导舆论,操纵人们的意识形态的特征而备受关注(胡开宝 张晨夏,2019)。
3. 研究方法与步骤
(1)文本收集
本文通过python编程技术调用selenium工具,selenium是一个Web的自动化测试工具,可以直接调用浏览器,接收指令,让浏览器自动加载页面,获取需要的数据。笔者对YouTube网站中订阅数最多的美国五大主流媒体——CNN NEWS、ABC NEWS、Fox NEWS、NBC NEWS、CBS NEWS频道最近发布的5000条(截至2022年5月8日,五家媒体共计25000条)视频信息内容进行爬取,获取报道内容、视频链接、观众评论等数据。将报道视频标题中含有“China”或”Chinese”关键字的报道标记为涉华报道。
(2)情感分析
文本情感分析即对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。如今,随着计算机技术的发展,借助计算机技术手段实现对特定文本的情感倾向进行分析已经成为主流。目前的情感分析方法主要包括基于情感词典的情感分析方法、基于机器学习的情感分析方法和基于深度学习的情感分析方法。
多数的基于情感词典的情感分析方法,其一般原理是由人工先验知识,对单个的词条进行赋值,构建一个标准化的情感词典。当进行情感分析时,文本首先进行分词处理,每个词条标记为词典的情感值,通过特定的公式对这些情感值进行计算,最后得出结果。基于不同的研究需要,既可对情感倾向的划分值进行修订,也可以划分为更多种类的情感倾向,如NRC词典划分为生气、恐惧、希望、信任、惊奇、悲伤、高兴和反感八种情感(Nielsen,2011)。常见的情感词典有AFINN、NRC、Bing等。
基于机器学习的情感分析方法本质上是一个有监督的分类问题。这种方法需要将训练语料进行人工标记(如在二分类情感中我们应将语料标记为积极和消极两个类型),语料也需分为训练集和测试集两部分,接着采取特征提取方法并对特征降维处理,基于特定算法的分类器形成模型,最后通过对测试集内数据的调用来验证其模型的准确性。采取不同的特征提取方法或分类器算法,其效果也存在差异。常见的机器学习分类模型有SVM(支持向量机)、Bayes(贝叶斯)等。
深度学习可以说是机器学习的子类,基于深度学习的情感分析方法与机器学习的主要差异表现在机器学习需要有人工的特征提取过程,而深度学习可以借助深度神经网络自动实现;此外深度学习基于更多训练数据其模型的表现也会更加出色。基于卷积神经网络(Convolutional Neural Network,CNN)和基于长短期神经网络(Long Short-Term Memory,LSTM)等的深度学习模型在文本情感分析方面都得到了广泛的应用。
深度学习方法往往需要大量训练数据集才能得到比较完美的模型,此处笔者选用了自然语言处理中的TextBlob库工具。TextBlob是一个用Python编写的开源的英文文本处理库,它可以用来执行词性标注、情感分析、文本翻译等自然语言处理任务,在测试数据下准确率达75%(Solar,2018)。TextBlob工具的情感分析方法本质上也是一种基于情感词典的情感分析方法,其工作原理是将字典查找与内置算法相结合,TextBlob库的词典文档对每个具有情感特征的单词进行了赋值(对于相同单词的不同词性,分别给予赋值,在计算时取平均值),但基于不同的排列顺序,内置算法有时会进行词性标注的进一步转换,计算结果受副词的紧凑度、形容词和名词的极性等多种因素影响会被置于不同的算法处理。
在情感分析TextBlob在自然语言处理中的情感分析方面主要可以计算语料的三个指标——polarity(极性)、subjectivity(客观性)、intensity(紧凑度)。笔者此处人为将情感分析中将情感分析得分大于0,标记为正向情感,小于0标记为负向情感,得分为0标记为中性;主客观性分析中将主客观性评分大于等于0.5标记为主观性评价,小于0.5标记为客观性评价。
表一 TextBlob主要指标
三、结果与分析
1. 美媒的涉华报道情况
如表二所示,截至2022年5月8日,在YouTube平台上拥有最多粉丝的五家媒体——CNN NEWS(1380万订阅)、ABC NEWS(1300万订阅)、Fox NEWS(945万订阅)、NBC NEWS(673万订阅)、CBS NEWS(436万订阅)中,最近发布的5000篇YouTube视频中,Fox NEWS的涉华报道最多,达89篇,ABC NEWS最少只有35篇。总的来说,美国媒体在YouTube频道发布的视频内容以美国国内事件为主,涉华报道的比例都不足各媒体报道总量2%,可见美国媒体在YouTube频道上对华关注度高不高。
表二 各媒体涉华报道数
2. 华报道情感倾向
数据分析整理发现,这五家媒体的涉华报道标题的情感倾向性都是以中性为主,主客观性都以客观为主,这是由于新闻标题多简练直接,含有明显情感倾向的情感词和主观性的程度副词较少的原因;如表三所示,CBS NEWS发表的涉华报道正向性标题百分比相比其他媒体最高,达31.08%;CNN NEWS发表的涉华报道标题相比其他媒体负向性占比最高,达23.21%;Fox NEWS所发的主观性报道同比占比最高。
表三 各媒体涉华报道情感分析
图一 各媒体涉华报道情感倾向
3. 观众评论
笔者将研究的涉华报道标题符合TextBlob评定为“中性”且“客观”的报道,作为研究观众评论情感倾向的对象,对每条涉华报道的热门评论进行爬取(即点赞数最多的100条评论,若评论不足100则取所有数据,放弃评论数小于20的视频)。计算每家媒体的观众评论情感倾向,人工剔除无效数据(空评论,含有链接的广告评论等)获取符合标准的报道数据——CNN NEWS,33条视频,含有3299条评论数据;ABC NEWS,23条视频,含有2047条评论数据;Fox NEWS,58条视频,含有5723条评论数据;NBC NEWS,25条视频,含有1675条评论数据;CBS NEWS,34条视频,含有2541条评论数据。
对每条评论利用TextBlob工具进行情感分析,计算出同媒体发布的每条视频下评论的各情感倾向占比,进行平均值计算后得出同媒体的评论情感倾向。
表四 观众评论情感分析
美媒报道视频中,各家媒体的负向评论占比都显著低于正向与中性评论,从一定程度上说明了五家媒体观众对媒体所报道内容,总体上是持有中性或正向的态度的,认为所报道的内容较大程度上是可信的。CNN NEWS和Fox NEWS的正向情感评论占比高于中性与负向,可以反映出这两家媒体的观众最为认可其媒体报道内容,CNN NEWS的正向情感评论占比最高,更是达到达47.92%。而ABC NEWS、NBC NEWS、CBS NEWS的中性评论在三种情感倾向的占比最高,相比之下,这三家媒体观众的发言更加趋于“冷静”。笔者运用方差分析并事后比较验证五家媒体评论文本数据中的正向评论比例是否存在显著差异,见表五,表六。
表五 ANOVA 正向比例
表六 Multiple Comparisons 正向比例LSD
注:p<0.05
方差分析表显示,F值为13.281。P值小于0.05。不同媒体的涉华视频观众评论具有显著差异。事后比较结果显示,ABC NEWS、CBS NEWS和NBC NEWS在正向评论上不存在显著差异;CNN NEWS与其他媒体均存在显著差异;Fox NEWS与其他媒体在正向评论上均也存在显著差异。而根据美国媒体政治立场测评网站Ad Fontes Media(https://adfontesmedia.com/)的数据,CNN NEWS和Fox NEWS分别拥有较强的左派立场和右派立场,而ABC NEWS、NBC NEWS、CBS NEWS的政治立场则较为温和,趋于中间派系。基于此我们可以认为具有明显政治倾向的媒体所发布的涉华报道视频其观众认可度更高。
4. 美媒报道标题
新闻标题具有精炼直接的行文风格,与传统的长篇文本有很大的不同,汇集成语料库后,篇幅小,关键词词频高。若进行传统的语料库搭配词分析,搭配词设置间距过小难以反映标题特征,设置过大则会出现词汇重复计算的情况。因此笔者以标题高频词分析(剔除“China”“Chinese”两词和一般停用),来反映报道标题情况。
表七 涉华报道高频词
基于这些高频词,我们可以直观发现,美媒的涉华报道以政治报道为主,其他领域(体育,娱乐等)占比较小。其中,CNN NEWS的涉华报道高频词全部集中于政治领域。
四、结论
本研究运用数据挖掘、文本分析的方法调查了美国五大主流媒体在YouTube视频分享网站上所进行的中国相关报道。研究发现:美国媒体YouTube频道主要视频内容仍以美国国内事务为主,在YouTube平台上这些媒体并不是十分关注,发表的涉华视频内容不及总量的2%。
本研究发现,涉华报道评论情感趋向与媒体的政治立场存在显著关系。具有显著政治立场的媒体,其受众群体对媒体报道的接受认可程度更高;CNN NEWS作为美国典型的左派媒体,其用户认可度最高,涉华报道视频正向评论达47.92%,显著高于33.26%的中性评论占比与18.82%的负向评论占比。右派媒体Fox NEWS的用户认可程度也处于较高水平,涉华报道视频评论正向评论平均占比43.22%,高于中性评论占比与负向评论占比;而立场较为温和的“中间派”媒体ABC NEWS、CBS NEWS、NBC NEWS的涉华视频评论中,都以“中性”评论为主流。
研究发现,五家媒体的涉华报答都以政治性报道为主,其中以CNN NEWS为最盛,加之其高度的用户认可度,给中国的海外形象传播带来了极大的阻力。
鉴于以上研究发现,笔者认为在高度信息化的今天,我国应更加加强国家话语权建设、使一批有影响力的中国媒体在世界舞台上发声。我国为维护自身网络信息主权与构建和谐的舆论环境,建立网络防护墙,因此美媒YouTube平台的受众以西方或英语世界世界人群为主。在对外宣传上,我们应以客观真实的报道展现我国的真实姿态,尽可能减少西方民众受单一价值取向媒体虚假报道所造成的对中国认知形象的负面偏差,提升我国国际形象。