推特上中国形象的主题与情感分析
2017-05-04肖明易红发
肖明+易红发
国家形象是一个国家的综合实力(即硬实力和软实力的总和)和核心价值观的体现,是一个国家在国际社会中所展示的整体面貌,以及国际社会对其综合实力、核心价值观和整体面貌的感受和评价。
传统的国家形象研究有两种途径,一是对媒体上特别是主流报纸上有关中国的报道进行内容分析,二是针对民众进行调查,来了解外国民众对中国的评价。
自2006年推特(Twitter)诞生以来,自媒体或称社交媒体成了传统媒介机构与公众发表意见的新平台。本研究中,我们采用文本挖掘技术,对推特上涉及中国的英文热门推文进行了分析。研究目的是了解和描述推特英语用户在发布的热门推文中,涉及中国时关注的是哪些主题,呈现出来的态度及情感又是怎样的,以期对对外传播工作有所启示。
一、研究方法
推特平台上共有超过30种的语言版本,但主要语言为英语,本研究以英文版本为研究范围,研究对象是海外媒体及公众所发布的涉及中国、中国人的热门推文。采用新兴的文本挖掘方法,对非结构化的推文文本进行挖掘和处理,工作流程包括了文本的获取、分词与过滤、主题建模、情感分析四个步骤。
1.文本数据的获取
在获取文本数据过程中,我们不区分大小写,以“China”或者“Chinese”为关键词对热门推文进行了检索。热门推文是被转推或被收藏过的推文。搜索热门推文而不是全部推文,主要是考虑到了热门推文的影响力以及工作量问题。所搜索语言为英语,这主要是考虑到推特用户的主要语言为英语,用户所发布的推文也多为英文。推特是在2006年3月开始运营的,本研究的数据收集时间是在2014年初,所以搜索的时间周期为2006年3月到2013年12月。
利用爬虫软件GooSeeker对检索出来的热门推文进行了抓取。GooSeeker是火狐浏览器的插件,包括两个部分:定义提取规则的MetaStudio和用于信息采集DataScraper。利用爬虫技术获得的原始数据包括四个字段,分别是“用户名”“昵称”“推文发布日期”,以及“推文文本”。其中“用户名”和“昵称”是用户属性数据;“推文发布日期”是推文属性数据;“推文文本”属于内容数据,是文本形式的,“推文发布日期”是我们要进行分析的非结构化数据。
第一条含关键词“China”或“Chinese”的热门推文发布于2006年4月30日,推文内容如下:
picking up two out-of-state twitterers, heading out for the best Chinese in SF - Elizas.
因为本研究所关心的是外国人如何呈现中国形象,所以去除了中国人或中国机构所发布的推文。首先,我们认定“昵称”中含中文字符的用户是中国人,删除他们所发的推文,共计26,318条。其次,我们认定用户名或昵称中含“China”或“Chinese”的用户也与中国有关,去除他们所发的推文,共计53,212条。最终获得有效的热门推文一共是842,917条。
2.文本预处理
对推文的预处理包括了分词和过滤,主要运用自然语言处理技术(NLP),利用Python的nltk包进行了操作。
我們的研究对象是推特上的英文的涉华推文,分词方法就是简单的基于空格和标点符号的英文分词法。
过滤是指过滤掉文本中的html链接、@人名、标点符号,以及不必要的空格。同时过滤掉非英文字母、数字、小于或等于三个字符的词(这些词,如the、or、and等绝大多数为无意义的虚词),同时在停用词(Stop Words)表的基础上,过滤掉停用词。最后将所有英文字母转换为小写。
3.主题建模及主题命名
主题建模(topic modeling)是本研究中最为关键的一步,利用Stanford TMT 0.4.0软件对涉华推文的主题进行LDA(狄利克雷分配模型)建模。Stanford TMT由斯坦福自然语言处理小组(The Stanford Natural Language Processing Group)开发,基于JAVA,用Scala编写,有完整的API文档。LDA建模方法是基于无监督的机器学习技术,不采用任何的主观方法去标识推文,能够更为客观地发现文本中是否存在着潜在主题。
经过了反复的测试,本研究最终选择最大迭代次数为1000,常见词过滤数量为20的结果,最终从80多万条推文中提取了30个主题。
对于所提取的30个主题,软件输出结果中会给出每个主题所对应的前20个关键词以及每个关键词的贡献度。根据各个主题所包含的关键词的特点,经过反复讨论,最终对各个主题进行了命名。
4.情感分析
本研究的情感分析(sentiment analysis)应用机器学习技术,采用朴素贝叶斯(Naive Bayes)算法,对每一条推文的极性与情感进行识别。具体的操作采用了R语言中的sentiment包。
R语言中的sentiment包在识别极性(polarity)时,会先为每条推文的每种可能极性打分。即每条推文都有两种可能性negative(消极、负向、否定)和positive(积极、正向、肯定)的得分。当两种极性得分相差较大时,则极性拟合为得分较高的极性类别。当两种极性得分相差不大时,则拟合一种新的极性类别,即neutral(中立)。
R语言中的sentiment包在识别情感时,共有六种情感:anger(愤怒)、disgust(厌恶)、fear(恐惧)、joy(喜悦)、sadness(悲伤)和surprise(惊奇)。在分析时会先为每条推文的每种可能情感打分。当六种情感可能性中有一种可能性的得分特别突出,那么该推文的实际情感就拟合为该类别。如果六种情感可能性得分相差不大时,则情感类别拟合为unknow(未知)。如此可知,如果某条推文被拟合得到某一类情感,则该情感一定是强烈的情感。
二、研究结果
1.涉华推文的主题分布
本研究采用LDA主题建模方法把80多万条涉华热门英文推文凝聚为30个主题,各个主题的名称及其占所有主题的百分比如表1所示。
可以看到,涉华热门推文中有关饮食的主题有三个,根据场景的不同分别为“饮食与家庭生活”“饮食与娱乐”,以及“饮食与学校生活”,三个主题合计为10.98%。即有关中华饮食的推文所占比例最高,推特用户中最关心的中国议题是饮食。
在饮食主题之后的占比数量多的五个主题依次是:“亚洲局势”“美国总统选举”“金融市场”“社会化媒体”,以及“经济增长”,这五个主题累计百分比为26%,超过了四分之一 。
在国家形象研究中,常见的主题分类是政治、经济、社会及文化的四分法,这也是传统调查法和内容分析方法比较经常采用的分类法。
按照政治、经济、社会及文化的四分法,本研究中利用主题模型生成的“亚洲局势”“美国总统选举”“地区争端”“西藏话题”“媒介审查”“人权话题”“港台话题”“政治丑闻”,以及“计划生育”等九个主题属于政治范畴,所占比例为32.6%。
属于经济类的主题包括“金融市场”“经济增长”“奢侈品市场”“苹果产品”“污染与健康”,以及“航天与探月工程”,共六项,所占比例为20%。
属于文化类的包括“大熊猫与长城”“阅读与谚语”“好莱坞电影”“学校学习”“语言学习”“韩流”,以及“传统医学”,共七个主题,所占比例为21%。
属于社会类的主题包括“社会化媒体”“饮食与家庭生活”“自然灾害与治安”“饮食与娱乐”“饮食与学校生活”“奥运会”“城市生活”,以及“篮球与足球”,共计八个,所占比例为26.4%。
2.不同年份及不同议题的极性分析
通过极性分析,我们发现所分析的80多万条英文涉华热门推文中,有54.81%的推文极性为积极正向的;消极负向的推文占31.99%;中立推文比例为13.20%。
历时来看,2006年的数据因为数量很少,忽略不记。从2007年到2013年各年度的极性变化是不大的。负面评价的标准差为1.87%,正面评价的标准差为1.32%,中性评价的变化范围最小,标准差不到1%。
从变化的情况来看,2008年的推文积极正面的评价比例最低,为52%;消极负面评价的比例为35.65%,是历年来最高的。2008年中国发生的重大事件包括北京奥运会、汶川地震、毒奶粉事件,以及全球性的金融危机。
按照政治、经济、文化、社会四个大类别来看,在政治类议题中,积极正面的评价为54.73%,略低于经济、社会及文化议题中正面评价的比例。
3. 不同年份及不同议题的情感分析
总体来看,只有25.54%的推文表现出了强烈的情感。近四分之三的推文都没有表现出强烈的情感,情感拟合为unknown。
历时来看,随着时间的推移,涉华热门推文表现出强烈情感的比例越来越多。在2007年,只有20.1% 表达出了强烈的情感,而2013年,这个比例已经提升到26.5%。这表明,就中国议题而言,推特用户越来越倾向于表达出强烈的情感。
從所表达出来的情感来看,比例最高的情感是喜悦,占比14.19%;其次为愤怒,占3.49%;排在第三位的情感是难过,比例为3.07%。
从居前两位的情感joy和anger的变化来看,joy呈现出逐年提高的趋势,这说明涉华热门推文中,含有喜悦情感的比例越来越多;而anger呈现出小幅上下波动的态势。
从议题来看,社会类和文化类议题中表现出强烈情感的比例都在27%上下;而经济、政治类议题中具有强烈情感的比例都不足25%。
三、结论
本研究着眼于推特上英文用户对有关中国议题的呈现,采用爬虫程序获取数据,利用NLP技术对数据进行预处理,采用主题建模和情感分析两种技术对数据进行处理,得到以下结论:
1.从数量上看,英文涉华热门推文的数量在逐年增加。表明世界对中国及中国相关事物的关注度在持续提高。
2.“饮食”成为英文涉华热门推文中关注度最高的主题,超过十分之一的推文都与中国饮食有关。
3.从政治、经济、文化和社会四大类议题来看,英文涉华热门推文中政治类主题所占比例最高。
4.英文涉华热门推文总体上的极性以积极正向为主。总的来看,推文中只有四分之一表现出了明显的情感,从表现出来的情感的情况来看,喜悦高居第一位,然后依次是生气和难过。从各年度历时来看,表现出喜悦情感的比例有上升的趋势。
(本研究为中国传媒大学亚洲传媒中心资助项目“西方自媒体中的中国形象研究”的阶段性成果)
「参考文献」
1.张培晶、宋蕾:《基于LDA的微博文本主题建模方法研究述评》,《图书情报工作》,2012年第12期。
2.赵妍妍等:《文本情感分析》,《软件学报》,2010年第8期。
3.Hofmann T. (2001). Unsupervised learning by probabilistic latent semantic analysis [J]. Machine Learning, 42(1): 177-196.
4.Blei D, Ng A, Jordan M.(2003). Latent Dirichlet allocation [J]. Journal of Machine Learning Research, 2003(3):993-1022.
5.OConnor, Brendan; Balasubramanyan, Ramnath; Routledge Bryan R.; and Smith, Noah A.. ‘ From Tweets to Polls: Linking Text Sentiment to Public Opinion Time Series(2010).Tepper School of Business. Paper 559.