APP下载

国际社交媒体传播的中国文化及其类型特征
——基于网络文本挖掘的实证研究

2017-04-10

关键词:特征词词频帖子

徐 翔

·文学与文化研究·

国际社交媒体传播的中国文化及其类型特征
——基于网络文本挖掘的实证研究

徐 翔

(同济大学艺术与传媒学院,上海201804)

全球社交媒体的强势崛起,给国际文化传播和中国文化“走出去”提供了新的空间和契机,也带来了新的转变与挑战。使用爬虫软件以及ROST、VBA等辅助软件和研究手段,对国际性的社交媒体进行数万条、5000余万字符的网络文本抽样和数据抓取、清洗、分析,从共词和聚类分析等定量挖掘的角度,分析当前中国文化在国际社交媒体传播中的内容构成,以及不同类型内容在呈现规模、呈现强度和关联强度方面的水平和特征。在此基础上,为加强新语境下的中国文化国际社交媒体传播提供实证基础和对策参考。

社交媒体;中国文化;国际传播;共词聚类

社交媒体在全球强势崛起和不断发展,给国际传播的格局和特征带来深刻冲击和挑战。也给当前新语境下的国家对外传播和文化“走出去”提供了一个新的契机。在广泛的受众参与下,国际社交媒体成为中国文化扩散和传播的又一重要平台。本文针对的核心问题是:(1)当前中国文化在国际社交媒体中的传播具有怎样的内容构成;(2)不同类型的中国文化内容在国际社交媒体中具有怎样的呈现程度及特征。

一、文化分类的理论研究基础

关于文化的分类,学者们从理论角度进行了多维探讨。例如,从二分法分为物质文化(有形文化)与精神文化(无形文化);从三分法则加上行为文化;从四分法则再加上制度文化[1]。著名文化研究学者钟敬文在物质文化、精神文化等分类方式的基础上认为,“凡人类(具体点说,是各民族、各部落乃至于各氏族)在经营社会生活过程中,为了生存或发展的需要,人为地创造、传承和享用的东西,大都属于文化范围。它既有物质的东西(如衣、食、住、工具及一切器物),也有精神的东西(如语言、文学、艺术、道德、哲学、宗教、风俗等),当然还有那些为取得生活物质的活动(如打猎、农耕、匠作等)和为延续人种而存在的家庭结构以及其他各种社会组织。”[2]传播学者吴瑛在国际文化传播的研究中认为,“将‘文化’分为物质文化、行为文化、精神文化则是比较清晰可操作的角度,也是跨文化传播学者倾向使用的分层方式。”[3]关于这种三分法的具体内涵,吴瑛指出,“物质文化包括中国概况、物质遗产、物质非遗产;行为文化包括日常行为习惯、传统民俗;精神文化……既包括文学艺术,也包括孝、俭、礼、勤、恭、慎、谦等价值观。”[4]

有的学者从文化反映的事物的性质出发,将人类所创造的文化分为以下六类:伦理道德文化,科学技术文化,管理文化,思想哲学文化,历史文化和艺术文化及体育文化。芬妮氏在《教育的社会哲学》一书里,分文化为两大类:一为社会生活的知识的渊源,一为社会的制度。从这两大类里,又可分为下列各项:(一)社会生活的知识的渊源:(1)交通方法;(2)工业技术;(3)游戏技术;(4)科学;(5)美术;(6)公共信仰;(7)流行观念;(8)民俗;(9)民型。(二)社会的制度:(1)家庭;(2)地方团体;(3)国家;(4)工业;(5)教会;(6)学校;(7)报纸;(8)生活程度;(9)常规的娱乐;(10)康乐保存的活动;(11)杂项[5]。

刘雪对公开文化和隐藏文化进行了细分。公开的文化,即肉眼可见的表象化的文化形式,它包括物质文化、事实文化、风俗文化和制度文化。其中物质文化是指满足人类基本物质生活的吃、穿、住、用、行五方面;具体说来,饮食、服饰、建筑和交通都属于物质文化。事实文化的范畴较广泛,它包括文化存在和发展所依托的客观自然环境和历史背景以及由人类智慧创造的一切可见的文化形式,因此,可以把地理、历史、名胜古迹、语言文字、科技成就和各类艺术形式都归为事实文化的范畴。而风俗文化,是流行于民间的,没有强制规定的,由习惯养成并被一代一代传承下来的文化形式。如节日、风俗习惯、民间文化,等等。与风俗文化相反,制度文化是由国家或统治者为维护其阶级统治及社会制度而规定或制定的国家机构、社会体制和典章制度等。此外,属于精神文化范畴的价值系统,包括哲学思想、宗教信仰、人权观、道德观、婚姻观等价值观念都应归入隐藏文化之列[6]。

侧重于文化传播和狭义文化的要素,学者们也对其进行了各种划分。李树榕认为,文化资源大致可分为三个基本类别:一是物质实证性文化资源;二是文字与影像记载性文化资源;三是行为传承性文化资源[7]。王文杰“从文化本身的属性出发将文化从三个层面进行概括,即意识形态层面的文化、历史遗产层面的文化和生活方式层面的文化。”[8]2王文杰结合文化的不同层面探讨了中国文化走出去的主要形式,例如饮食文化、服饰文化、中医药文化、茶文化、武术文化、书画文化、器乐文化、传统节日、特殊的中国文化符号(熊猫)[8]11-32。乌丙安等人则侧重于中国民间文化的分类,指出其包含的如下类型:一、生产贸易民俗,二、衣食住行民俗,三、社会家庭民俗,四、人生仪礼民俗,五、生态、科技民俗,六、信仰民俗,七、岁时节令民俗,八、语言文学民俗,九、民间游乐民俗,十、民间艺术[9]。

依据不同的标准,文化及其所传播的内容可以划分为诸多不同的类型。例如“依据所处理的关系的不同,可划分为科学与人文;根据与行为的关系不同,可分为知识、观念和技术;依据产生和流行的人群差别,可分为精英文化和大众文化;依据政治地位的不同,可分为官方文化和民间文化;依据产生和流行的地域不同,可分为本地文化、外地文化和外来文化;依据与现时代关系的不同可分为古代文化、近代文化、现代文化和未来文化。”[10]总体上看,这些分类多是理论性、带有“先验”性的研究。本文从定量研究的角度,结合文本挖掘手段和聚类等数据分析方法,对国际社交媒体中的中国文化内容的类型进行实践考察。

二、研究思路和方法

本文选取具有重要性和典型性的若干国际社交媒体,对其中与中国文化有关的帖子进行自动抓取,在此基础上进行基于定量手段的类型分析。

(一)媒体来源确定

本文选取七种重要而特点不同的社交媒体,分别是twitter、youtube、facebook、google+、tumblr、flickr、reddit。其中,twitter是微博类型,youtube是视频媒体,flickr是图片媒体,google+是综合性的社交网络平台,facebook是最大规模的社交网站,tumblr是“轻博客”,flickr是图片型的社交媒体,reddit则是新闻类的社会媒体。它们都具有很大的规模与流量,在其专门的细分领域内也有重大的影响力和竞争力。在2015年2月21日的Al⁃exa全球网站排名数据中,Facebook、YouTube、Twitter三大社交媒体巨头分别居于全球网站的第2、3、8位,其他媒体也都具有全球数十位或一百多位的排名。

(二)样本采集与汇总

对这其中媒体中的内容,都以“china”和“cul⁃ture”为复合关键词进行帖子的检索,通过“八爪鱼”爬取软件自动抓取、存档内容。Google+采集的帖子,发布时间为2014年10月21日至2015年10月20日,得到4947条,删除内容完全重复的帖子后,剩余2673条。Twitter采集的内容,其发布时间为2014年10月11日到2015年10月10日,抽样采集得到13471条,删除重复内容后剩下11141条。Youtube的帖子,其发布时间为2014年11月16日到2015年11月15日的帖子,抽样得到2486条,删除标题及正文都重复的帖子后剩下2329条。Tumblr的帖子每晚23点自动采集20条,采集的帖子发布的时间段为2014年11月1日至2015年10月31日,抽样采集得到3103条,去除标题和正文都重复的帖子后剩2796条。Flikcr采集的是2014年11月4日到2015年11月3日按时间更新排序的照片,共得16692条,删除标题和正文都重复的内容及空白内容后剩余10490条。Reddit采集的是发布于2014年11月1日至2015年10月31日的所有帖子,删除标题与正文都重复的内容后得到2442条。Facebook采集的是2015年6月14到2015年11月15子间,名为“china culture”或“chinese culture”的三个大规模群组的所有帖子,①这三个群组分别名为“China culture”(https://www.facebook.com/groups/impressionchina/?ref=br_rs)、“chinese culture”(https://www.facebook.com/groups/AllChineseCulture/?ref=br_rs)、“chinese culture”(https://www.facebook.com/groups/AllChineseCulture/?ref=br_rs)。截至2015年8月5日,这三个群组拥有的成员数依次为18380、6116、3452。得到5248条,经删除重复及空白的内容后剩3059条。

分析的内容是这些帖子的标题、正文、标签的文字部分。若无标题或标签,则不予分析。其中,Youtube分析的内容包括标题和正文;Tumblr分析的为标题和正文、标签词;Flikcr分析的是照片的标题及其说明的正文;Reddit分析的是标题和内容正文;Facebook分析的是帖子正文的内容,如是转贴则还包括被转内容显示的正文。上述所有内容汇总到一个txt文件中进行处理。该txt文件的每一行为一条帖子的内容。汇总后的txt文件大小为49.3MB,总字符数为5117.88万。

(三)文本处理

对于采集所得的文本集进行清洗。去除#号、@号、以http开头的网址字符串等无实际语义的字词;去除无意义的字符串,例如cts等;去除帖子在网页的显示中本身所含的格式词,例如“转推了”、“查看翻译”等词;去除一些在语义分析过程中无明显语义的虚词、助词、连词等。对于最终的文本,通过ROST CM软件进行中英文的分词、词频统计以及共词分析、语义网络的分析呈现,并结合SPSS软件和VBA编程进行定量处理。通过VBA对统计所得的高频词及其共词网络、共现词频进行整理和转换,通过SPSS对所采选的关键词进行聚类分析。最终,通过将文本集中高频出现和具有区分度的450个关键词,通过其相互间的共现程度得到聚类结果,从而将中国文化内容进行类型的划分。在此基础上,进一步结合不同的类所含关键词与其他类的关联强度,考察各个类在中国文化的国际社交媒体呈现中所具有的地位和作用差异。

三、文本的词频统计和共现矩阵构建

(一)高频词的筛选

对采集和汇总所得的文本进行分词和词频统计,得到不同的词202634个。其中词频最高者为44918次,词频大于或等于80次的词共7964个,词频为1词的共有104632个。根据Donohue于1973年提出的高频词和低频词的界分公式:T=,计算要选取的高频词的临界值[11]。其中,I1是词频为1的词的个数,T为高频词中的最低词频数,也即区分选取高频词的临界值。本研究中,I1=104623,计算得出T≈456.9。将词频大于或等于457的高频词提取出来,得到高频词共1771个。

从所得的高频词中,由于检索词的关系,在检索结果中,删掉China、culture以及chinese、cultur⁃al、中国、文化这几个直接相关的词。事实上,本研究中,China出现的频次是最高的,达44918次;但有24362条帖子的特征词中都包含它,其出现的分布广度也是最多的。特征词含Culture的帖子数量居第二,达19805条,而其词频也很高,达29357词。Chinese的词频及特征词帖子数分别为26238和9654。从这些也能看出,与检索词直接相关的这几个关键词,尽管出现频次很高,但区分度不大,因此可不采选至分析范围中。气候,从所得的高频词中,进一步清理掉一些意义不大的词,包括一部分副词、状语以及特点不明显的动词、形容词等,例如October、week、ago、past等。

(二)对作为分析对象的450个高频词的选取

另外,为了提高所选词的区分度,本研究以出现词频达到457次及以上的1771个高频词,通过ROST CM软件对汇总后的文本进行特证词的提取与统计。每一行文本(对应于每一条帖子)所提取的特征词,都在这1771个高频词的范围之内。由于一条帖子中的特征词不重复出现,因此词语在特征词表中的出现词频代表着它在所有帖子中分布的广泛度。若某词出现频次很高,但是其特征词的广布广度也很高,那并不一定代表它具有很好的语义区分度;在出现频次一定的情况下,若特征词的分布广度越低,也即在越少的帖子中出现,那么它就越具有高区分度。设某词在所有帖子汇总后的文本集中的出现频次为X,作为特征词出现的频次为Y,那么X/Y的值越大,这个词的区分意义就越高。

综合考虑词频以及词的区分度,为了选取既有尽可能高的出现频次、也有尽可能大的区分度的词,以词频以及X/Y这两个值作为等权的指标并进行无量纲化处理,对所得的1771个高频词进行处理和排序,得到综合排序前450位的词。对这最终所得的450个词进行共词聚类分析,建立其450∗450的共现矩阵,其中第i行、第j列的元素表示第i和第j的关键词的共现频次。

(三)共词矩阵的构建

将得到的共现词频矩阵中的量进行转换。为了消除频次悬殊带来的影响,用Ochiia系数把上述共词矩阵转换为450∗450相似矩阵。方法是将共词矩阵中的每个数都除以其涉及到的两个高频词的总频次开方的乘积,表示词与词之间的关联程度。A、B两词的Ochiia系数=A、B两词共现频次/其中,矩阵对角线的数据表示某词与自身的相关联程度,均为1。用1减去相似矩阵中的每个数,得到表示两词间相异程度的相异矩阵。在相异矩阵中,对角线的元素值均为0,因关键词和它自身的相异程度为0。截选这些关键词的局部10∗10的相异矩阵,如下表(表1)所示:

表1 所选450个关键词之间的相异矩阵(局部截选)

四、基于共词与相异矩阵的聚类分析

把该450∗450的相异矩阵导入到spss中进行聚类分析,聚类方法使用组间平均距离的系统聚类,距离采用平方Euclidean距离。

根据spss计算所得的聚类结果,将包含450个关键词的对象分为23类。既对一些特定领域的词群具有足够的区分度,同时也不至于太过琐碎。其中,每一类包含的关键词从1个至上百个不等。

同时,对于聚类所得的每一个类,计算该类内部不同的词的粘合力,以反映该类最居于中心地位的词。类团内部关键词的粘合力“用以衡量类团内各主题词对聚类成团的贡献程度,表达每个主题在类团的聚集过程中所起作用的程度。”[12]就词语的粘合力而言,“某一词与类团内其他主题词在同篇文献分别共现频率的平均值即为该词的粘合力。平均值越大,该词在类团中的地位越突出。”[13]粘合力的计算方法为:在有N个关键词的类中,关键词A与类中其他关键词组成共词对,统计这些词对出现的频率的总和C,那么关键词A在其所属的类中的粘合力N(A)=C/(N-1)[13]。本文对粘合力表达方式做必要的调整,以词之间的Ochiia系数作为衡量一对共现词之间的共现程度的量值,也即A、B两词共现频次/设每个词对间的Ochiia系数为Xn,则上式中的C=∑Xn。

聚类结果中,每一类所包含的词根据该词的粘合力由高到底排序。在这23个类中,包含的关键词小于或等于2个的类共有8种。由于关键词过少,在呈现和提炼主题上存在一定的困难,为处理和论述的方便将这八种小类归到同一个“其他”类中,同时其关键词也不依照词的粘合力排序。具体的结果如下:

类中所含词(各类都按词的粘合力由高到低排序,“其他”类除外)类主题特征1 p u r a n a;g a n a p a t i;g a n e s h a;d e i t y 佛教神祇2 s h a n g h a i;k o r e a;b o r a;p o l y n e s i a;b e i j i n g;h o n g k o n g;r e s o r t;j a p a n;j a p a n e s e中国大城市及韩、日3 e n t r y v i e w;v i e w e r a b o u t;r e a d a b i l i t y;c o l o r a t i o n;i l l u s t r a t i o n s;s p o n s o r;r e s e m b l e;p e r f e c t l y;a p⁃p e a r i n g;a u t h o r s;a p p e a r a n c e;l i b r a r y;c a t a l o g;t i t l e;o r i g i n a l;b o o k;l i b r a r y d i g i t i z i n g;w o r k;f l o w e r s;s e e d;n u r s e r y;p l a n t s;a g r i c u l t u r a l;a g r i c u l t u r e;c o l l e c t i o n s u b j e c t s;t r a d e;d e p a r t m e n t;l a r g e;w h i t e;c a t a l o g s p u b l i s h e r;s e e d s;p l a n t;v a r i e t y;f i n e;v a r i e t i e s;n a t i o n a l;c o l o r;y e l l o w;b e a u t i f u l;g a r d e n;r i c h;f l o w e r;v e g e t a b l e s;p i n k;r o s e;r e d;p u r e;d e e p;g r o w i n g;b r i g h t;f l o w⁃e r i n g;s t o c k;f e e t;g r o w t h;f o l i a g e;b l o o m;c r i m s o n;f r u i t;s c a r l e t;g r e e n;d a r k;g o o d;f i n e s t;g r e a t;w i n t e r;s o i l;n u r s e r i e s;s p r i n g;s m a l l;s e a s o n;d w a r f;f o r m;s p l e n d i d;s u m m e r;s t r o n g;b u l b s;f r e e;f r a g r a n t;s h a p e d;c o l o r s;o l d;h a b i t;c a t a l o g u e;s w e e t;b r i l l i a n t;p o t;p e t a l s;m i x e d;g o l d e n;o r a n g e;p u r p l e;g r o w s;o p e n;b e a u t y;e x c e l l e n t;p o p u l a r;l i t t l e;p l a n t e d;b l u e;p o t s;h o u s e;f l e s h;r o o t s;e a s y;r o s e s;p r e t t y;l a r g e r;c h o i c e;c e n t e r;c l e a r;c e n t s;s o r t;b u d s;w a t e r;y o u n g;t e a;c a l i f o r n i a;g e n e r a l l y;p o s t p a i d;s i m i l a r;p a c k e t;a i r;h e a d图书与农植4 p e o p l e;w o r l d;h i s t o r y;l i f e;p l a c e;w e s t e r n;c o u n t r y;w a r;m o d e r n;l i v e;e a s t;t h o u g h t;h u m a n;i n t e r n a t i o n a l;b e t t e r;p o w e r;p u b l i c;g o v e r n m e n t;l i v i n g;m a n;f a r;a s i a;f e e l;r e a l;u n d e r s t a n d;w e s t;e x a m p l e;l e f t;b e l i e v e;c o u r s e;n e w s;t r a v e l;m e n;w o m e n;p l a c e s;l e a s t;m e d i a;s t u d y;s u r e;s p a c e;l o c a l;c h i l d r e n;c h a n g e;e a r t h;n a t u r e;h a n d;m o n e y;e c o n o m i c;l i n e;e u r o p e a n;d u e;w o r d;m a i n;s t y l e;f o o d;b u i l d i n g;i n f o r m a t i o n;l o o k i n g;e a s t e r n;s u n;g o d;l e a r n;k i n d;f i l m;g a m e;s t r e e t;d e s i g n;l i s t;i s l a n d社会、政治与生活5 n d o r g a n i z a t i o n;d o r s o d u r o;c a s t e l l o;a r s e n a l e;g i a r d i n i;p a l a z z o;c a m p o;c u r a t o r s;d e l l a;m a r⁃c o;c u r a t o r;o p e r a;v e n u e;p a v i l i o n;d e p u t y;c o m m i s s i o n e r;t a i p e i;d r a g o n;n u o欧洲城市与文化场所6山水图;黄宾虹;h u f a n;黄君璧;赵少昂;书法;画家;w u g u a n z h o n g;古董;林风眠;f e n g⁃m i a n;齐白石;q i b a i s h i;手卷;荷花;h a n d s c r o l l;彩山;徐悲鸿;x u b e i h o n g;吴冠中;张大千;i n s c r i b e d;b a m b o o s;j a d e;c a l l i g r a p h y;l o t u s;p a i n t i n g s;e l e p h a n t;a r t i s t s;t a i w a n;e x h i b i⁃t i o n;m a n d a r i n;m o u n t a i n;w o r k s;v i e w;a r t 7 b r i t a i n;a r b o r e t u m;s h r u b s;b o t;s p e c i e s;t r e e s;m i l l;l o n d o n;n a t i v e;l e a v e s;m a g;s h r u b;l a n d⁃s c a p e;m a n a g e m e n t;o r n a m e n t a l;f o r e i g n;h i s t o r i c a l;c u l t i v a t e d;t r e e;e n g l a n d;w a l l;a m e r;i n⁃d i e s;l e a v e d;r a r e;d e s i r a b l e;b a s e 8 w i n s t o n;s e d w i c k;c o m m e n c e m e n t;v e t e r a n s;s a l e m;d a v i s;s t u d e n t s;t e a c h i n g;s t u d e n t;l e a r n⁃i n g;s c h o o l;p r o g r a m;l a n g u a g e;c e r e m o n y;c o l l e g e;e d u c a t i o n;s o c i a l;m u s i c;a c t i v e;r e p u b l i c;e x p e r i e n c e;c a p i t a l;w o r k i n g;c o m m u n i t y;p o l i t i c a l;e n j o y;p a r t y;l a w;d e v e l o p m e n t;s c i e n c e;s t o r y;r e s e a r c h;c u l t u r e s;p o p u l a t i o n;m i l l i o n;l o s t;c o u n t r i e s;p r o v i n c e;m a j o r;f u t u r e;r e g i o n;m o t h e r;t r a d i t i o n a l;p r e s i d e n t;r u s s i a;h o m e;c i t y;b u s i n e s s;m i l i t a r y;m e m b e r;b o d y;f r i e n d s;l o v e;f a m i l y;m o n t h;s t a t e;a m e r i c a;e n g l i s h;u n i q u e;s p e c i a l;s o c i e t y;r i v e r;u n i v e r s i t y;w i d e;m a r c h;n o r t h;a m e r i c a n;e a r l i e r;f i e l d;s e a;c o m m o n;g e n e r a l;a r t s;b l a c k;s h o r t;c l a s s;q u a l i t y;q u i t e;a n n u a l;d i s t i n c t中国书画林园种植教育、艺术、科技、军事9 m a y a d e v i;l u m b i n i;u n e s c o;b u d d h a;t e m p l e;h i n d u;h o t e l s;s i t e s;b u d d h i s t;l o c a t e d;f e s t i v a l;h e r i t a g e;t o u r i s m;t r a d i t i o n;v i l l a g e;s i t e;c o m m i t t e e;f o u n d a t i o n;a n c i e n t;m u s e u m;n e p a l;c e n t u r y;e m p e r o r;p a r k;n o t e;p r e s e n t;n u m b e r;f o r m s;n a m e d印度、尼泊尔与佛教文化1 0 s u n d e e p k u l l u;h i m a c h a l;i n d i a;a f r i c a;w e d d i n g;e u r o p e;i n d i a n;c i t i e s;n a t u r a l;b r i t i s h国际1 1 g u i z h o u;p h o t o g r a p h y;m i a o;h m o n g;e t h n i c;s t a t e s;o f f i c i a l;a r e a;m e m b e r s;c o m m e r c i a l;m o u n t a i n s;d y n a s t y;f r a n c e;p h o t o;c o l l e c t i o n;p h o t o s;p e r i o d;a s i a n中国少数民族文化1 2 m a h a l;t a j;m a r b l e;t o m b;b a m b o o泰姬陵1 3 i n d u s t r y;c o m p a n y;m a r k e t经济1 4 b e e;h o n e y;b e e s蜜蜂1 5 t i b e t a n;t i b e t;l a n d西藏1 6 b a t i k;r i c k s h a w s;r i c k s h a w;f i r e w o r k s;t h e o p h i l u s;r a y n s f o r d;d r e e r;n e w y o r k;f r e n c h;p k t s;j o e;p o s t s其他

从聚类的结果可以看到,国际社交媒体中的中国文化传播,与通常的理论角度所做的划分并不一致。在这里,中国的文化内容并不表现为物质文化、行为文化、精神文化等理论维度的差异,而是针对某些特定主题或相关联的主题形成聚集,产生某些特定的类型。其中,关键词数量最多的包括图书与农植类,教育、艺术、科技、军事等泛文化与软文化类,社会、政治与生活等日常文化类。此外,与周边国家和地区的文化关系也是传播的重要方面,例如韩日等东亚邻国,印度、尼泊尔、柬埔寨等南亚邻国。我国边陲与少数民族文化也是另一个不可忽视的主题,西藏、贵州、苗文化等都属于这个方面。我国的传统文化中,中国书画得到较多讨论,而传统思想文化、功夫等典型意义上的中国传统文化元素被传播的程度和它的典型意义并不相匹配。

五、不同类型的呈现程度

中国文化在国际社交媒体传播内容中的不同类型,具有不同的地位、重要性和呈现程度。考察一个类的呈现规模,可以采用该类所有词的总词频、该类词作为行特征词的总频次作为指标;考察一个类的呈现强度,可以采用该类词的平均词频(类中所有词的总词频/类中词的数量)、该类词作为行特征词的平均频次(该类词作为行特征词的总频次/类中词的数量);考察一个类与其他类的关联强度,可用采用该类中词与其他类中词的平均共现频次(该类中词与其他类中词的共现总频次/该类中词的数量)作为指标。对上文聚类所得到的不同类型,除了“其他”类外,对另15类都依据这里的六项指标进行计算,分析不同的类所具有的呈现规模、呈现强度、关联强度。如下表(表2)所示:

表2 不同类型内容的呈现程度

在呈现规模上,各类由于类中词的数量的差别以及词本身的词频的差异,从而表现出很大的差别。其中,第3类(图书与农植)、第8类(教育、艺术、科技、军事)和第4类(社会、政治与生活)具有明显的优势。具体如图1(见下页)所示。

去除类中所有词的总体规模因素,考虑类中词的平均化水平,这就关系到各类的呈现强度(见下页的图2)。在类中词的平均词频以及作为特征词的平均频次上,各类的差距要小一些。但是不同类型之间依然存在着显著的差异,类中词的平均词频、类中词作为行特征词的平均频次,两者的卡方检验显示,前者的卡方量为3201.048,后者的卡方量为4638.363,自由度(df)都为14,渐进显著性都接近于0,不同类之间存在着显著性的差异。在类中词的平均词频方面,第3类(图书与农植)、第4类(社会、政治与生活)、第2类(中国大城市及韩、日)居于前三位,第12类(泰姬陵)的值为最低。在类中词作为行特征词的平均频次方面,第3类(图书与农植)、第4类(社会、政治与生活)、第8类(教育、艺术、科技、军事)居于前三位,第1类(佛教神祇)和第12类(泰姬陵)处于最低水平。

图1 各类在国际社交媒体中的呈现规模

图2 各类在国际社交媒体中的呈现强度

在关联强度上,各类差别很大(见下页的图3)。类中词与其他类中词的平均共现频次反映着一个类与其他类的关联紧密程度。从这个指标上看,少部分类处于中心地位,与其他类关联很紧密。例如:第3类(图书与农植)处于突出的领先地位;第8(教育、艺术、科技、军事)类、第4类(社会、政治与生活)、第7类(林园种植)、第13类(经济)构成第二梯队;第12类(中国少数民族文化)、第1类(佛教神祇)、第5类(欧洲城市与文化场所)则是最为边缘化的内容类型。对这些类在反映其呈现规模、呈现强度、关联强度的指标的基础上,通过多重对应分析进一步考察其类型之间在地位与重要性上的相似性和差异性(见下页的图4)。其中,第3类(图书与农植)与其他类都具有很大的距离;第4(社会、政治与生活)、7(林园种植)、8(教育、艺术、科技、军事)、第13(经济)类比较接近;第9(印度、尼泊尔与佛教文化)、10(国际)、11(中国少数民族文化)类比较接近;第2(中国大城市及韩、日)、15(西藏)类比较接近;第6(中国书画)、14(蜜蜂)类高度接近;第1(佛教神祇)、5(欧洲城市与文化场所)、12(泰姬陵)类高度相近。

图3 各类在国际社交媒体中的关联强度

图4 基于呈现程度对各类型内容的多重对应分析

结合前文关于呈现程度各指标数据,中国文化内容在国际社交媒体的传播主要有以下六个特征类型。

其一是高呈现规模、高呈现强度、高关联强度的内容,这以第3类为代表,它具有很强的传播综合效能。

其二是高呈现强度、高关联强度但其呈现规模未必都高的内容,这包括第4、7、8、13类,它们具有强中心性和辐射力,也是显著的文化“议程”,其内容涉及教育、艺术、科技、军事、经济、社会、政治、生活等广泛的和重要的方面,可见中国文化的国际社交媒体传播仍以这些“泛文化”与“大文化”内容为主要议程。

其三是呈现强度中等、关联强度居于中等的内容,包括第9、10、11类,它们主要是和国际以及周边国家相关的文化内容,体现了中国文化与国际范围内的文化交往虽逐渐升温,但仍有待继续加强。

其四是呈现规模很低、呈现强度中等、有一定关联强度的内容,包括第2、15类,它们涉及韩、日等来往密切的近邻以及我国边疆地区。它们虽然在传播规模上很弱,但是具有尚可的呈现强度,与其他类的关联强度处于中等偏低的水平但仍有一定的关联度,特别是与自身的呈现规模相比,其辐射效能和影响力值得“防微杜渐”地关注。

其五是呈现规模、呈现强度、关联强度都比较低但是词的区分度高,包括第6和第14类,这些类中的词平均词频比较高,但是作为特征词所在的行与之相比则处于悬殊的低位,也即在相对少数的帖子中密集出现。值得注意的是,属于中国独特的传统文化的中国书画类内容,尽管其内容区分度较高,但是它的呈现规模、呈现强度以及关联强度都比较低,这显示出其影响力的欠缺,是我国在今后的文化战略和文化“走出去”中需要加以改进的。

其六是呈现规模、关联强度都很低但是词的区分度很高,包括第1、5、12类,它们在所采集的所有帖子文本中出现的很少,与其他类的关联很非常微弱,但是词的平均出现频次和作为行特征词的频次的比值很高,也即这些词在少部分的帖子中高度密集地出现,这部分涉及到佛教神祇、一些欧洲小城市与文化场所、泰姬陵等文化元素,具有鲜明的区域性和特色性。

结 语

围绕论文开头提出的问题,本研究通过社交媒体的文本挖掘以及聚类等定量分析的手段进行了分析。

在类型的分布特征上,呈现规模最高的主要是图书与农植类、教育、艺术、科技、军事类和社会、政治与生活类;呈现强度高的有图书与农植类以及社会、政治与生活类等;关联强度高的有图书与农植类、教育、艺术、科技、军事类、社会、政治与生活类、经济类等。对于我国文化通过社交媒体的“走出去”而言,需要强调和突出呈现强度和关联强度高、具有高影响力和中心性的内容,注重具有国际社交媒体议程效力的“泛文化”与“大文化”传播,加大与周边国家以及国际传播范围内的文化交往和文化互动,及时防范和化解与跨文化语境中的文化误解和偏误形象,注重边陲地区和少数民族文化在国际公共领域的影响,着力切实扩大中国传统和特色文化元素的呈现规模及其影响力,并注意打造与培育具有鲜明识别度的中国区域性文化内容和文化符号。

[1]冯辉.关于文化的分类[J].中州大学学报,2005,(4):40-41.

[2]钟敬文.关于文化建设问题的一点意见[G]//钟敬文,等.东西方文化研究:1987年第一辑.郑州:河南人民出版社,1987:11.

[3]吴瑛.孔子学院与中国文化的国际传播[M].杭州:浙江大学出版社,2013:20.

[4]吴瑛.中国文化对外传播效果研究——对5国16所孔子学院的调查[J].浙江社会科学,2012,(4):144-151.

[5]陈序经.文化学概观[M].长沙:岳麓书社,2009:280-281.

[6]刘雪.文化分类问题研究综述[J].岱宗学刊,2006,(4):9-11.

[7]李树榕.怎样为文化资源分类[J].内蒙古大学艺术学院学报,2014,(3):10-14.

[8]王文杰.文化走出去[M].北京:人民日报出版社,2013.

[9]乌丙安,向云驹,潘鲁生,赵屹.中国民间文化分类[J].中国民族,2003,(5):21-22.

[10]杜献宁,杨英法,李文华.文化分类之我见[J].电影评介,2006,(18):104-105.

[11]DAUOHUE J C.Understanding Scientific Literatures:A Biblio Metric Approach[M].Cambridge:The MIT Press,1973:49-50.

[12]钟伟金,李佳.共词分析法研究(二)——类团分析[J].情报杂志,2008,(6):141-143.

[13]钟伟金.共词聚类分析法的类团实例研究[J].中华医学图书情报杂志,2009,(2):48-53.

Chinese Culture in International Social Media and Its Characteristics of Types:An Empirical Study Based on Web Mining

XU Xiang
(College of Arts and Media,Tongji University,Shanghai 201804,China)

The rise of global social media provides new space and opportunities to the international cultur⁃al communication and Chinese cultural outgoing,and also brings new changes and challenges.This study used software and program including crawler and ROST,VBA,and sampled tens of posts which consisted of more than fifty million characters,by means of quantitative mining such as co-word and clustering analysis,to ana⁃lyze the composition of Chinese cultural content in international social media and its characteristics of scale,intensity and correlation intensity in spreading.On this basis,it attempts to provide empirical basis and coun⁃termeasures for enhancing the international communication of Chinese culture in the new context of global so⁃cial media.

social media;Chinese culture;international communication;co-word clustering

G206.3

:A

:1009-1971(2017)02-0059-09

[责任编辑:郑红翠]

2016-12-10

国家社科基金项目“中国文化对外社交媒体传播机制研究”(13CXW050);上海市社科规划项目“中国城市国际社交媒体传播效果优化研究”(2014FXW001)

徐翔(1983—),男,江西上饶人,副教授,博士,同济大学全球城市文化传播中心研究员,从事网络传播研究。

猜你喜欢

特征词词频帖子
基于类信息的TF-IDF权重分析与改进①
基于改进TFIDF算法的邮件分类技术
产品评论文本中特征词提取及其关联模型构建与应用
25年来中国修辞研究的关键词词频统计*——基于国家社科与教育部社科课题立项数据
暴力老妈
词频,一部隐秘的历史
面向文本分类的特征词选取方法研究与改进
以关键词词频法透视《大学图书馆学报》学术研究特色
汉语音节累积词频对同音字听觉词汇表征的激活作用*
高手是这样拍马屁的