基于Google Books的百年传播学史的文化组学研究*
2018-06-08王国燕沈佳斐
■ 王国燕 沈佳斐
一、导论:大数据、Google Books与文化组学
大数据时代的到来,为人文社会科学的量化实证研究提供了更多可能。2011年Science上发布了关于Google Books的封面文章并推出同一系列的3篇论文,从概念、意义到实证层面宣布刚建成的谷歌数字图书馆对人类文化历史定量研究的重要价值,并提出文化组学(culturomics)的概念和方法。这是一个由“文化(culture)”和“基因组学(genomics)”组成的合并词,社会学家让·巴蒂斯特·米歇尔及其合作者对其定义为:文化组学是指通过大规模数据文本的量化分析,对人类文化行为和历史趋势展开计算词汇学的研究方法。米歇尔等人通过对谷歌数字图书馆扫描的500万本历史图书数据进行数据分析与挖掘,采用多元词汇Ngram分析,通过特定语言和词汇在人类文明史上的出现频率的检索测试出人类文化演变的趋势①。谷歌图书大数据的到来,使得有学者感慨传统历史学家快丢掉饭碗了②。
许多未知事件通过媒介大数据信息可以进行很好的预知。美国东北大学巴拉巴西教授等人(Albert-László Barabási)通过对匿名移动电话用户的活动模式进行研究,发现人类93%的行为是可被预测的③。在文化组学2.0项目中利塔如(Kalev H.Leetaru)通过对媒体信息与印刷品的数据库分析,成功预测了2011年的“阿拉伯之春”事件,以及本·拉登(Osama Bin Laden)的生前藏身地阿伯塔巴德(Abbotabad),而且误差仅在半径124英里范围内④。作为一种长时域序列分析工具⑤(谷歌图书语料库的访问工具,根据输入内容生成时间序列趋势图⑥),在最近几年间,谷歌数字图书馆的词频分析视窗Google Ngram Viewer通过对海量书籍中文字内容的分析,已在人文社科的多个领域进行了初步探索与研究。在心理学领域,国际上有像奥什(Oishi S.)等人探寻了幸福概念中的文化和历史变迁⑦,国内也有像曾荣等人探讨了中国文化价值观的变化以及价值观与生态转变(城市化、经济发展和高等教育招生)之间的关系⑧;在经济文化方面,国际上有像本特利(Bentley R.A.)等人对于20世纪美国经济大萧条与悲观性词汇之间的相关性研究⑨,国内也有像陈云松等人研究了20世纪宏观经济条件与公众对社会阶层认知的关系⑩;还有像博汉农(Bohannon J.),卡斯伯(Kesebir P.),蒙塔涅(Montagne M.)等人进行了多领域、多方面的详尽论述。而在传播学领域,本文是基于谷歌数字图书馆对于传播学的首次文化组学分析研究。
人类知识信息总量的指数级增长,为大数据时代奠定了实质基础,技术的不断演进掀起了大数据量化研究的热潮。一些学者用“V”的概念将大数据的特点归纳为数量(Volume)、速度(Velocity)、类型(Variety)、价值(Value)与准确(Veracity)。从苏美尔泥石板至今,人类已“出版” 7.5亿篇论文和文章,2500万首歌曲,5亿张影像,50万部电影,300万部录像、电视节目和短片以及1000亿个公共网页。随着互联网等技术在各领域的快速发展运用,海量数据正在被不断生成,今天度量数据存储的大小已经到了Tb级和Pb拍级,甚至到了Eib艾级(2的60次方)。
庞大的数据信息见证了人类发展史上的演变,信息科学更是为揭示信息内容背后的客观规律打开大门。文字内容作为承载人类历史信息的主要形式,其中的许多词汇已被传承了几百年甚至上千年,书籍作为文字所依附的载体,更是体现了从个人层面(作者)到群体层面的文化变迁(人类语言的使用趋势)。因此,书籍的信息数据计算分析在近十年得到了不断的推进,国际上有像谷歌、雅虎、Ask与MSN这样的搜索引擎开始对书籍进行数字化,数以千万计的图书被扫描后存储在数据库中,并且通过搜索技术可抓取或阅读任何已扫描的图书文本。在中国也有像超星这样的公司,更是在早期就建立起了数字图书馆以及提供数字化服务。书籍背后所蕴藏的大量数据信息对于社会文化的量化研究具有重要的意义。
谷歌在2004年法兰克福书展上启动了谷歌图书馆计划,试图扫描自古登堡印刷术发明以来全世界所有的印刷书籍,同时,其也整理了保留至今的所有图书清单共计1.3亿本,其中排除了已被焚毁的曾经世界最大的亚历山大图书馆。随着该庞大语料库的发展推进,很快燃起了数字人文学科黄金时代的希望,它将打开历史文化的新篇章。2011年,米歇尔(Jean-Baptiste Michel)等人基于500多万种(5195769种)扫描质量较高图书的语料库,在《科学》杂志上发表了题为《使用百万数字化书籍的文化定量分析》(Quantitative Analysis of Culture Using Millions of Digitized Books)的重要论文。截至2012年7月谷歌语料库最新版(继2009年7月后第2版),谷歌已对超过3000万种书籍进行了扫描识别,占到现存所有历史图书的23%。其中可供全文检索分析的达到800多万种(8116746种),词汇量高达8613亿,且语料库还将被继续更新。新版谷歌图书语料库时间跨度从1500年至2008年,从早期的几十年每年只有几本书数十万字,到1800年,语料库就增长到每年9800万字,到1900年达到18亿,再到2000年的110亿,人类知识信息的体量与日俱增。因此,Google 数字图书馆庞大的谷歌语料库为洞察百年文化变迁提供了可能,其也是目前为止最大的数字化图书数据库。
二、方法:Google Books在传播学中的应用与检索设置
大数据在社会学科中的运用越来越广,正在使传统的实证研究发生着重大变化,这一趋势验证了哈佛大学加里·金(Gary King)早在2009年的预言。书籍作为人类历史文化思想的重要载体,其背后的大数据不仅反映书籍作者个人的观点,更能体现一群有影响力人的价值观与思想态度的变化,以及阅读群体的兴趣偏好,这些语言文字信息反映了整个社会群体的思想体系。对数个世纪海量书籍的数字化,通过关键词的词频(给定年份中关键词的实际数除以该年份中语料库的总数)计算分析,可以折射出其相关方面的文化趋势并进行定量研究,这被认为是最简单、最公正的方式。本文依据谷歌图书千亿级语料库,对传播学关键词进行词频分析,以更加直观的形式来展现传播学发展至今的内在变化趋势与规律。
在Google图书馆推出的词频浏览视窗“Books Ngram Viewer”中,可以图示形式显示选定年间图书中的词频趋图。谷歌因在快速推进图书数字化的过程中,受到了版权问题的困扰,尤其是美国1998年的《版权期限延长法案》(Copyright Term Extension Act),将版权延长至作者去世之后70年。这使得阅读图书全文需要得到授权或者付费。但“Books Ngram Viewer”并不直接提供图书全文,而通过全文检索分析得出词频数据,从而回避了版权问题。谷歌将其语料库中海量的文本进行切分、断句创建单独的记录,在计算机科学中将其称为n元词组(n-gram),例如“communication”为1元词组,“big data”为2元词组,“Google Ngram Viewer”则为3元词组,该工具最多支持5元词组的检索,同时词组只有在当年语料库中出现超过40次才会有数据点,否则将被忽略不计,这既有利于最终数据分析图的简洁明了,又有助于提高关键词的精度,排除低频词的影响。在检索过程中,允许同时检索对比12组关键词,每组关键词之间用英式逗号隔开,且关键词能够区分大小写,对于不区分大小写形式的关键词数据点合集采用(ALL)的形式加以辨别,支持英语、汉语、法语、德语、希伯来语、意大利语、俄语、西班牙语8种语言的检索。针对检索结果,可对曲线进行平滑处理,以1900年平滑3为例,意味着1900年显示的数据为其前后各3年原始数据一共7年的平均值(1897、1898、1899、1900、1901、1902与1903的均值)。
在关键词的选取上,本研究主要参考了胡翼青的《西方传播学术史手册》、董璐的《传播学核心理论与概念》、周庆山的《传播学概论》、李正良的《传播学原理》、段鹏的《传播学基础:历史、框架与外延》与张迈曾的《传播学引论》等工具书与教科书,并未选用传播学理论专著,原因在于:一是教科书相对于传播学著作要少得多,而且条目结构归类更为明确,有利于关键词的选取定位。二是教科书对于学科的理论基础知识归纳更为清晰,提炼更为精简,有利于关键词信息的梳理总结。在语料库的语种选择上,英语作为近百年来国际通用语言,词汇量接近5000亿,远超其他语种,对于西方的知识体系具有足够的代表性,因此本研究选用英语语料库作为分析对象。在时间跨度的选取上,考虑到传播学诞生于20世纪初期,我们将检索时间选取在1900至2000年,而Google Ngram Viewer的时间跨度为1500-2008,未取到2008年原因在于:一是Google在2000年后调整了选取书籍的方法,易使样本的统一性受到破坏,样本分布出现偏差。二是2000年之后,谷歌图书语料库还在对2000年之后的图书进行更新数字化,样本不具有一定的代表性。同时将平滑参数设为默认值3,这使得生成的文化转变图像看上去更像我们日常生活中熟悉的经济现象趋势图,更加美观。
三、大数据背后传播学发展历史分析与讨论
1.传播媒介受技术发展推动呈多元化、多感官形式发展
20世纪,人类社会政治、经济、技术等多方面因素发生形式变革,对于传播学的形成与发展产生了巨大影响,同时在传播过程中承载信息的重要物质工具——传播媒介,其也在不断进行着更替与丰富,从传统的印刷媒介发展到电子媒介再到如今的新媒介,信息内容传播的时效性越来越强,传播的覆盖面越来越广,加速了信息时代的到来。
随着媒介形式的不断多样化,信息内容的获取不再掌握在少数人的手中,更大的社会需求反之也在不断催生着新媒介的产生,这一过程同时也见证着人类技术文明的发展史。从印刷术的发明到电子技术的出现再到计算机的网络互联,图1A中比较了印刷媒介(书籍、报纸、杂志)、电子媒介(广播、电视、电影)与新媒介(互联网)八种较为常见的传播媒介形态,可见:一是书籍仍然是人们传播信息、获取信息的的主要媒介,是最重要的载体,并且长期处于相对稳定的状态。二是除了电报呈现衰弱趋势外,其余传播媒介形态按目前的发展还未出现某种媒介取代另一种媒介的现象。从语言、文字的产生到印刷术的出现,人类经历了早期较为重要的传播媒介形态的飞跃,以报纸为参考,比较在第四次媒介革命中出现的广播和电视,以及第五次媒介革命中的互联网之间的发展状况(图1B),几乎出现于同一时期的广播(听觉)一开始发展迅猛,后期逐渐被电视(听觉、视觉)超越,在信息的传播过程中,从单一的听觉到更加直观的视觉感官加入,传播媒介丰富了人获取信息的通道。直到更加多元化的互联网媒介出现,其在20世纪后期表现出强劲的生命力,也有人预言:“以互联网为主体的新媒介将取代传统媒介”,这在本研究中还未能看到互联网的鼎盛时期,同时之前的其他媒介也未都表现出衰退趋势,还需时间的检验。而每一次新媒介形态的出现都带来先前媒介的震荡下调,并最终形成各种主要媒介的差异化功能定位,从而找到自己无法被取代的生存价值。
图1 传播媒介发展变化趋势图
图左上角数字(1e-4=10-4)是词频的单位,表示每10000万本书中关键词被提及的次数,即当年出版的所有新书中被检索到的百分比,下同。
2.传播学代表人物的影响力与其政治地位具有正相关性且成名年限在不断缩短
传播学自从最早在美国孕育诞生以来,百年的历史发展脉络中已形成众多流派,其中主要以美国学者为主的经验学派和以欧洲学者为主的批判学派,在众学派中也不断涌现出众多传播学大家,对于传播学的发展起到了至关重要的作用。
1980年,施拉姆(Wilbur Schramm)在《美国传播研究的开端》(The Beginning of Communication Study in America)一文中高度评价了传播学的四大奠基人:拉斯韦尔(Harold D.Lasswell)、勒温(Kurt Lewin)、拉扎斯菲尔德(Paul F.Lazarsfeld)、霍夫兰(Carl I.Hovland),而施拉姆也成为了传播学的集大成者,这是目前最为公认的为传播学做出重要贡献的五位代表人物。对他们进行词频检索(图2A)分析发现:(1)勒温在与其他四位代表人物相比下,影响力长期居于领先地位。(2)五位代表人物的名气顶峰时期均位于1970年左右。从所做的贡献来看,五位代表人物对于传播学的形成与发展起到了重要的作用,给后期的传播学者开辟了道路,为传播学服务于社会做出了巨大贡献,具有深远的影响。而在整个传播学发展史过程中,五位代表人物的名气并非是最高的。在统计的60位与传播学有关的西方代表人物中(限于篇幅未能将全部代表人物罗列展示),有李普曼(Walter Lippmann)与麦克卢汉(Marshall McLuhan)等人的社会影响力已远超五位先驱(图2B)。李普曼的影响力从20世纪早期至2000年间共出现过两次较大的峰值,分别为1942年与1964年,而麦克卢汉的影响力峰值出现在1971年,从两人的个人经历来看,政治地位的变化可鲜明地反映出其在学术上的影响力:1942年,李普曼的才能受到了戴高乐(Charles André Joseph Marie de Gaulle)以及丘吉尔(Winston Leonard Spencer Churchill)的赏识,成为了座上宾。1958年、1962年两次获得普利策奖后,于1964年又受到约翰逊(Lyndon Baines Johnson)总统授予的自由勋章,达到影响力的顶峰。麦克卢汉在1968年成为了加拿大总理特鲁多(Pierre Elliot Trudeau)的顾问,并在两年后达到了影响力的顶峰。历史上更有诸如纳粹党统治时期的一些学者与艺术家,其命运直接受到了政治变革的决定。
图2 传播学代表人物影响力变化趋势与成名年限图
随着传播渠道不断增加,传播效率不断提升,传播覆盖面不断拓宽,传播学代表人物的学术影响力也在被不断扩大。在60位主要代表人物中,排除无检索结果和与其他领域同名的学者,对剩余57位代表人物进行出生、逝世、影响力顶峰年代统计发现(图2C):传播学代表人物的成名年限(成名年限=影响力峰值年-出生年)越来越短,且越来越能在其生前看到自己最具影响力的时刻。这一结果也验证了艾登(Erez Aiden)和米歇尔(Jean-Baptiste Michel)的研究成果。
3.传播类型的发展带有政治因素的倾向性
广义的传播学具有十分宽泛的概念,包含了人类一切的传播行为。而随着人类社会的日益健全、完善,功能系统划分愈发多样,政治、经济、科学、艺术、宗教、健康等领域构成的人类社会变得更加复杂化,传播学的研究领域也愈发细分化。
根据不同的研究对象与标准,传播被划分出不同的类型,而这种分类事实上也因人类社会信息的复杂性变得不可统计,不同的传播类型之间又存在着相互交叉、相互渗透的关系,只能依据不同的研究需求结合现存状态来进行列举式的分类。图3A中列举了目前词频比例较高的前十种传播类型,可见:大众传播在众多传播类型中占据了主导地位,是传播研究中的重要分支、研究热点。“大众传播”这一概念第一次出现于1945年11月在伦敦发表的联合国教科文组织宪章中,拉斯维尔等人也在1946年把传播研究作为一个专门的领域,在其著作《宣传、传播与舆论》中第一次明确提出“大众传播学”的概念。词频图很好地呈现了大众传播的地位与发展。按照传播范围与规模的“五分法”分类标准,人们通常把传播分为内向传播、人际传播、群体传播、组织传播、大众传播五大类,而从应用的角度来研究传播活动,可从政治、经济、文化与科技等方面来比较,如国际传播、广告传播、文化传播和科技传播四大传播类型,国际传播在其中占据着重要地位,它是“国家之间以及非政府组织、国际组织等国际信息与文化的交流和传播活动”,该领域的发展与各国家利益密切相关,带有鲜明的政治色彩与意识形态倾向。图3B显示出视觉传播成为了极具影响力的传播形态,同时科学技术的不断发展是一把双刃剑,使得危机传播、健康传播等成为了热点传播主题。这些应用传播类型的发展变化与科学技术的驱动密不可分。
4.传播理论的研究投入中早前的传播效果研究占据重要地位
针对传播学研究的问题,其主要对象是受众,受众在传播学的百年发展过程中角色在不断发生着变化,同时媒体的角色也在进行着转变,信息内容传播的效果同样在不断被界定衡量,这一过程中传播学众多理论也如雨后春笋。
从早期的魔弹论认为,受众在宣传(传播)面前毫无抵抗力的被动态势,到后期的使用与满足理论认为,受众对于传播信息的使用由其得到何种满足决定的主动态势。有从媒体传播效果出发,有限效果理论中媒介拥有极小影响的弱效果,而强大效果理论中恰当的传播技巧在恰当的环境中,传播可发挥巨大影响的强效果。图4A中列举了十种最为常见词频较高的传播理论,从中可见:(1)议程设置理论在众多理论中占据着绝对的优势,在1989年后成为研究的热点。(2)传播理论的盛行诞生主要集中在20世纪六七十年代。从传播效果的研究上看其与传播学本身的发展近乎同步,从20世纪初至现在大致经历了从魔弹论到有限效果论再到适度效果论以及后期的强大效果论四个阶段。有限效果论的出现推翻了魔弹论的不可抵抗性,适度效果论又对有限效果论的矫枉过正进行了修饰,强大效果论则以一种更加理性的角度来审视传播的力量,而这些理论的出现并未彻底取代前者,恰恰相反早前效果理论的研究热度高于后期的理论(图4B),适度效果论与强大效果论的研究热度长期低于魔弹论与有限效果论。传播效果的大小在一定程度上影响着研究者研究领域的大小,在对传播效果的不断探索与投入中,回顾总结前期理论的利弊在无形中提升了其研究热度。
图3 传播类型研究热点分布图
图4 传播理论研究热点分布图
四、结语
大数据时代,人类已经进入信息社会,传播学的发展也将迎来新的契机。传播媒介的多元化、多感官形式使信息的传播更加直接明了,受科学技术发展的推动;每一次新媒介形态的出现都带来先前媒介的震荡下调,并最终形成各种主要媒介的差异化功能定位,从而找到自己无法被取代的生存价值;传播学代表人物的成名年限在不断缩短且其影响力与政治地位成正相关;传播类型的发展也带有浓厚的政治因素倾向性;传播理论的早期效果研究占到了大部分的研究投入。整个传播学的发展趋势与科学技术紧密相连,与政治因素息息相关。
通过谷歌数字图书对于传播学的文化组学分析,有助于站在一个更加直观的角度来审视传播学的历史与发展变迁,了解其过去内部规律以及探索未来更多的可能趋势。充分将大数据的优势运用于传播学中,更能焕发其无限生机。
注释:
② [菲律宾]尼克:《计算历史学:大数据时代的读书》,载于吕大年、高峰枫主编:《六合丛书:哲学评书》,浙江大学出版社2014年版。
③ Song C.& Barabási A.L.LimitsofPredictabilityinHumanMobility. Science,vol.327,no.5968,2010.p.1018.
④ Leetaru K.Culturomics2.0:ForecastingLarge-ScaleHumanBehaviorUsingGlobalNewsMediaToneinTimeandSpace.First Monday,vol.16,no.9,2011.
⑤ Klein J.L.StatisticalVisionsinTime:aHistoryofTimeSeriesAnalysis,1662-1938. New York,NY:Cambridge University Press.1997.p.372.
⑥ Manovich L.Trending:ThePromisesandtheChallengesofBigSocialData.in Gold,M.K.,ed.,Debates in the Digital Humanities,Minneapolis:The University of Minnesota Press.2012.
⑦ Oishi S.,Graham J.,Kesebir S.,et al.ConceptsofHappinessAcrossTimeandCultures.Personality & Social Psychology Bulletin,vol.39,no.5,2013.pp.559-577.
⑧ Zeng R.& Greenfield P.M.CulturalEvolutionOvertheLast40YearsinChina:UsingtheGoogleNgramViewertoStudyImplicationsofSocialandPoliticalChangeforCulturalValues. International Journal of Psychology Journal International De Psychologie,vol.50,no.1,2015.pp.47-55.
⑨ Bentley R.A.,Acerbi A.,Ormerod P.,et al.BooksAveragePreviousDecadeofEconomicMisery. Plos One,vol.9,no.1,2014.e.e83147.
⑩ Chen Y.& Fei Y.EconomicPerformanceandPublicConcernsaboutSocialClassinTwentieth-CenturyBooks. Social Science Research,vol.59,2016.p.37.