词频,一部隐秘的历史
2015-06-18岑嵘
岑嵘
早在2002年,谷歌就有了一个类似“全世界无产阶级联合起来”的理想,这个理想就是把全世界的数字图书馆项目统一起来,谷歌由此诞生了GooglePrint项目。
到2010年,谷歌已经扫描了1 500万册书,这时谷歌决定将已经扫过的书的某些统计结果公开,这便是Google BooksNgrams。也就是说,书的内容不一定公开,但关于书的词频统计结果可以公开,只要输入任何词语,都会出来一个像股票价格一样的词频走势曲线图。
当我们把“市场”“价格”这两个词语输入后,会发现“价格”的第一个高点出现在1955年,然后像鱼一般一个猛子扎了下去,到了1967年,这个词语几乎消失在词语的海洋中,然而在1976年,这个词语以45度角的姿态重新跃出水面,向上飞腾。
而“市场”这个词的表现更让人惊叹,从1940年开始只是一些小的波纹,和“价格”一样,它在1976年左右猛然爆发,但是它的体量更加惊人,仿佛一条座头鲸,并且以接近90度角的姿态向上攀升,如同一支射出的箭,到了1997年才到达顶点开始回落。
如果把“国家”“个人”这两个词输入,我们会发现,“国家”这条曲线总是远远高于“个人”。从上世纪70年代到90年代,“国家”曲线一路上扬,而“个人”曲线则波澜不起,呈现出几乎和横坐标平行的曲线。
当我们将词语换成“黑暗”和“光明”时,得到的曲线和词语本身的文学性一样的复杂,“黑暗”和“光明”互相纠缠,彼此追逐。1964年到1971年间,“光明”获得了短暂的胜利,把我们带到这一段“阳光灿烂的日子”,然而有意思的是,在1972年“黑暗”超过“光明”之后,虽然彼此都很接近,但“光明”再也没有冲破“黑暗”。
我们来看看“腐败”和“廉洁”吧。“廉洁”这个词一直是躺在地平线上,从上世纪80年代开始抬头向上攀缘,而“腐败”的词频曲线则野性十足,从1984年到1998年经历了第一轮波澜壮阔的牛市,指数从2 000点一直上涨到9 000点,一路上扬势不可当,从1998年到2002年,经过短暂的调整以后,2003年以更加凌厉的幅度继续上攻,轻松突破一万点。
“敌人”和“伟大”这两个词从1940年开始飙升,在1974年同时达到最高峰后一路下滑,到了2004年,近九成的“敌人”被消灭,“伟大”也缩水了八成。
最后,我们来说说“人民”“群众”和“公民”吧,“人民”从上世纪40年代中期笔直上扬,整个图形像青藏高原一样壮观,而“群众”在上世纪50年代到70年代也颇具规模,只有“公民”像这些山脚下修建的一条小路,低调而含蓄。
那些如恒河沙数般的词汇正静悄悄地躺在电脑磁盘中,这些词汇将为我们揭示出一部隐秘的历史。
编辑/王一鸣endprint