词频,一部隐秘的历史
2015-05-14岑嵘
岑嵘
早在2002年,谷歌就有了一个类似的将“全世界无产者联合起来”的理想,这个理想就是把全世界的数字图书馆项目统一起来,谷歌由此开启了Google Print项目。
到2010年,谷歌已经扫描了1500万册书,这时谷歌决定将已经扫描过的书的某些统计结果公开,这便是Google Books Ngrams。也就是说,书的内容不一定公开,但关于书的词频统计结果可以公开。输入任意一个词语,都会出来一幅像股票价格走势一样的词频走势曲线图。
当我们输入“市场”和“价格”这两个词语后,会发现“价格”词频走势的第一个高点出现在1955年,然后就一个猛子扎进海底;到了1967年,这个词语几乎消失在词语的海洋中;然而在1976年,这个词语以45度角的姿态重新跃出水面,向上飞腾。
而“市场”这个词的词频走势表现更让人惊叹,它的曲线在20世纪40年代只是有一些小的波动,和“价格”一样,它在1976年左右猛然爆发,但是它的体量更加惊人,仿佛一头座头鲸,并且以接近90度角的势头向上攀升,如同一支射出的箭,到了1997年才到达顶点开始回落。
如果输入“国家”和“个人”这两个词,我们会发现“国家”这条词频曲线总是远远高于“个人”这条曲线。从1970年到1990年,“国家”的词频曲线一路上扬,而“个人”的词频曲线则波澜不惊,呈现出一条几乎和横坐标轴平行的曲线。
当我们将词语换成“黑暗”和“光明”时,得到的词频曲线和词语本身的文学性一样复杂,“黑暗”和“光明”互相纠缠,彼此追逐。1964年到1971年间,“光明”获得了短暂的胜利,把我们带到这一段“阳光灿烂的日子”,然而有意思的是,在1972年“黑暗”超过“光明”之后,虽然彼此一直很接近,但“光明”再也没有冲破“黑暗”。
我们来看看“腐败”和“廉洁”的词频曲线吧。“廉洁”这个词一直是躺在“地平线”上,从20世纪80年代开始抬头向上攀缘,而“腐败”的个词频曲线则野性十足,从1984年到1998年经历了第一轮波澜壮阔的“牛市”,指数从2000点一直上涨到9000点,一路上扬势不可当,从1998年到2002年经过短暂的调整以后,2003年以更加凌厉的速度继续上攻,轻松突破1万点。
“敌人”和“伟大”这两个词的词频曲线从1940年开始飙升,在1974年同时达到最高峰后一路下滑,到了2004年,近9成的“敌人”被消灭,“伟大”也缩水了8成。
最后,我们来说说“人民”“群众”和“公民”吧。“人民”的词频曲线从1945年笔直上扬,整个图形像青藏高原一样壮观,而“群众”的词频在20世纪50年代到70年代也颇具规模,只有“公民”就像在山脚下修建的一条小路,低调而含蓄。
那些如恒河沙数般的词汇正静悄悄地躺在电脑磁盘中,这些词汇将为我们揭示出一部部隐秘的历史。