词频，一部隐秘的历史

2015-05-14岑嵘

读者·校园版 2015年7期

岑嵘

早在2002年，谷歌就有了一个类似的将“全世界无产者联合起来”的理想，这个理想就是把全世界的数字图书馆项目统一起来，谷歌由此开启了Google Print项目。

到2010年，谷歌已经扫描了1500万册书，这时谷歌决定将已经扫描过的书的某些统计结果公开，这便是Google Books Ngrams。也就是说，书的内容不一定公开，但关于书的词频统计结果可以公开。输入任意一个词语，都会出来一幅像股票价格走势一样的词频走势曲线图。

当我们输入“市场”和“价格”这两个词语后，会发现“价格”词频走势的第一个高点出现在1955年，然后就一个猛子扎进海底;到了1967年，这个词语几乎消失在词语的海洋中;然而在1976年，这个词语以45度角的姿态重新跃出水面，向上飞腾。

而“市场”这个词的词频走势表现更让人惊叹，它的曲线在20世纪40年代只是有一些小的波动，和“价格”一样，它在1976年左右猛然爆发，但是它的体量更加惊人，仿佛一头座头鲸，并且以接近90度角的势头向上攀升，如同一支射出的箭，到了1997年才到达顶点开始回落。

如果输入“国家”和“个人”这两个词，我们会发现“国家”这条词频曲线总是远远高于“个人”这条曲线。从1970年到1990年，“国家”的词频曲线一路上扬，而“个人”的词频曲线则波澜不惊，呈现出一条几乎和横坐标轴平行的曲线。

当我们将词语换成“黑暗”和“光明”时，得到的词频曲线和词语本身的文学性一样复杂，“黑暗”和“光明”互相纠缠，彼此追逐。1964年到1971年间，“光明”获得了短暂的胜利，把我们带到这一段“阳光灿烂的日子”，然而有意思的是，在1972年“黑暗”超过“光明”之后，虽然彼此一直很接近，但“光明”再也没有冲破“黑暗”。

我们来看看“腐败”和“廉洁”的词频曲线吧。“廉洁”这个词一直是躺在“地平线”上，从20世纪80年代开始抬头向上攀缘，而“腐败”的个词频曲线则野性十足，从1984年到1998年经历了第一轮波澜壮阔的“牛市”，指数从2000点一直上涨到9000点，一路上扬势不可当，从1998年到2002年经过短暂的调整以后，2003年以更加凌厉的速度继续上攻，轻松突破1万点。

“敌人”和“伟大”这两个词的词频曲线从1940年开始飙升，在1974年同时达到最高峰后一路下滑，到了2004年，近9成的“敌人”被消灭，“伟大”也缩水了8成。

最后，我们来说说“人民”“群众”和“公民”吧。“人民”的词频曲线从1945年笔直上扬，整个图形像青藏高原一样壮观，而“群众”的词频在20世纪50年代到70年代也颇具规模，只有“公民”就像在山脚下修建的一条小路，低调而含蓄。

那些如恒河沙数般的词汇正静悄悄地躺在电脑磁盘中，这些词汇将为我们揭示出一部部隐秘的历史。