语言大数据迷思

2020-02-21郑锦全

语言战略研究 2020年5期

郑锦全

（美国伊利诺大学荣退教授，台湾师范大学讲座教授）

过去数十载，学界使用电脑处理语言资料，提炼出人类语言活动的规律。研究过程中大家面对浩瀚的原始资料，希望能建立更大的语料库。例如崔希亮、张宝林《全球汉语学习者语料库建设方案》一文（《语言文字应用》，2011年第2期），提出建构全球汉语学习者中介语大语料库的设想。2012年美国科技业关注大数据资源的流通与应用。中文计算机学界的响应是如何把大量资料以“词向量”计算法列出词语在中文文本中与临近词语出现的关系，例如2018年腾讯人工智能实验室发文《开源大规模高质量中文词向量数据，800万中文词随你用》。这样的大数据能给语言学界提供什么样的新的研究领域并不明显。

我个人近年关注的问题是如何衡量古今汉语的异同，如果单以词语的有无来考察，是无法显示不同时期或体裁差异的，例如“之”，古今都用，但是古代用“之”的有些语境，现在白话文用“的”。所以古今汉语比较，需要有断词的文本，才能探究词语的属性。近年我研究所用的语料包括台湾“中研院”典藏的上古汉语文本，取自秦汉（公元3世纪以前）的传世文献，有断词和词类语法标记，一共111 000多个词；唐诗三百首（公元7世纪至公元10世纪），有断词，无词类标记，一共有11 000多个词；宋词三百首（公元10世纪至公元13世纪），有断词，无词类标记，一共有13 000多个词；近代汉语文本包括唐五代到清代的作品，例如《水浒传》、《红楼梦》等，一共有2 865 000多个词；现代汉语语料包括台湾“中研院”1990年前后分两期建构的文本，有断词和词类标记，前后两期各收大约五百万个词；新闻体裁文本包括北京大学标记的《人民日报》1998年1月份有断词的新闻稿，共约100万个词；台湾“中央通讯社”1991年至2002年每天发布的新闻稿，共约950万个词，有断词标记。

我从这些语料里计算出词语使用的特色，区别特色的关键在于词语在语流中的使用次数，从出现最高的词语往下排列出来，以出现频次最高的15个词的累计频率百分比作为该文本的词汇动态属性。细节请见郑锦全《汉语词汇动态属性与变异》一文（《语言学论丛》，2017年第2期）。通过词汇动态属性能清楚地区别所考查的古代、近代、现代、诗词和新闻稿的异同和近似值。其中，唐诗三百首（3.431）和宋词三百首（3.327）的属性接近（括号中的数字为词语属性数值，下同）；北京大学标记的《人民日报》1998年1月新闻稿（13.827）和台湾“中央社”发布的新闻稿（12.392），这两个语料库的新闻稿属性接近；现代汉语语料中的后五百万词（15.782）、现代汉语一千万词（16.705）和现代汉语前五百万词（17.712），三者之间的现代汉语属性接近；近代汉语（18.078）类似现代汉语；上古汉语（28.757）则离现代汉语较远。今后应该大量扩展这些语料成为大数据，希望能从中看到更多可以深入研究的理念。