“综合型语言知识库”获国家科技进步奖二等奖
2012-01-27北京大学计算语言学教育部重点实验室
北京大学计算语言学研究所研制的综合型语言知识库(Comprehensive Language Knowledge Base,简称:CLKB)继近几年连续获得政府部门和全国性学术团体的奖励之后,更上一层楼,又获得2011年度国家科学技术进步奖二等奖(证书号:2011-J-220-2-02)。第一完成人俞士汶教授参加了今年2月14日在北京举行的国家科学技术奖励大会。
始于1986年历时26年CLKB 的研发历程大致可划分为3个阶段。第一阶段前10年(1986-1995)的任务是探索奠基,标志是其第一块基石《现代汉语语法信息词典》1998年获教育部科技进步二等奖。第二阶段的中间11年(1996-2006)为构建落成阶段,CLKB于2007年通过教育部组织的技术鉴定并获教育部科技进步一等奖。第三阶段(2007至今)则进一步拓展、深化。在此期间CLKB 于2008年获北京技术市场金桥奖二等奖,于2010年又获中国电子学会电子信息科学技术奖一等奖。
获得国家奖的CLKB包括6个语言知识库、10项规范与标准、4个核心基础软件和4个应用系统,它们相互支撑,形成一个紧密联系的有机整体。语言知识库是CLKB的主体,主要有:(1)现代汉语语法信息词典,(2)汉语短语结构规则库,(3)现代汉语多级加工语料库, (4)多语言概念词典, (5)平行语料库, (6)多领域术语库。CLKB的系列化语言知识库涵盖词、词组、句子、篇章各个语言单位和词法、句法、语义各个知识层面,从汉语向多语言辐射,从通用领域深入到专业领域。
CLKB中的规范和论著被广泛引用,数据资源的免费用户数以万计。自1996年以来的签约用户遍布美、日、德、法、俄、英、韩、瑞典、新加坡和中国大陆、台湾、香港,包括从事相关研究的著名企业、大学和研究所。最近的一项技术转让协议于2012年2月签订。CLKB生命期之长在IT领域实属罕见,而且仍在发展中。
感谢业界先进、同仁和用户长期以来对CLKB的支持和关爱,衷心期望大家继续关注和扶植“综合型语言知识库”。《国家中长期科学和技术发展规划纲要(2006-2020)》将基于自然语言理解的中文信息处理列为前沿技术,昭示了语言信息处理有广阔的发展空间。期望“综合型语言知识库”在以汉语为中心的语言信息处理技术的发展历程中发挥更多、更有效的作用。特别感谢中国中文信息学会和《中文信息学报》对CLKB的支持。《中文信息学报》这块园地为“综合型语言知识库”的成长提供了沃土,有关“综合型语言知识库”的很多论文都在《中文信息学报》上发表。择其要者,介绍CLKB的最新论文《综合型语言知识库及其前景》作为特邀文章发表于《学报》为庆祝中文信息学会成立30周年而组织的专刊(2011年第25卷第6期)上。《现代汉语语法信息词典规格说明书》最先发表于《学报》1996年第2期,为“综合型语言知识库”的问世发出了第一声呐喊。“北京大学现代汉语语料库基本加工规范”在《学报》2002年第5期和第6期上连载,该文又经《学报》推荐,获中国科学技术协会第四届中国科协期刊优秀学术论文奖。此外,十分荣幸,俞士汶教授荣获中国中文信息学会于2011年底颁发的 “终身成就奖”。