APP下载

从数据到语言数据

2022-07-15李宇明王春辉

语言战略研究 2022年4期
关键词:数据库语言

李宇明 王春辉

科学是第一生产力。科学的发展必然会促进生产力的发展,进而也将对生产关系进行相应调整。数字科学并未将自己局限于科学领域,而是以其巨大的科学成就推动人类进入“数字经济”时代。数据不仅是数字科学的核心要素,也嬗变为数字经济的重要生产要素。

在数据作为数字科技和数字经济关键生产要素的时代,“语言数据”必然成为学术研究的热点,成为发展经济争相拥有的对象。在英文语境中,“语言数据”(linguistic data,language data)是近几十年来使用较为频繁的术语,但在中文语境里还是一个较新且较少使用的概念。在网上检索“语言数据”,可见2016年有“语言大数据联盟”的消息,2020年7月有《光明日报》发表李宇明《语言数据是信息时代的生产要素》的文章,之后有上海外国语大学设立“语言数据科学与应用”专业的硕博士学位、成立“语言数据与智慧教育研究中心”的消息,2021年9月有浙江财经大学的“语言数据创新班”招生简章等。

“语言数据”较少见用的原因是:其一,人们已习惯使用“语言材料”“语料(库)”“语言资源”这类说法。其二,“数据”(data)研究者,习惯用“数据”“大数据”这样的上位概念,不需要或不能自觉区分语言数据和其他数据,确需指明时才加“语言”作为限定。其三,本质上是对“语言数据”的重要性认识不足,研究还比较薄弱。

语言数据是以语言符号体系为基础构成的各种数据,内部可以细分为5类。

(1)语言学科数据。指语言符号系统本身的各种数据,如语音、语汇、语法、语篇等,也包括文字、标点符号、音标等。有必要时,还可以将其分别称为语音数据、语法数据、文字数据等。语言学科数据是对语言这一客体进行研究而得到的各种认识,属于语言学知识范畴,辞书、教科书、语言学论文著作等是其通常的贮存方式。

(2)话语数据。也可以称为“言语数据”,指在语言交际中产生的口语和书面语等各种数据。这类数据是语言(文字)作为载体(或主要载体)所负载的各种知识与信息,存在于人类生活、工作、学习、休闲娱乐等各个领域,是语言数据中最为丰富、最为重要的一类。话语数据可以是不同领域的,可以是单语、双语和多语的,可以是平面媒体、有声媒体、网络媒体和融媒体的。

(3)语言衍生数据。涉及语言的社会属性、生存状态、媒介装备等相关数据。比如各语言(文字)的地域分布、母语和第二语言使用人口,各国的国语(或官方语言)及语言能力,各语言的重要文献数量及翻译状况,语言技术水平和语言产业状况,甚至也涉及各语言所拥有的非物质文化遗产、语言社团的综合实力及对人类的贡献等。它是语言在长期社会应用中形成的一系列附属数据,对衡量一种语言的生存状况、判断国际语言格局具有重要意义。

(4)人工语言数据。利用语言(文字)而设计的特殊符号系统,以及运用这些特殊符号而产生的各种数据。比如盲文、手语、电报代码、旗语、灯语等,主要是将文字(或拼音符号)转写为特殊符号,用于特殊人群、特殊场合的交际。在符号转换的过程中,也可加入一些特殊成分,比如手语中就加入了一些自然动作或聋人群体的传统动作。

(5)语言代码数据。指生活中、科技活动中使用的各种代码和科技语言,它们通常具有高度形式化、可机读(或容易转化为机读)的特点。如专业符号、公式、图表、音乐曲谱、机读语言、编程语言,还有各类号码、条码、标记、印章、红绿灯、网络文本中的表情包甚至插图、水印等。这是最广泛意义上的语言数据。在语言生活中,这些人工语言或单独使用,或与自然语言结合使用;有些可以“翻译”为自然语言,有些不易“翻译”,但都需要以自然语言作为“元语言”进行定义、描述或解释。在一个所谓的“读图时代”“超语时代”,这些人工语言的使用越来越频繁,产生的数据越来越重要。

语言数据的研究与应用,过去主要集中在语言学、计算语言学、信息科学等领域。随着数据科学的发展,特别是数据成为人工智能发展的主要驱动因素,语言数据的研究与应用,迅速扩展到诸多学科和社会领域,弥散到人类的各个生活空间;因为语言数据占人类数据量的大多数,语言数据的技术更新,特别是利用互联网收集话语数据的便利性和处理话语数据的能力的快速提高,促进了“数字科学”“数据科学”的迅速发展。在“数字科学”“数据科学”的发展中,语言数据发挥了举足轻重的作用,因为所处理的“数字”“数据”主要是语言数据。

未来的语言数据研究,需要清醒认识语言数据所具有的数据共性和语言特性,界定清楚语言数据的内涵与外延,研讨语言数据的功能及其实现方式,建立语言数据(资源)学科及人才培养体系,推进语言数据科学的发展。语言数据在以下四大领域发挥功能最为显著。

第一,语言保护。在语言资源保护领域,语言数据发挥了重要作用,如国家语委2008年启动的“中国语言资源有声数据库建设”,2015年启动的“中国语言资源保护工程”。但是全世界有7000多种语言,多数语言处于濒危状态,为了全球语言保护,急需为哪些语言建立语言数据库,依据什么标准建立什么样的语言数据库,怎样集各方之力建设和开发利用语言数据库,是需要首先解决的大问题。

第二,语言教学。在语言教学领域,语言数据发挥着决定性的作用,特别是线上教学成为主导方式的今天。要满足母语教学、外语教学、海外华语教育、国际中文教育等各种语言教学的需求,教育界和教育产业界必须把相关的各种语言数据,特别是语言学科数据和话语数据进行积聚整合,精准发送到使用者手中。

第三,语言学研究和语言产品研发。语言学研究和语言产品研发,必须依赖语言数据,比如汉语语法规律的研究离不开语料库;评价语言的社会功能需要的语言衍生数据;词典本来就是一种特殊的语言数据库,特别是线上词典,词典编纂也早过了“抄卡片”的年代。语言数据库已成为语言学研究的基本工具,成为语言产品研发的基本建设。

第四,语言信息处理。语言信息处理是语言数据最重要的功能领域。其一,计算机要获得语言智能,能够从事“语言行为”,必须依靠大量的语言数据“饲喂”,依靠“数据驱动”;其二,计算机的“社会计算”,主要处理的就是各领域的语言数据。这一方面有许多发展中的问题,比如如何利用语言学科数据,使语言智能的发展变“数据单轮驱动”为“‘数据+规则’双轮驱动”;如何建立可以测试评价计算机语言智能和语言行为的语言数据库;如何扩充英语之外的“双语平行语料”,提升非通语种的自动翻译能力;如何解决“语言小数据”问题,提升专门社会领域、专业学术领域的语言处理问题;如何利用语言数据为特殊行业、特殊人群配备人工智能助手等。

至于说语言数据作为关键生产要素,应当做哪些工作,学界业界还较少讨论。也许下面这些内容是必要的:全力支持语言数据的科学研究,大力发展语言数据产业与职业,建立和完善市场机制,逐步建立语言数据收集、加工、交换、贮存及产权、收益等相关的技术标准、法律法规和政策体系,充分发挥其生产要素的经济功能和社会功能。其中语言数据库的共建共享是首要問题,可以说,从研究生做硕士、博士学位论文到每一个科研基金语言项目,从每一个辞书编纂项目到每一项自然语言处理工程,几乎人人都要建语言数据库,但却不能实现学界业界共享,其学力和财力的浪费已难以计算。

总之,语言数据是一个新的重要的话题,对它的研究超出了现有语言学的范畴,也超出了其他学科的单一学科范畴,需要多学科联袂进行交叉研究;语言数据问题也超出了学术研究范畴,成为社会发展的重要问题,需要全社会的共同参与。本专题的几篇文章,涉及语言数据安全、语言数据的经济属性、语言数据的数字化技术、语言智能技术对于数据治理的意义等论题,是关于语言数据几个问题的初始性研究。初始性研究的意义主要不在于解决了什么问题,而是提出问题,引发关注。希望这一期语言数据研究能得到学界的呼应和社会的支持。

猜你喜欢

数据库语言
用鲸鱼“语言”通信
White Lover
数据库
数据库
数据库
数据库
数据库
我有我语言
语言的将来
数据库