语言数据安全论
2022-07-15王春辉
提 要 数字经济时代,数据成为基本生产要素。语言数据不仅是新生产力,也催生了新的生产关系。“语言数据”是以语言符号体系为基础构成的各种数据,“语言数据安全”则指通过采取必要措施,确保语言数据处于有效保护和合法利用的状态,以及具备保障持续安全状态的能力。语言数据安全是国家语言安全的重要组成部分,是新时代国家安全体系的有机构成。它可以依据风险级别、流程、领域以及是否核心等多个维度进行类型划分。语言数据安全当前的几个主要问题包括语言数据意识和语言数据安全意识不足、语言数据的泛用与确权不明、对语言数据跨境流动关注阙如、语言数据市场安全缺乏评估等。未来,需要从治理意识和理念,治理状态评估,技术支撑、管理建设、组织建设、人才培养、国际合作五大板块,以及评价反馈等几个方面开展语言数据安全治理。
关键词 语言数据;语言安全;语言治理;语言数据安全;数字时代
中图分类号 H002 文献标识码 A 文章编号 2096-1014(2022)04-0015-11
DOI 10.19689/j.cnki.cn10-1361/h.20220401
In the era of digital economy, data has become one of the basic production factors. Language data is not only a new productive force, but also a stimulus for new relations of production. Language data can be categorized into different types based on various criteria i.e., form, contents, actors, process, and beneficiaries, and its production involves four levels of agency: government, enterprise, community, and individuals. Language data security is an important part of national language security and an indispensable component of the national security system in the new era. Language data security can be classified based on risk level, process, domain, and centrality. Currently, the major problems of language data security include the lack of language data awareness and language data security awareness, overuse or improper use of language data, unclarity of property rights, inattention to the cross-border flow of language data, and inadequate assessment of the security of language data market. In the future, the governance of language data security needs to be enhanced from the perspectives of governance awareness and philosophy, governance status assessment, five major construction sectors, and evaluation feedback.
language data; language security; language governance; language data security; digital age
一、引 言
语言是人类最重要的交際工具和思维工具,是身份的标记和文化的图腾,是重要的信息资源、人力资源、共享资源、知识资源和文化资源,是一种重要的甚至关键性的资源(李宇明2018;王春辉2021b)。正因如此,语言安全也就成了国家安全的基本构成,成了国家安全学的重要组成部分(郭继荣,杨亮2021;Chen & Breivik 2013)。历经农业社会、工业社会、信息社会之后,人类正在快步迈入一个基于数字经济的新的社会形态——数字社会(陈刚,谢佩宏2020)。
在数字经济和数字社会时代,数据成为基本生产要素,是全球贸易的中心之一和全球政府与资本追逐的焦点,数据安全问题已经成为关系个人、企业和国家安全的最紧迫和最基础的安全问题,加强数据安全治理已成为维护国家安全和国家竞争力的战略需要(中国电子信息产业发展研究院2019)。2021年3月,世界银行发布了《2021年世界发展报告:让数据创造更好生活》(世界银行2021)。报告力求回答两个根本问题:其一,如何通过数据来更好地推进发展目标;其二,需要做出何种数据治理安排来支持以安全、道德和可靠的方式生成和使用数据,同时让数据公平地造福所有人。
语言数据可以被看作领域数据的一种类型,语言数据安全问题目前还是一片待开拓的研究区域:以往的语言安全研究并未涉及,以往的数据安全分析也并未聚焦。本文的目的即分析语言数据安全的内涵与类型,揭示目前存在的主要问题,并尝试性地提出一个语言数据安全治理框架。
二、界定与类型
(一)语言数据
1.界定
数据,是用来记录客观事物或事件的符号,具体来说,是对客观事物或事件的性质、状态以及相互关系等信息进行记录的物理符号(赛迪智库网络安全研究所2021:4)。关于语言数据的内涵和外延,目前学界讨论还不充分。李宇明(2020a)率先提出了“语言数据”这一概念并阐释了其重要价值;李宇明(2020b)则进一步讨论了语言数据的四大类内容:语言符号系统;语言负载的信息;由语言延伸的各种符号与代码;生活、艺术与科学技术符号。随后姜国权、李一飞(2021)讨论了语言数据对于“一带一路”建设的意义。
出于研究操作层面的考虑,李宇明、王春辉(2022)指出,语言数据是以语言符号体系为基础构成的各种数据,内部可以细分为5类,即语言学科数据、话语数据、语言衍生数据、人工语言数据和语言代码数据。本文所指语言数据主要是针对语言学科数据和语言衍生数据这两类而言,即语言符号系统本身的各种数据和涉及语言的社会属性、生存状态、媒介装备等的相关数据。
语言数据属于行业数据的一种,是数字经济的重要构成。
2.类型
数据分类在收集、处理和应用数据的过程中非常重要。语言数据的分类方式很多,可以根据不同目的、不同角度等进行多视角区分。语言数据工作者往往需要理解和掌握不同的分类方式,以便更好地进行组织、管理、分析和应用。兹举以下几种。
着眼于形式方面,可以分为非数字化语言数据和数字化语言数据。前者比如各类纸版词典,“语言生活皮书”“中国语言文化典藏”“中国濒危语言志”等丛书,《中国方志中语言资料集成》(全42册)、即将出版的《近代汉语方言文献集成》等资料集成,二语学习者的书面语料等;后者比如国家语委各科研机构的各类数据库、《中国语言生活状况报告》的“有声媒体”数据、民族语言志网(Ethnologue)、世界语言结构地图(The World Atlas of Language Structures)、北京大学综合型语言知识库、美国的语言地图集项目(The Linguistic Atlas Project)等。当然,两种形式的数据是可以相互转化的,比如谷歌数字图书馆工程就是将非数字化数据转换成数字化数据,而将纸版方言地图转换成数字化存贮的也比比皆是,还有刚刚上线的殷墟甲骨文数据库;此外,数字时代所指的“数据”,已经越来越指向数字化的数据。
着眼于内容方面,则可以分为语言结构数据、语言功能数据、语言社会数据。语言结构数据即涵盖语言系统本身的语音、词汇、语法、语义等知识的数据;语言功能数据即语言使用和应用范畴的语用、翻译、政策文本等数据;语言社会数据即语种能力、语言与社会变量互动的社会方言、多语社会、身份认同等数据。这3类数据其实都可以归入实体数据和关系数据这两大类范畴。
从数据主体和来源视角,可以分为:政府/政务语言数据,即只有政府部门才有权采集、拥有、管理和发布的语言数据,比如各类政府层面的语言政策、全国语言普查数据等;企业语言数据,即市场机构进行商业活动或因其他需求所采集、加工、整理和拥有的语言数据,比如各类翻译企业产生的语言数据;社群语言数据,即社会各类团体机构因某种需求所采集、加工、整理和拥有的语言数据,比如语言研究组织的各类语言数据;个人语言数据,即自然人在网络上留下的语言数据,包括静态数据和行为数据,比如研究者个人或研究小组生产的语言数据等。
从数据加工处理的角度,可以分为原始语言数据和衍生语言数据。前者指不依赖于其他任何数据而产生、没有做过任何加工的数据,比如网络新兴词汇、各国人口普查后的第一手語言调查信息、环北极8个国家的语言和方言调查数据、留学生的课堂或考试作文、对一名或一组儿童每天3小时视频记录的材料、在华国际移民的语种能力和语言学习需求数据等;后者则是对原始数据进行加工处理后产生的系统的、有使用价值的数据,比如将网络新兴词汇进行汇集编校而成的新词新语词典、对实地调查资料分析整理而成的语言/方言语音系统、标记了语法信息的熟语料库、根据大量原始数据而形成的世界语言概况数据、对世界4000多种语言的语法信息进行类型学分析得到的“世界语言结构地图”等。当然,衍生数据可以是一次衍生,也可能会出现二次甚至三次衍生。
此外,还可以从公益性视角分为收益型语言数据和公益型语言数据。需要指出的是,显然各个类型之间是互有交叉或重叠的,只不过是区分的角度和目的不同而已。
(二)语言数据安全
1.界定
“语言数据安全”指的是通过采取必要措施,确保语言数据处于有效保护和合法利用的状态,以及具备保障持续安全状态的能力。这一界定至少包含相互关联的两层含义:语言数据自身的安全和由语言数据而引发的其他安全。语言数据安全以总体国家安全观为背景,是国家语言安全的重要组成部分,是新时代国家安全体系的有机构成。尤其是在人类迈入数字时代、数据成为基本生产要素的当下,对语言数据安全的探索将会对整体国家安全产生重大影响。
当代世界有三大构成要素:物质、能量和信息,也就由此有了物质安全、能量安全和信息安全,语言数据安全应归入信息安全的范畴。
2.类型
如同前述语言数据的分类有不同视角,语言数据安全的分类也是如此。举例如下。
首先,依据数据对国家安全、公共利益或者个人、组织合法权益的影响和重要程度,可将数据分为一般数据、重要数据、关键数据。此3类语言数据的风险级别、商业价值、隐私程度等呈现梯级差异,其安全等级依次增强,开放程度依次降低。当然,数据本身属性上的游移也導致数据的安全具有相对性:一方面,在A处是一般等级的,在B处可能是重要的或关键的;反之亦然。另一方面,正如“马赛克理论”(mosaic theory)所呈现的,一些碎片化、模糊化的一般数据被增量、组合、分析之后,有可能会转化成危及安全的重要数据甚至关键数据。
其次,从语言数据流程视角来看,语言数据安全是语言数据全过程的安全,至少包括语言数据的收集、存储、使用、加工、传输、提供和公开等环节的安全。收集安全主要指语言数据在录入、处理、统计或打印中由于硬件故障、断电、死机、人为的误操作、程序缺陷、病毒或黑客等造成的数据库损坏、数据丢失或数据泄密现象;数据采集和录入的真实性是数据安全的本源和基础,如果数据都是假的,则其“安全性”将无从谈起。存储安全是指实体语言数据的保存或者数据库在系统运行之外的可读性,涉及保护数据存储设备、防止其他系统未经授权访问语言数据等方面。使用安全指的是语言数据在不同应用场景和领域中的安全性,比如跨境语言数据。加工安全指的是对语言数据进行二次或多次加工过程中的数据遗漏或流失,会对语言数据的精确度和关联性造成影响。传输安全即语言数据在运输或传输过程中涉及的安全问题,包括语言数据发出方和接收方以及传输渠道的安全。提供和公开安全是指提供和公开主体行事之后的对内和对外效应,主要涉及政府和企事业单位的重要语言数据。
再者,可以依据语言数据出现的领域而将其分为:政治语言数据安全,比如对铸牢中华民族共同体意义重大的各民族语言和方言的数据;国土语言数据安全,比如相关地图的语言数据或边境线和海岛地名的数据;军事语言数据安全,比如军队和军人的语言数据以及跨境语言的相关数据;经济语言数据安全,比如翻译等语言产业和语言经济的发展数据;文化语言数据安全,比如涉及国际传播能力的中华文化核心术语数据或“饭圈文化”等亚文化的语言数据;社会语言数据安全,比如影响医疗诊断和治疗的语种能力和语言能力数据或与刑侦办案相关的方言数据和语言痕迹;科技语言数据安全,比如类人机器人的语种和语言能力数据或情感语言成分的计算数据;网络语言数据安全,比如世界语言的网络文本占有率数据或中外合作语言课题项目成果的数字化和共享性方面的安全;资源语言数据安全,比如自然资源格局的话语体系建构数据;海外利益语言数据安全,比如海外救援人员的语言数据或影响中国国际话语权的相关语言国际标准的数据;生物语言数据安全,比如各类相关会议的多语数据;太空语言数据安全,比如空间站的操作语言数据;极地语言数据安全,比如极地周围国家和地区的语言数据;深海语言数据安全,如相关海域及岛礁的命名数据;等等。
又如,根据数据安全涉及的主体,可以分为政府的、国际组织的、信息技术企业的、技术社群的、民间机构和公民个人的等。个人语言数据,包括用于语言研究或其他目的的各类数据库、网上语言痕迹。当然,语言数据安全在不同类型中效果的侧重点会不同:对于个人语言数据,可能影响主要在研究效果,个别情况会涉及个人安全,比如犯罪嫌疑人的语言刻画、语言数据遗产(伊莱恩·卡斯凯特2020)等;对于企业语言数据,主要在利润方面;对于国家语言数据,则往往是跟安全方面相关。
此外,《数据安全法》还提出了“国家核心数据”的概念。与此对应,可以考虑设立国家语言核心数据,即关系国家安全、国民经济命脉、重要民生、重大公共利益等的语言数据;此范畴之外的,可称为“非国家语言核心数据”。
语言数据安全的类型还有一些其他区分维度。比如由优势语种的物理空间或虚拟空间霸权给人类语言数据带来的安全威胁(王春辉2016;王春辉,高莉2009)。使用某种语言的人口是某种语言数据量的决定性因素,物理空间的语言数据也存在濒危现象,一旦一种语言没有了说话人或者能够理解它的人,这种语言的安全就基本归于零了;虚拟空间虽然不存在数据消失,但是有的语言在虚拟空间几乎没有数据或数据很少,这些语言的安全状态也可以基本归于零。因此,现实和虚拟空间语言数据的比例,也是一个重大语言安全问题,英语的全球蔓延给很多语言带来了生存危机。再比如语言识别数据,美国国际语言暑期学院(SIL International)基于沟通度和认知度等标准所整理的《世界的语言》认为中国境内的语言超过300种,而《中国的语言》《大辞海》等文献依据民族学和历史语言学标准确认的数量则为130种左右(孙宏开,黄行2018)。这不仅仅是数值上的差异,而且是涉及民族识别、语言认同、文化认同、国家认同等重要甚至关键的国家安全议题。还有语言研究数据的安全,比如语言类数据库、语言研究文献数据库。目前中国就缺少PubMed免费论文引文数据库平台。此外,还可以分为传统型语言数据安全和非传统型语言数据安全,语言数据本身安全和语言数据引发的其他安全等类型。
三、语言数据安全的主要问题
语言数据古已有之,但是生产要素和安全视角的认知和研究则是新兴事物。因其新,所以就存在一些已经显现或将要显现的问题。
(一)语言数据意识和语言数据安全意识不足
中国社会一直以来存在的一个“基础性的问题是全社会缺乏语言意识,甚至是起码的语言意识”(李宇明2014)。近些年在国家语委等相关部门、学界专家、社会现实等多重因素的合力之下,政府和社会的语言意识有所提升,但是在突发事件和前沿领域的语言意识仍然缺乏。前者比如“在应急语言服务领域,还缺乏语言意识,缺乏语言觉悟”(李宇明2021b),后者比如语言数据意识和语言数据安全意识。
语言数据意识,就是意识到语言数据之于人生、之于单位、之于社会、之于国家的意义。首先,要从以往的语料库、数据库等传统观念中跳出来,从数据成为人类生产要素的高度来审视语言数据。其次,要在以往的语言问题观、权力观、资源观(Ruiz 1984)之外,添加上语言资产观和语言资本观。语言资产观即語言数据是一种资产,是国家、企业或个人资产的重要组成部分,是基本生产要素和创造财富的基础。语言资本观即语言数据的资源和资产特性得到进一步发挥,与价值进行结合,通过交易等各种流动方式,可以最终变为资本。语言数据资产是指经济活动主体在生产经营管理活动中形成的,可拥有或可控制其产生及应用全过程的、可量化的、预期能给相关利益方带来经济效益的语言数据。实现语言数据可控制、可量化与可变现属性,体现数据价值的过程,就是语言数据资产化过程。 2016年3月,《麻省理工科技评论》与甲骨文公司联合发布了名为《数据资本的兴起》的研究报告。报告指出,数据已经成为一种资本,和金融资本一样,能够产生新的产品和服务。语言数据资本化的过程,就是将语言数据资产的价值和使用价值折算成股份或出资比例,通过数据交易和数据流动变为资本的过程(中国电子信息产业发展研究院2019:6~8)。
新世纪以来尤其是近十年来,语言安全成为学界研究的热点话题。2014年总体国家安全观的提出更是将国家安全和语言安全研究推向了一个新高度。检索已有的语言安全的文献可以发现,当前的语言安全研究主要集中在语言安全的界定和类型、国外特别是美国语言安全战略的启示、语言暴力、边疆地区及跨境语言安全、“一带一路”相关语言安全、作为文化安全次类的语言安全、翻译安全等方面。但是对于语言数据安全问题,政府、学界和社会等都还处于模糊状态,意识还未跟上。而事实正如本文所述,语言数据安全对个人、机构、国家已经在一定程度上形成了威胁,或者可能会构成潜在重大危险。
(二)语言数据的泛用与确权不明
数据确权是数据要素化和数据产权交易的前提条件。一旦数据确权,意味着它将有数据主体、报酬定价和流转配置(陈肇新2021)。目前,各国法律似乎还没有准确界定数据权益的归属问题。语言数据的产权可以分解为所有权、使用权和收益权。现在看来,所有权较为明确,使用权较为宽泛,而收益权则似乎异常模糊。从所有权角度看,基本上是“谁创造,谁拥有”,比如各类参考语法或语言研究数据、二语学习者作文语料、WALS数据库、美国中央情报局的世界语言概况数据库,其所有权分别归属于研究者个人、学习者个人、马克斯·普朗克进化人类学研究所、美国中情局等。从使用权角度看,理应是“谁拥有,谁使用”,但是现实生活中的使用权却并不是那么清晰,比如二语学习者学习过程中产生的数据也往往被搜集用于科学研究或智能产品研发,美国中情局的世界语言概况数据库也使用了民族语言志网和大量学者的研究成果,更不用说大量的个人或机构的各种类型的免费语料库的语言数据。从收益权角度看,情况更是混乱,比如乔全生(待刊)在分析汉语方言历史文献长期得不到及时全面的整理和出版的原因时就提到,全国5000多个公共和高校图书馆中,藏有古文献者大多以保护文献为由,拒绝复制或限量复制;有的图书馆复印索价甚高。这大大限制了文献的集成共享。有些个人私藏抄本文献,对外复制更是漫天要价,条件苛刻。3个角度权益的错综复杂,就使得语言数据的确权存在许多真空地带。尤为重要的是,语言数据意识的缺乏,使得语言数据向少数机构或公司聚拢,可能会给数据确权和数据安全带来深层隐患。
(三)对语言数据跨境流动关注阙如
可流动,是数据成为生产要素的前提之一。数字经济的提升加速了数据在全球范围的流通,跨境数据流动治理对发展数字经济、维护国家安全、构建数字红利收入分配体系至关重要,但是硬件技术的突破和新冠肺炎疫情的影响使全球数据流量和跨境数据流量的测量难上加难(联合国2021;孙方江2021)。因此对于语言数据的国际跨境流动需要格外注意。正如马其家、李晓楠(2021)所指出的:“通过自由的数据跨境流动,利用大数据分析,一国可能对他国的社会状况进行精准画像,并有针对性地开展情报收集和研判等工作,威胁他国国家安全。”语言数据的跨境流动,也同样可能被用于精准画像,并有针对性得开展语言相关的情报收集和研判,从而威胁国家语言安全。尤其是一些涉及国际合作的科研项目,其中的语言数据应该进行安全评估。比如20世纪90年代复旦大学和日本京都外国语大学的合作项目《汉语方言大词典》,收录古今南北汉语方言词20万余条,字数1500余万。以往对于此类合作和数据的分享缺乏深入的研判和分析,未来应该引起足够重视。2021年10月29日,国家互联网信息办公室发布《数据出境安全评估办法(征求意见稿)》,并公开征求意见,可作为参考。中国须提升对敏感语言数据泄露、违法跨境语言数据流动等安全隐患的监测、分析与处置能力。
与此相关的一个重要方面是语言数据跨境流动的标准化建设。2021年6月4日,欧盟委员会发布了关于个人数据跨境传输的新版标准合同条款的最终版本。中国须提升相关国际标准的制定权和话语权。
(四)语言数据安全市场缺乏评估
随着全球数据体量呈现指数型增长态势,资本市场对数据安全企业的关注度大幅提升。目前国外有近400家企业提供了数据安全和隐私保护相关产品及服务(中国信息通信研究院安全研究所2021)。赛迪咨询数据显示,2019年中国数据安全市场规模为38.1亿元,年均增长率超过35%,且增速还在持续加快,预计2021年接近70亿元(吴俊宇2021)。跟语言数据安全相关的市场应包括在其中。
语言数据安全的各个方面只要涉及经济交换,就产生了数据安全的市场。它应该是语言数据产业(李宇明2020b)的组成部分。目前由于语言数据安全尚未从整体数据安全中离析出来,所以语言数据安全的市场规模和相关问题,仍有待更专业和精准的评估。
四、语言数据安全治理
“数据安全治理”是一个新兴话题,目前大量研究还处于初期的探索阶段(可参看:邵晶晶,韩晓峰2021;刘邦凡,臧梓健2021)。
跟其他领域的数据安全治理一样,语言数据安全治理既有一般数据安全治理的通性,也有自身领域的一些特性。比如《中华人民共和国个人信息保护法》(以下简称《个人信息保护法》)对于个人语言数据安全有保护作用,但此法是一般法,应用于具体领域场景时还是过于粗疏或者缺漏;再如《数据安全法》并未对“数据自由跨境流动”和“数据安全跨境流动”之间的平衡做出充分阐释。作为领域语言治理的一个方面(王春辉2021a),提升语言数据安全的治理体系和治理能力势在必行。
语言数据安全的治理不应局限于常规的技术加管理的二元治理体系,而是需要围绕语言数据全生命周期安全,坚持总体国家安全观,建立健全语言数据安全治理体系,提高语言数据安全保障能力。李跃忠(2021)、白利芳等(2021)、李晓伟等(2021)、胡国华(2021)、赛迪智库网络安全研究所(2021)、数据安全治理专业委员会(2021)等学者或机构都推出了各自的数据安全治理体系框架。借鉴这些研究成果,笔者尝试建构起语言数据安全的治理体系,以期为上文列述的语言数据安全问题以及其他相关研究和实践提供一个可能的系统解决方案。
语言数据安全治理体系包括治理意识和理念、治理状态评估、建设板块、评价反馈等4个次级体系,如图1所示。
(一)治理意识和理念
意识和理念是行动和实践的前提,一方面须提升政府、学界和社会大众对语言数据和语言数据安全的了解和认知,使之认识到语言数据安全的存在及其可能带来的严重后果;另一方面须建构语言数据安全治理理念/价值体系,即总体国家安全观、复杂系统、动态防护、精准管控、渐次提升等。邸子桓、吕明臣(2021)分析了语言类科研人员数据素养培育问题,但相关研究还基本处于起始阶段。
(二)治理状态评估
即对当下语言数据治理的目标、技术、组织、措施、风险、服务、法律法规、体制机制、国际合作、人才培养等进行立体评估,建构语言数据安全治理状态评估清单,为后续工作提供可靠参考。全国信息安全标准化技术委员会于2020年3月推出了《信息安全技术 数据安全能力成熟度模型》,给出了组织数据安全能力的成熟度模型架构,规定了数据采集安全、数据传输安全、数据存储安全、数据处理安全、数据交换安全、数据销毁安全、通用安全的成熟度等级要求,可以作为参考。
(三)“五位一体”建设板块
五大建设板块是整个治理体系的核心部分。
技术支撑涉及语言数据的分级分类、安全标记、全生命周期安全技术体系、流向追踪、安全服务技术等。可以利用最新技术“以网治网”,比如区块链技术目前已经在数据存储安全、隐私安全、数据访问安全和数据共享安全等多个方面有了较稳定的应用(梁秀波,等2022),对于语言数据安全治理来说,可资借鉴。应加强语言数据安全技术及产品研发应用,提升语言数据安全产品供给能力,推动语言数据安全产业发展。还可以基于大数据平台、互联网数据中心等重要网络节点,建设涵盖行业、地方、企业的全国性语言数据安全监测平台,形成敏感语言数据监测发现、语言数据异常流动分析、语言数据安全事件追踪溯源等能力,建设数据安全监测系统。
管理建设涵盖语言数据安全顶层设计、法律法规体系建设、政策体系建设、国际国内标准体系建设、流程指南、操作规程、应急处置等方面,也包括开展数据安全能力成熟度评估、数据安全管理认证等。语言数据技术和语言数据管理,二者不能偏废,正所谓“三分技术,七分管理”。近几年,关于数据和信息安全的相关法律法规密集出台,比如《数据安全法》与《关键信息基础设施安全保护条例》2021年9月1日施行;《个人信息保护法》2021年11月1日正式实施;国家互联网信息办公室2021年10月29日发布《数据出境安全评估办法(征求意见稿)》,11月14日又发布《网络数据安全管理条例(征求意见稿)》。未来须构建起语言数据安全技术体系和标准体系,以及法律法规体系。在制定或修订涉及语言文字的法律法规时,则应提升语言数据意识,加入语言数据安全治理的相关内容。此外,数据安全保障体系的规范一般须从業务数据安全需求、数据安全风险控制需要及法律法规合规性要求等几个方面进行梳理,最终确定数据安全防护的目标、管理策略及具体的标准、规范、程序等。Rock(2001)、Isard(2020)等对用于研究的语言数据的匿名规范进行了较为详细的分析。最后,须建构平时治理和应急治理相融合的语言数据安全治理体系。
组织建设包括“决策层-管理层-执行层-参与层-监督层”的5层架构体系,以及与此相配套的职能部门与角色、业务与权责、人员构成与能力要求、协作与监督等。需要考虑组织层面实体的管理团队及执行团队,根据部门职责建立不同的语言数据安全角色,以满足数据安全建设的需求。比如语言主管部门承担本行业、本领域数据安全监管职责;国家安全机关、公安机关等依照《数据安全法》和有关法律、行政法规的规定,在各自职责范围内承担语言数据安全监管职责。语言数据安全运营管控执行建设方面,需要重点关注数据安全运维、应急预案与演练、监测预警、应急处置、灾后恢复等方面。
人才培养涉及语言学、计算机科学、社会学、哲学等相关学科的交叉融合,须在课程体系、学科建设等方面未雨绸缪。比如在语言学及相关专业的课程体系中加入语言安全的内容,在培养交叉型语言安全人才上下功夫。由工业和信息化部人才交流中心等单位联合发布的《2021网络安全产业人才发展报告》显示,今年以来相关专业人才需求呈现高速增加趋势,需求总量较去年增长39.87%,网络安全在各行业的渗透率全面提高,在人才需求结构中的重要性显著上升。2022年1月12日,由工业和信息化部网络安全产业发展中心(工业和信息化部信息中心)与部人才交流中心联合牵头组织编制的《网络安全产业人才岗位能力要求》标准正式发布,可以作为语言数据安全人才岗位能力的参考。
国际合作包括积极参与甚至引领(语言)数据安全国际规则的商讨和制定,提升跨境语言数据合作治理,积极参与全球语言安全治理,增强(语言)数据安全规则创制和话语权博弈的竞争力。由于中国在数据治理领域起步较晚,目前仍存在立法不完善、技术创新能力薄弱、国际合作不足、治理乏力等问题。中国需要全面、系统地分析影响数据安全的各种重大风险因素,准确把握全球数据安全趋势,进一步优化中国在全球数据安全治理中的策略选择(阙天舒,王子玥2022)。跨境语言数据安全的治理,需要在语言数据出境的监管、个人或商业语言数据的保护、法律的健全等方面用力。
(四)评价反馈
设立动态多层评价体系,对上述五大建设板块进行定期评价,确定建设效果和效能,予以反馈,并进行相应的提升和完善。在国家和社会治理体系的各个步骤中,评价反馈往往是容易被忽视的一个角落,但是事实上却又是治理环节上重要甚至关键的一环。
五、余 论
数据即权力。与全球经济的其他要素相比,数据与权力的关系更加紧密。数据为所有掌握数据的人提供了难以置信的优势,数据本身已成为重要的权力来源(Slaughter & McCormick 2021)。2019年6月,美国科尔尼全球商业政策委员会(GBPC)发布报告《数字秩序失衡时代下的竞争》,从全球视角和历史维度关注数字秩序的演变历程及其未来可能性;2022年1/2月的美国《外交事务》杂志也专题聚焦“数字失序”问题,指出政府、企业和公民现在都面临无孔不入的数字威胁。数字帝国主义已然成形,它凭借对数据的垄断,通过创新霸权、平台垄断、制造需求等方式在多个领域施行了新型的对外经济掠夺方式(刘皓琰2021)。
数据是新时代重要的生产要素,是国家的基础性战略资源。数据安全已成为数字经济时代最紧迫和最基础的安全问题,加强数据安全治理已成为维护国家安全和国家竞争力的战略需要。在数字时代,数据的重要性无须赘述。随着技术发展与数据量的爆发式增长,传统数据管理模式和安全技术对大数据背景下层出不穷的数据安全问题的应对效力明显不足。以数据为目标的网络攻击与犯罪不断增长,个人隐私泄露、侵犯商业机密、威胁国家安全等数据安全风险贯穿数据生产、存储、流动等各个环节。同时,数据的融合开放也使数据权属关系复杂化,带来数据滥用等系列法律风险与社会治理难题。
2021年,《数据安全法》《个人信息保护法》相继颁布实施,配套的行政法规、部门规章和地方条例也在陆续制定,这表明数据安全进入了强监管时代。但是目前来看,社会各界对于语言数据安全问题的认知亟待提升,对于语言数据安全的治理亟待加强。语言数据安全治理的总目标即推进语言数据安全治理体系和治理能力的现代化。语言数据安全治理体系建设,须在语言数据安全的价值、结构、功能、评估等几个子体系上多做文章。在观念上提升语言数据安全意识,树立私利与公益相平衡的语言数据安全观;在技术层面建构安全、可靠的语言数据环境;在方式上倡导法治、德治、自治、数治和智治的“五位一体”治理,明晰数智化治理的核心是规范数据权力和保障数据权利,提倡多元参与的协同化治理、大数据治理、动态化治理和平台化治理;在体制机制上,重视数字政府的顶层设计,构建高层次跨领域跨部门的统筹协调机制,加强相关部门的数字化转型,完善治理机制;在制度层面,应将语言数据主体,语言数据使用者的权利、义务、责任等明确界定,制定国家语言数据安全战略、明确国家语言数据安全发展纲要,加快语言数据的确权定价、加强安全隐私的保护,加大语言数据开放共享、规范语言数据的收集使用,加快推进语言数据安全新基建、更好地释放语言数据生产力。
在数据成为社会经济的基本资源的时代,数据的安全关系到从国家到个体的各个层面、从政治经济到外交军事的各个领域,语言数据安全也是如此。学界目前针对数字社会的语言安全尤其是语言数据安全问题的研究尚处萌芽阶段,亟待加强探索。在总体国家安全观视野下,语言数据安全亟须增强意识、建构体系、强化能力、增进研究、提升保障,从而为总体国家安全系统的建构和完善贡献力量。
参考文献
白利芳,唐 剛,闫晓丽 2021 《数据安全治理研究及实践》,《网络安全和信息化》第2期。
陈 刚,谢佩宏 2020 《信息社会还是数字社会》,《学术界》第5期。
陈肇新 2021 《要素驱动的数据确权之法理证成》,《上海政法学院学报(法治论丛)》第4期。
戴曼纯 2022 《数字时代的语言技术与语言保护:以欧洲为例》,《语言战略研究》第4期。
邸子桓,吕明臣 2021 《语言类科研人员数据素养培育机制与策略研究》,《情报科学》第6期。
郭继荣,杨 亮 2021 《国内语言安全研究述评》,《情报杂志》第6期。
胡国华 2021 《数据安全治理实践探索》,《信息安全研究》第10期。
黄海瑛 2018 《云环境下的“一带一路”语言数据版权风险》,《图书馆论坛》第7期。
姜国权,李一飞 2021 《数据迎接“一带一路”发展新挑战》,《中国社会科学报》10月13日第002版。
李晓伟,吴 迎,邹 彧,等 2021 《数据安全治理体系与技术研究》,《信息通信技术与政策》第8期。
李宇明 2014 《唤起全社会的语言意识——序〈中国语言生活状况报告(2013)〉》,载教育部语言文字信息管理司组编,《中国语言生活状况报告(2013)》,北京:商务印书馆。
李宇明 2018 《语言学是一个学科群》,《语言战略研究》第1期。
李宇明 2020a 《语言数据是信息时代的生产要素》,《光明日报》7月4日第12版。
李宇明 2020b 《数据时代与语言产业》,《山东师范大学学报(社会科学版)》第5期。
李宇明 2021a 《边境语言的“睦邻戍边”作用》,《中国社会科学报》7月9日第A04版。
李宇明 2021b 《应急语言服务的任务及其落实》,“中国语言服务40人论坛”年度论坛(2021)发言,“应急语言服务”微信公众号,https://mp.weixin.qq.com/s/g6IkwiXJFZssrH_Vg8Sc4g。
李宇明,郭风岚 2012 《重视海疆地名研究,维护国家海洋权益》,中国国家安全论坛,北京,11月18日。
李宇明,王春辉 2022 《从数据到语言数据》,《语言战略研究》第4期。
李跃忠 2021 《浅谈大数据时代背景下的数据安全治理》,《中国信息化》第4期。
联合国 2021 《“数字經济报告2021”跨境数据流动与发展:数据为谁流动》,联合国贸易和发展会议,https://unctad.org/system/files/official-document/der2021_overview_ch.pdf。
梁秀波,吴俊涵,赵 昱,等 2022 《区块链数据安全管理和隐私保护技术研究综述》,《浙江大学学报(工学版)》第1期。
刘邦凡,臧梓健 2021 《我国数据安全治理研究(2015—2020):主题与演进趋势》,《通信技术》第9期。
刘皓琰 2021 《数据霸权与数字帝国主义的新型掠夺》,《当代经济研究》第2期。
马其家,李晓楠 2021 《论我国数据跨境流动监管规则的构建》,《法制研究》第1期。
乔全生 待刊 《论汉语方言历史文献集成及其重要作用》。
阙天舒,王子玥 2022 《数字经济时代的全球数据安全治理与中国策略》,《国际安全研究》第1期。
赛迪智库网络安全研究所 2021 《数据安全治理白皮书》,https://docs.qq.com/pdf/DUGZTeUxtWE9lRWtw。
邵晶晶,韩晓峰 2021 《国内外数据安全治理现状综述》,《信息安全研究》第10期。
世界银行 2021 《〈2021年世界发展报告:让数据创造更好生活〉概述》,https://www.worldbank.org/en/publication/wdr2021。
数据安全治理专业委员会 2021 《数据安全治理白皮书3.0》,https://view.inews.qq.com/a/20210815A06NCS00。
孙方江 2021 《跨境数据流动:数字经济下的全球博弈与中国选择》,《西南金融》第1期。
孙宏开,黄 行 2018 《语言识别》,《语言战略研究》第2期。
王春辉 2016 《当代世界的语言格局》,《语言战略研究》第4期。
王春辉 2021a 《学科建构视角下的语言治理研究》,《陕西师范大学学报(哲学社会科学版)》第6期。
王春辉 2021b 《语言文字 国之大事》,《语言文字报》12月22日第02版。
王春辉,高 莉 2009 《因特网上的语言多样性问题》,《语言文字应用》第2期。
吴俊宇 2021 《新规之下,大数据走的每一步,都得是安全路》,《财经》,https://view.inews.qq.com/a/20211206A0ABCD00。
吴振豪,高健博,李青山,等 2021 《数据安全治理中的安全技术研究》,《信息安全研究》第10期。
伊莱恩·卡斯凯特 2020 《网上遗产:被数字时代重新定义的死亡、记忆与爱》,张淼译,福州:海峡文艺出版社。
张 婕,郭 印 2020 《基于大数据语言实验平台的隐私安全研究》,《数据与计算发展前沿》第6期。
中国电子信息产业发展研究院 2019 《数据治理与数据安全》,北京:人民邮电出版社。
中国信息通信研究院安全研究所 2021 《数据安全技术与产业发展研究报告(2021)》,https://new.qq.com/omn/20220103/20220103A07SOJ00.html。
Chen, S. & A. Breivik. 2013. London: The British Academy.
Isard, A. 2020. Approaches to the anonymisation of sign language corpora. Proceedings of the 9th Workshop on the Representation and Processing of Sign Languages, 95–100, https://aclanthology.org/2020.signlang-1.15.pdf.
Rock, F. 2001. Policy and practice in the anonymisation of linguistic data. International Journal of Corpus Linguistics 6(1), 1–26.
Ruiz, R. 1984. Orientations in language planning. 8(2), 15–34.
Slaughter, M. J. & D. H. McCormick. 2021. Data is power: Washington needs to craft new rules for the digital age. 100(3), https://www.foreignaffairs.com/articles/united-states/2021-04-16/data-power-new-rules-digital-age.
責任编辑:魏晓明
黄海瑛(2018)、张婕和郭印(2020)是少有的讨论过此论题的研究。
2019年11月,上海外国语大学成立语料库研究院;2020年语料库研究院新设语言数据科学与应用学科,研究方向主要为语言数据与语言研究、语言数据与翻译研究、语言数据与智慧教育以及语言数据与人工智能。
2021年11月工业和信息化部印发的《“十四五”大数据产业发展规划》列出了“金融大数据”“医疗大数据”等12种行业大数据,本文所提的语言数据应该与之类似。
https://www.ethnologue.com/.
https://wals.info/.
https://opendata.pku.edu.cn/dataverse/clkb.
http://www.lap.uga.edu/.
http://obid.ancientbooks.cn/.
比如2022年4月,中共中央办公厅、国务院办公厅印发的《关于推进新时代古籍工作的意见》用专节论述了“推进古籍数字化”工作;2022年5月,中共中央办公厅、国务院办公厅印发了《关于推进实施国家文化数字化战略的意见》,把推进实施国家文化数字化战略列入重要议事日程。
可以参见李宇明(2021a)对于语言安全的划分。
参见国家互联网信息办公室2021年发布的《网络数据安全管理条例(征求意见稿)》的分级分类。
一个典型的例子是二战期间美国用纳瓦霍语作为通信密码。
李宇明、郭风岚(2012)曾较系统地论述过海疆地名规划对于维护国家海洋权益的重要意义。
语言学者自建的语料库可以归入此类,比如汪涵个人筹建的湖南方言数据库(https://www.sohu.com/a/22297965_115428)等。
比如使用微软或搜狗输入法而产生的个人语言数据,公司一方面会利用大数据来改进输入法效能,另一方面则可以根据每个人的用词习惯进行词频调整。
相关的技术讨论可参看戴曼纯(2022)。
叶水送《若论文数据库也遭美国“卡脖子”,中国如何应对?》,“知识分子”微信公众号,2021年5月12日。https://mp.weixin.qq.com/s/mI27P3gOeDgrjC9d8N3X_w。
在这个过程中,区块链等新兴技术有望发挥重要作用。
https://www.cia.gov/the-world-factbook/.
2020年底通过的《刑法修正案》已经对商业秘密的相关犯罪做了修正和补充,增补了“為境外的机构、组织、人员窃取、刺探、收买、非法提供商业秘密”的相关罪名,还有术语的修改,如“约定”改为了“保密义务”等。
更专业的分析可参看:吴振豪等(2021),许杰等(2021)。
参见中国高新网:http://www.chinahightech.com/html/hotnews/yaowen/2021/1015/5613490.html。
参见工业和信息化部网络安全产业发展中心网:http://www.miitxxzx.org.cn/art/2022/1/14/art_33_1801.html。
报告全文参见:https://www.kearney.com/web/global-business-policy-council/article/?/a/competing-in-an-age-of-digital-disorder。
参见:https://www.foreignaffairs.com/issues/2022/101/1。