APP下载

数字经济背景下语言产业发展新模式:语言数据产业

2023-08-30毛现桩

北京城市学院学报 2023年2期
关键词:生产要素数字经济

摘要: 语言作为一种“资源”,具有重要的经济属性,能够促成语言产业的形成与发展。在数字经济时代,语言还是数据生产要素的主要体现形式与重要组成部分,具有泛生产要素性质,语言数据的产业化趋势催生了语言产业发展的新模式——语言数据产业。处于初创发展期的语言数据产业存在诸多问题,对此,可以从学术上加强研究、管理上加大扶持与引导、监管上强化产权立法、发展上突显链式思维、学习上借鉴国际经验等措施加以化解突破。

关键词:数字经济;生产要素;语言产业;语言数据产业

中图分类号:F062.9

文献标识码:A文章编号:1673-4513(2023)-02-074-07

作者简介:

毛现桩(1981-),男,河南平顶山人,副教授,博士,主要研究方向:语言产业、语言经济。

基金项目:

2022年河南省教育科学规划项目“新文科背景下省属普通本科高校外语专业产教融合协同育人机制研究”(2022YB0116);2022 年河南省本科高校研究性教学改革研究与实践项目(2022SYJXLX046);河南财经政法大学2021年教改项目“智慧教学模式下大学英语跨文化类课程线上线下混合式金课建设研究与实践”。

引言

数字经济是以信息技术的革命与发展为驱动,以数据作为核心生产要素的新兴经济形态。党的十九大报告提出加快建设数字中国,指明了我国经济社会发展的方向。2021年11月1日,中国正式提出申请加入DEPA,标志着我国数字经济发展进入了新时期,具有里程碑式的重要意义。

在信息通信技术与传统产业融合的影响下,我国的数字经济近年来一直呈现飞速发展的态势。2021年4月,中国信息通信研究院发布《中国数字经济发展白皮书》,2019年我国数字经济规模占GDP总量的36.2%,对经济增长的贡献为67.7%,2020年较2019年又提升了2.4%,占GDP总量的38.6%,数字经济已成为拉动我国经济增长的新动力。数字经济最核心的生产要素是数据,而在人类观察世界所形成的可供计算机处理的数据中,80%都是语言数据,故语言数据是数字经济时代最为重要的数据。数字经济的高质量发展有赖于语言数据的高质量收集、挖掘、存储、管理、加工及应用,这为语言产业的新发展——语言数据产业,带来了机遇,也提出了挑战。

一、语言的经济学属性与语言产业

(一) 语言的经济学属性

语言的经济学属性来源于语言的“资源”本质,语言具有一般经济资源的稀缺性与成本收益性。从个体层面而言,语言资源不是与生俱来,而是通过后天的成本(时间或金钱)投入逐渐习得,而且因个体与投入差异,对该资源的获取程度因人而异。研究发现,个体通过“成本投入”所获得的语言能力提升程度或掌握的多语种数量与其工资收入水平和社会经济地位具有较强的关联性,存在着显著的正相关关系,语言资本投资是一种重要的人力资本投资形式。此外,作为人类认知与思维的工具,个人的语言能力很大程度上决定着其个体获得其他人力资本(如知识、科技、技能等)的程度,从这个角度上讲,语言是个体提升自身其他人力资本的一种重要的中介资本。另一方面,从国家或社会维度而言,语言的“资源”本质体现在语言的文化负载性上。语言是文化的重要载体,不同语言之间或同一语言不同方言之间存在比较明显的文化差异,文化差异会造成人与人之间的误会、偏见乃至歧视等负面效果,从而造成交流障碍,降低交流意愿,影响地区间的经济互动。国家之间的“语言距离”不仅会阻碍科学技术的全球传播,不利于技术落后国“后发优势”的发挥,而且还增加了贸易往来的交易成本,影响了外商投资的进入模式。综上,语言不仅是一种能给个体带来经济利益的特殊人力资本形式,而且也是一种能够影响整个国家或民族发展的重要经济资源。

(二)语言产业及其业态发展

语言一旦有了经济价值,便会进入市场,开始发生经济行为。个体通过自学或是参加语言培训提升了自身语言技能,在劳动力市场获得了求职的竞争优势、在职场提升了工资水平,从而在语言资本中获利;不同语言文化中的企业开展经贸往来需要有语言翻译服务来消除语言障碍、拉近语言距离、处理贸易摩擦等事务,从而有了语言消费需求。随之,市场上便出现了语言培训、语言翻译、语言出版等一些专门提供语言产品或服务的企业,当语言消费与语言供给达到一定的成熟度和规模后便形成了语言产业。

关于语言产业的内涵,不同学者给出了不同的界定,比较具有代表性的几个意见如下。李宇明(2016)认为“语言产业是以生产和提供语言产品,利用语言赚取红利的产业。”陈鹏(2012)认为“语言产业是以语言为内容、材料,或是以语言为加工、处理对象,生产出各种语言产品以满足各种语言需求的产业形态。”黄少安等(2012)认为“语言产业是一种采取市场化的经营方式生产语言类产品或者语言服务,从而满足国家或者个人对各种语言产品或语言服务需求的产业。”贺宏志(2012)认为“语言产业是以语言文字作为原料和内容(语言本体),或是以语言文字作为加工处理的对象(语言作为工具),生产各种语言产品或提供各种语言服务的产业。”以上对语言产业的界定虽各有侧重,但语言产品的生产或语言服务的提供是其核心内容。因此,根据语言产品或服务的形态或方式,我们可以将语言产业下分为三大类别:语言能力产业、语言内容产业与语言处理产业,又可具体化为语言培训、语言康复、语言测评、语言出版、语言翻译、语言创意、语言会展、语言文字信息处理、语言艺术等九大业态类型。

但是,随着互联网信息技术的发展与普及,尤其是近两年受疫情影响,网络空间的语言产业各业态所占比例越来越高,如在线语言教育与测評、在线会议翻译、在线语言展览、在线智能写作、在线语音识别、合成、输入等在线语言处理业态。网络空间的语言产业与传统语言产业相比最大区别在于,在网络空间,计算机是以数据的形式运行处理语言内容,从而形成新的语言产品或语言服务,语言数据在网络空间语言产业中起着至关重要的作用。

二、數字经济中的语言数据生产要素

数字经济以信息技术发展为必要条件,以数据为关键的生产要素,用数字呈现信息内容。在数字经济中,语言作为信息技术创新和互联网应用创新的基础要素,在很大程度上已超越语音、词汇与语法系统的传统范畴和语言文化差异,已超越语言思维和数据思维的传统框架和战略认知,成为了数字经济中具有战略意义的数据系统。数字经济中的语言数据分为三个层级:自然语言、人工语言与数字语言。

(一)自然语言

自然语言,即语言的应然状态。自然语言体现着人类交流的丰富性与多样性。语言虽是信息的载体,但是,每一种自然语言都有其独特的语音、词汇、语法、文字等表意系统。所以,相同的信息在不同的语言系统中有着迥然不同的表达形式。这使得不同语言之间的信息传递存在障碍,亦即“语言效率”存在差异。信息交流是语言的第一属性,但当交流的信息彼此间呈现标准不一致时,人们就需要通过语言学习或语言翻译以达到交流的彼岸。

自然语言虽属语言数据的较低形态,但是语言数据的重要组成部分,并且是计算机处理语言数据中最难的一种。计算机对自然语言的处理程度,如汉字识别、语音检索、语言(声音、文字)翻译、机器客服语言训练等都决定着人工智能的发展进程。

(二)人工语言

自然语言在为人类创造了一个多彩语言世界的同时,也为世界范围内的信息交流与沟通带来了天然的认知障碍。随着交通工具与信息技术的进步与发展,这种障碍愈加明显,因此,人们开始设想创造一种具有通用效果的“人工语言”,以扫除语言差异在认知中的障碍。在知识传播史上,数学语言便是成功的一例。数学运算符号以及数学公式的统一,极大化解了自然科学知识传播过程中的语言障碍,使得伽利略用数学语言撰写的关于天体、宇宙的著作成为后来物理学、化学、工程设计等学科发展的重要基础知识。有了对已有知识系统化和标准化的语言处理,后人可直接对接前人成果,实现一次又一次的技术创新。除了数学语言,我们还有乐谱语言、盲文、聋哑人的手语、旗语、灯语、电话号码、银行卡号码等形式的人工语言。人工语言可以是自然语言的符号化,体现自然语言规则,也可以自成体系,拥有内部运行规则;对人工语言的理解有时需要自然语言辅助,有时需用自然语言阐释。总之,人工语言与自然语言具有天然的密切关系。

当今社会,经济发展是人类的主题,而语言是能够影响从知识生产到技术创新再到经济绩效的最微观的因子,随着计算机信息技术与互联网渗入所有的经济行为,我们急需一种通用语言,以极高的效率进行信息流动和知识获取,从而促进经济更快更好发展,这便是数字语言。

(三)数字语言

当人类大脑面对实践对象的复杂性与丰富性时,传统语言文字难以出色完成对其全面认知与深度分析加工,表现出了认知效率不佳。此时,一种高效的媒介技术即机器语言出现了,它由形式语言所形成的虚拟计算机大脑来开展我们人类大脑在某些领域所完不成的工作。机器语言的发展推动了数字技术的进一步发展,数字技术可以将社会运行进行数据化重构,形成海量数据。海量数据被各种软件、数字平台捕获后,传输给由计算机机器语言构成的虚拟人类大脑进行机器学习。所以,海量数据越大越丰富,机器学习的效果越好,算法越精准,产出结果的适用性与指导性就越强。在机器语言阶段,计算机分析的对象均是经过数字技术处理过后的数字信息,此时的语言数据是被数字化了的语言,即数字语言。数字语言是语言数据的高级形态,具有普适性与统一性,可以用来描述所有的人类活动。

这里需要说明的是,语言数据的三个层级,是按照计算机对语言处理的方便程度以及“语言效率”的高低程度对语言的划分,并不是语言进化的三个阶段。在数字信息时代的今天,三种语言数据是并存的,都是数字经济的重要生产要素。

三、语言的泛生产要素性

语言的独特生产要素性不仅来源于语言的本质属性,语言是人类最重要的交际和思维工具,也是人类文化和信息的最重要负载者,同时还是人类文化最重要的建构者和阐释者。同时,语言与其他几种生产要素有着非常的特殊关系,在其中发挥着重要作用,语言具有泛生产要素性(如图1)。

首先,语言经济学的逻辑起点是视语言为人力资本。语言是人的重要劳动力,对于服务行业或是智力型岗位,情况尤为如此,一个人的语言能力远比其体力更为重要。从世界或我国发展经验来看,语言能力薄弱或脆弱的地区通常是贫困地区,有语言障碍的人群通常会是贫困的群体。

其次,语言不仅是一种“符号系统”,是人们彼此交流的一种重要工具,语言还是信息的载体,承载着“知识”。现代汉语词典中对“知识的”定义是“人们在改造世界的实践中所获得的认识和经验的总和。”这种“认识与经验”可能以书面语言的形式储存于书籍杂志或媒体之中,也可能以概念或经验的形式储存于人类大脑,而大脑中概念与经验的释解仍然需要脑神经语言或认知语言的参与。因此,语言与知识生产要素关系密切。

再次,就狭义技术而言,语言技能本身就是一项技术本领,拥有较高语言能力的人其语言技术(技能)就高。从广义技术而言,以语言作为现代技术加工处理对象的现代语言技术,如多语网络翻译技术、语音识别技术、文字输入技术等,在整个现代技术体系中占据着重要位置。此外,各个产业领域中技术发明专利的申请、技术的传授学习都需要借助于语言来呈现或达成。语言是技术生产要素的伴随者。

再次,作为生产要素的管理指的是某种管理章程或制度,或是某种管理行为。对于前者,张卫国(2008)指出:“语言既是一种特殊的社会制度,具有规范人们言说表达的功能,同时语言也是人类其他制度的信息承载物,人类的一切政治、经济、社会等制度都需要通过语言文字来记载或通过语言言说所表达。”对于后者,在各种管理制度的基础上,有效的管理行为还需要严谨的思维与准确的言语表达,语言是人类表达思维的重要方式,高超的语言表达能力也是管理能力的重要体现。在人力资源管理中,语言能力以及以语言能力为基础的沟通能力是企业在招聘、测试、培养、考绩等全过程中对员工考察评估的重要核心指标,是高绩效人力资源管理系统的基础,对员工产出与收益产生直接影响。

最后,语言本身是一种资本,可以为个人或群体带来经济价值。然而,撇开语言的资本属性,从其一般社会属性而言,语言与资本、土地的关系也十分密切。语言能够影响资本的流动与走向,为土地生产资料赋值。曾毅平(1998)研究指出:“社会语言文字使用的总体面貌对实现投资效益有着相当的影响,语言环境是资金得以有效运营的一个不容忽视的外部条件,语言环境也是一种投资环境。”在外商对华投资中,“语言距离不仅会直接削弱外商对华直接投资,而且还会通过双边贸易额间接影响外商对华直接投资。”

四、语言产业发展新模式——语言数据产业

(一)语言数据产业的内涵与外延

依照语言数据的属性与功能,我们尝试将语言数据产业定义为,视语言数据为数字经济生产要素的重要组成部分,对各类语言数据进行收集储存、管理经营、加工应用,以生产各类语言数据产品或提供语言数据服务的产业。该定义的前提是语言数据是数字经济生产要素的重要组成部分,发展语言数据产业的目的就是通过语言数据产品的生产,或对纷杂的语言数据进行管理、加工与应用,从而更好地为数字经济的健康发展提供高质量的数据生产要素,并为其它生产要素提供应有的语言服务。语言数据产业是一个长链条、宽口径的新型产业模式,涉及多种业态类型。语言数据的挖掘与收集、语言数据库的建设与维护、语言数据的存储与传输、语言数据的计算机分析、语言数据产品的营销、语言数据管理服务标准的制定、语言数据人才的培养等都将是伴随语言数据产业发展的相关业态。

(二)语言数据产业发展中的问题

作为语言产业发展的新模式,语言数据产业还处于产业发展的初期阶段,加之语言数据本身的特征与属性,该产业目前发展显露出一些问题。

1.语言数据的产权确立问题。语言数据的来源口径较多,既有从现实空间搜集到的语言资料所构建的语料库数据,如医患多模态对话数据库、公共空间的语言景观数据库、教师课堂话语语料库等,也有从互联网获得的各种网络语言数据产品或服务,如网络字体、表情包、网络配音等,还有日常生活中个人在进行电子登录或各种操作中,被各种应用软件后台获取的个人语言数据,如账号信息、地址信息、人脸识别的电子信息等。语言数据的广来源性造成数据产权的难确定性。在产权难以确定的情况下,产权的保护就成了空谈。然而,在数字经济时代,数据成为极其重要的生产要素,对数据,尤其是语言数据的知识产权保护尤为重要,是保障数字经济健康发展的重要舵手。

2.语言数据的安全问题。语言数据的安全性主要是指语言本身的质量安全性和使用过程中有可能对他人造成的安全性伤害。语言数据收集渠道多、来源广,通过各个渠道获取而来的语言数据质量参差不齐。那些质量较差,甚至恶劣的语言数据会严重影响语言数据库的使用安全。比如,通过网络获取的语言数据可能会是不同时代、不同国度、不同文化的语言数据,还有可能是人工智能产生的语言数据。这些语言数据混杂了不同的意识形态偏見、文化习俗偏见,带有较多不文明用语,甚至违反了伦理道德,如果对该类语言数据不加“洁洗”就加以应用,必定会对生产的语言数据产品或提供的语言数据服务产生极大的负面影响。其次,语言数据在存储、传输、应用过程中如不加强防护措施,极易造成数据的泄露问题。泄露的语言数据关乎个体或社团的隐私,甚至国家的语言安全,若不引以重视,将对个人或国家造成难以挽回的重大损失。

3.语言数据的对接共享问题。语言数据有可能来源于不同的语料库,而现行研究范式并没有对语料库的标注体系进行规范化统一,并未规定同类型的语料库使用同系统的标注规范,这就造成了即便是取自同类别的两个不同语料库的语言数据也难以直接进行同类对比分析,更难以将两个语料库研究结果直接对接。此外,当前语言数据的“孤立”现象比较严重。同类研究机构之间、政府各部门之间、甚至课题组之间都有可能建有自己的(语言)数据库,但是出于各种原因,相关或同类(语言)数据库资源未能实现共享,同类数据的反复采集不仅对个体带来不便,增加了泄露风险,而且未能对(语言)数据实现综合利用。

4.语言数据产业发展的思维模式问题。如前所述,语言数据产业涉及语言数据的收集挖掘、语言数据的存储、语言数据的管理、语言数据的加工、语言数据的应用以及语言数据的产品开发等多个环节、多道工序。每一个环节工序上出现问题都将影响后续环节的正常进行,严重者影响整个语言数据产品的生产或语言数据服务提供的质量。因此,可以说,语言数据产业是一个由多个语言数据产业业态构成的链式产业,其发展呈现链状模式,这与传统语言产业的簇状发展模式不同。倘若各语言数据业态只是自顾独自发展,没有全局观念、链式思维,那么不可能提升整个语言数据产业的发展质量,更不可能发挥出语言数据对数字经济应有的支撑作用。

(三)相关规划与建议

1.加强对语言数据产业的研究。在我国,语言产业的发展也不过十年左右的时间。学界、业界对它的认识仍在不断地深化与拓宽,对其内涵的界定、产业边界的确定、业态分类标准的敲定、统计指标的确定等方研究至今未形成统一共识。而作为语言产业发展的新模式,语言数据产业更是一个崭新的研究领域。需要尽快加强对其进行学理与实践研究,形成一批具有理论指导性和实践操作性的研究成果,为制定语言数据产业高质量发展对策提供依据。

2.加大政府扶持与引导。政府应从国家战略高度为语言数据产业创设更加开放创新的产业环境,加大对相关研究的支持力度,制定语言数据产业与市场的法规政策,建立语言数据产业人才培养机制,重视语言数据产业各链条业态人员的培养与管理,建立语言数据职业规范与伦理道德等条例引导语言数据产业健康发展。同时,加强政府各相关部门之间的合作,建立相应的协调沟通机制,倡导语言数据的互通共享。

3.强化对语言数据产业的知识产权保护。我国的知识产权意识较过去有了显著提高,但是对于高度网络化的语言数据产业来说尚缺乏清晰的产权意识,如网络字体、网络主页的独创性、网络表情包的使用、网络段子的著作权等类型的语言数据都发生过产权争议或纠纷。因此,应从政府指导、行业监管、法律建构等层面对语言数据产品和语言数据服务进行产权保护,对于难以确权的现实公共空间和网络空间的语言数据进行合理化产权明晰,避免引发产权争议。对于涉及个人隐私的语言数据要加强保护,加大对泄露、侵犯个人隐私语言数据的违法犯罪行为的惩处力度。

4.培养语言数据产业发展的链式思维。产业链不仅是实际存在的一种产业集,更是一种思维方式。产业要想做大做强,就不能停留在“单兵作战”的阶段,必须具有产业链的产业全局观。链式发展思维对于语言数据产业而言尤为重要。语言数据产业链上的各业态产业联系紧密,相互影响,每一个链条业态的发展出现问题都直接影响后续各业态的发展及整个产业的发展。链式发展思维要求语言数据产业监管部门要抓好产业发展的全局指导与安排,产业链上的各业态行业从业者要融入语言数据产业发展的大框架,做好链条上的链接环,守好一段渠,种好责任田。

5.借鉴国际先进经验。数字经济较发达的国家相比,我国的数字经济发展无论在数字基础设施建设、数据安全保护还是数字贸易的规则制定等方面都还存在较大差距。语言数据产业是数字经济时代的一个重要产业模式。我们要在数据保护分级分类精细化管理、数据市场一体化建设、个人隐私数据保护的立法、相关人才培养管理模式等方面借鉴国际先进经验,扬长避短,促进我国语言数据产业快速发展。

参考文献:

[1]李宇明.数据时代与语言产业[J].山东师范大学学报:社会科学版,2020,65(05):87-98.

[2]张卫国.作为人力资本、公共产品和制度的语言:语言经济学的一个基本分析框架[J].经济研究,2008(2):144-154.

[3]Pendakur, K., & Pendakur, R. (2002). Language as both human capital and ethnicity. International Migration Review, 36(1), 147-177.

[4]Huu, N., Larimo, J., & Ali, T. (2016). How do ownership control position and national culture influence conflict resolution strategies in international joint ventures. International Business Review, 25(2), 559-568.

[5]陈鹏.语言产业的基本概念及要素分析[J].语言文字应用,2012(03):16-24.

[6]李宇明.语言也是“硬实力”[J].华中师范大学学报:人文社会科学版,2011,50(05):68-72.

[7]黄少安,苏剑,张卫国.语言产业的涵义与我国语言产业发展战略[J].经济纵横,2012(05):24-28.

[8]贺宏志.发展语言产业,创造语言红利——语言产业研究与实践综述[J].语言文字应用,2012(03):9-15.

[9]何宏志,陈鹏.语言产业导论[M].北京:语文出版社,2013:162-167.

[10]姜国权.发展数字时代的语言产业[N]. 中国社会科学报,2021-09-14(003).

[11]张新春,花旭.数字经济:增长逻辑与技术机理[J].改革与战略,2021,37(04):75-84.

[12]彭婷.人工智能中语言问题的哲学审视——以马克思恩格斯语言观为视角[J].世界哲学,2020(02):17-26.

[13]李宇明.中国语言资源的理念与实践[J].语言战略研究,2019,4(03):16-28.

[14]李琳.区域经济发展与语言能力建设[J].吉首大学学报:社会科学版,2020,41(03):104-111.

[15]曾毅平.语言环境也是一种投资环境[J].暨南学报:哲学社会科学,1998(01):109-116.

[16]方芮.文化距离、语言距离与外商对华直接投资[D].山东大学,2020.

[17]刘昌华.数字经济:网络空间的语言产业[J].黄河科技学院学报,2021,23(06):72-80.

[18]于晓,叶申南.欧日韩数字经济政策、发展趋势及中国策略[J].财政科学,2021(06):135-141.

Abstract: As a type of resource, language bears an important attribute of economy, which promotes the development of language industry. In the era of digital economy, language functions as the main form and an important part of the production factor of data, bearing the nature of panproduction factors. With the tendency of language data, there comes a new development model of language industry—language data industry. Due to its early stage of development, the language data industry meets with some growth barriers.

For the sake of the healthy and stable development of the language data industry, some effective measures need taking to tackle the thorny problems, including strengthening the academic research, increasing the managerial support, stressing the legislation of property rights, advocating the chainmodel thinking of development, drawing on the advanced foreign experience, and so on.

Keywords:digital economy; production factor; language industry; language data industry

(責任编辑:范松楠)

猜你喜欢

生产要素数字经济
一起来认识“数字经济”
OECD国家数字经济战略的经验和启示
对林业生产要素配置效率的分析
“互联网+”在生产要素配置中的优化作用
从数字经济视角解读欧亚经济联盟与丝绸之路经济带对接
数字经济对CFC规则的冲击探究
出版产业供给侧改革初探
应对数字经济下的BEPS现象
省级电网企业作业成本管理策略探讨
城乡之间生产要素流动优化配置与城乡统筹发展