元宇宙背景下的数据治理发展趋势
2023-01-06赵涛
赵 涛
(浩鲸云计算科技股份有限公司,江苏 南京 211153)
1 “元宇宙”概念的兴起
1.1 概念的起源与兴起
人类文明对于超现实、造物和沉浸式体验的情节自古有之,早在18世纪初期,就出现过现实主义画家通过提供360°视野的作画方式,对观赏者提供沉浸式的观赏体验。在20世纪50年代,著名电影摄影师Morton Heilig(莫顿·海利格)发明了由传感仿真器、3D显示器、风扇、震动座椅组成的装置,为电影观影提供身临其境的感觉。20世纪90年代初,我国的著名科学家钱学森先生将“Virtual Reality”(虚拟现实技术)一词翻译为具有中国风味的“灵境”,被评价为“来自科学家的浪漫”。近年来的元宇宙(Metaverse)概念,一般被认为起源于1992年的科幻小说《雪崩》,代表了和现实世界对立的虚拟世界。
在日渐发展的人工智能、大数据、云计算、增强现实和区块链等技术的发展加持下,元宇宙概念变得越来越具像化,同时,随着新冠疫情的全球蔓延,线上化办公与生活时间的明显增长,人们对数字世界的兴趣继续升温。元宇宙概念在近一段时间内受到了各行业的广泛关注,在国家语言资源监测与研究中心2021年12月6日发布的“2021年度十大网络用语”里,更是将元宇宙收入在其中。
1.2 元宇宙的框架解读
元宇宙概念本身还处于一个不断发展和演化的过程,对于元宇宙是什么,目前还没有完全的共识定义,但它的系统框架至少包括以下方面。
(1)虚拟与现实的融合交互。元宇宙赛道的玩家们,无论是通过数字孪生来提升现实到虚拟的全真投影效率,还是从视听到体感全方位地反映虚拟世界的感观,都存在虚拟与现实融合的纵深有增强的趋势、边界的区分有淡化的趋势。
(2)用户参与定义和创造。游戏领域的元宇宙先驱都有这个相同属性,支持用户对内容的设计和创造,这也意味着用户创造的内容数据量将会逐渐趋近甚至超过系统设定和创造内容的数据量。
(3)沉浸式和叠加式的体验。已经出现的元宇宙代表们几乎都在或者规划向社交、娱乐、支付[1]等人类社会生活的基础设施方向发展,不断地叠加着支持现实社会行为的基础元素,并且在视听、触觉、情感方面完善体验的界面。
(4)公平与安全的秩序。随着用户在虚拟世界行为的丰富、交互复杂度的增加,系统性的管理难度也会加大,平台运营所涉猎的法律、公序、秩序需要具备完善的体系保障,并且能够被相关机构进行必要的监管。
2 元宇宙背景下的数据技术驱动
元宇宙可能还需要相当长的一段时间来对相应的技术进行研发和迭代,它在什么时间完全到来,本文不展开讨论。但可以肯定的是,数据技术是数字化和智能化进程中的一项基础型技术。数据的快速增长、多形态数据存储的管理、数据交互能力需求的增强、跨系统多元化数据的安全管控等方面都将驱动与之配套的数据治理能力。
2.1 数据摩尔定律依然存在
虚拟世界即是现实世界的仿真投影,用户会在其中根据基础投影进行创造和开发,同时AI自动生成的内容数据,用户的行为数据以及创造的内容数据都会因为大规模的线上并发与协作,而驱动数据量的高速增长。伴随VR、AR、MR、全息影像等交互类技术的应用,图像、语音等非结构化数据也会大量产生。据国际数据公司IDC(International Data Corporation)报告,全球数据总量2020年约为53 ZB,而2025年预计将达到175 ZB。大数据的摩尔定律依然存在。
2.2 多形态数据管理的要求
元宇宙通过多种数据形式对用户提供沉浸式服务,数据承载了现实世界的投影、体系内的自身数据、用户行为创造的数据、AI自动生成的数据。数据存储的形态变得更加丰富,包括中心化的数据中心存储、基于区块链的去中心化存储、覆盖边缘端设备的分散式存储。离散分布的数据在原子性、一致性、安全性方面需要有自动化的保障或管理机制。在多形态的数据存储和使用的模式下,统一的管理范式是数字化系统运转的必要保障。
2.3 数据的共享和交互要求
随着多技术的复合应用、数字世界与现实世界交互形式的增多、数字世界社会属性的不断丰富,在元宇宙内云端与边端之间、应用与运营之间、虚拟行为与法律法规监管之间,数据的高效交互和安全流通是其良性运转的关键。
第一,支持大规模并发在线模式的云或多云架构是必然的选择。第二,沉浸式的视觉、音觉、触觉等体验需求带来了设备终端的使用要求,通过对云端与本地设备的数据进行融合分析来提供安全、可靠、低延时的感知服务。第三,在元宇宙体系中,AI除了协助完成边端的决策响应,也同时负责虚拟内容的生成制造。AI的核心目标是通过将可复用的算法模型进行封装,为业务场景提供低成本、敏捷的AI能力[2]。第四,基础的保障性运营有多个方面构成[3],例如,以用户偏好体系画像、用户行为分析及以预测为主的“客户洞察体系”,以新进分析、活跃分析、支付分析、流失分析、路径分析为主的“基础专题运营”,以曝光分析、停留分析、分享分析为主的“内容优化运营”。这些基础的运营分析需求都需要在元宇宙体系内对从业务实体到数据实体进行规范,才能完成有价值、有效率的数据计算。
2.4 多元化的数据安全要求
在元宇宙体系中,随着数据的体量、产生的来源、存储的形态、使用的场景更加复杂和多元化,数据安全面临的风险和隐患同样变得更加多样化、复杂和隐秘。
(1)用户数据的确权。虚拟世界中各类尤其是用户定义、制作以及改编自显示世界影音文学等作品的数据资产在确权和使用的机制还不完善或存在缺失。
(2)用户隐私的保护。用户隐私的外沿放大,如身份、行为、运动、生理、社交、财产、场景、甚至情感类等信息,都可能被纳入到虚拟世界用户的隐私信息中,来确保用户的隐私安全。
(3)人工智能计算。为了满足对图像和语音等非结构化数据的识别与计算决策、打造和优化动态的虚拟现实交互体验等需要[4],AI都将被广泛地应用于元宇宙。AI计算结果的路径与规则都不同于可以解释的显性规则,对使用带来的安全隐患需要进行考量。
(4)跨境的法规界定。虚拟世界中缺少现实世界中的国界与行政区域的显性制约,跨境跨域的信息交互和数据流通对区域级、国别级的法律法规边界界定带来新的复杂度。
3 数据治理的发展趋势分析
结合前面对元宇宙这类复杂的大规模系统的数据技术驱动的分析,我们从多元化方面、组织模式方面、技术演进方面分析数据治理可能的发展趋势。
3.1 数据治理的多元化趋势
在数据加大对用户感知、体验、生活等类型服务支持的背景下,数据治理的范畴也在向更加多元化的方式进行延展。
(1)学科与原理的多元化。随着应用在多领域的展开,数据表达业务的范畴增多,数据治理体系涉及的原理和底层逻辑也相应地扩展到了政治学、法学、社会学、管理学、经济学、数据科学、信息资源管理学等更多领域的学科。
(2)数据所有权的多元化。随着数据产生模式和应用场景的拓展,数据的所有权向着社会公有、机构组织私有、机构组织与企业共有、企业私有、个人私有、企业个人共有等多模式或多模式并存的方式转变。
(3)数据治理价值的多元化。过去我们对数据治理的价值更多的是关注数据在共享、流通、交易过程中,因为效率改进而产生的应用或经济价值。而对支持保障情感和感知的AI准确性计算,对虚拟世界中的秩序完善、风险防范、合规监管等过程中带来的帮助也会产生更多的“隐性价值”。
3.2 数据治理组织的演进趋势
数据治理的组织机制通常属于中心化的组织模式,即以统一组织、分级或分类负责的方式开展。但当相关方变得复杂甚至存在跨境情况、业务关联领域变得多元化、多方向的专业技术叠加,想要搭建一个更高层面的的权威中心化数据治理组织的难度也就变得更大。
(1)联盟共治模式。由多专业化技术叠加的复杂大规模系统,采取技术的生态化联盟共同完成系统的搭建或拼接是目前的一个趋势。同样,数据治理的组织模式,也可以采取与之匹配的联盟共同治理模式,在通过法律或契约均衡利益的保障下,联合协同开展数据治理是降低技术成本、达到参与方收益最大化的一个方式。
(2)分布式自治模式。2019年出现的“分布式自治组织”(Distributed Autonomous Organization,DAO)是通过一系列公开的规则达到自运行的组织形态。DAO的管理标准以智能合约的形式编码在区块链上,在没有集中控制和第三方干预的情况下,通过智能化管理手段和通证经济激励,实现自运转、自治理、自演化,进而实现组织的最大效能和价值流转的组织形态[5]。
3.3 数据治理的技术演进趋势
效率、成本、客户感知和业务创新始终都是技术前进的驱动力[6],同时也是对数据治理的驱动力。数据治理不完全等同于数据管理。如何更高效、更准确、更安全地管理和使用数据、提供更佳的数据服务体验,是数据治理的演进目标。
(1)元数据管理要求的升级。元数据管理的作用会更加重要,伴随云计算、边缘计算技术的广泛应用,数据治理也相应地面临对分布式数据、分散式数据的管理和协调要求。数据存储的位置是数据治理的视线方向之一,数据治理依据元数据来展开数据的定义和管理,无论数据分散存储在何处,通过元数据都可以把它们关联在一起。对于数据的管理者,元数据不止提供对数据的功能与特性描述,还包括数据存储和索引等客观介绍;对于数据的开发者和消费者,元数据提供屏蔽数据存储和分布的技术细节,支持直接使用工具或接口对数据进行逻辑操作。
(2)数据标注对多态数据的治理支持。在结构化数据、图像、声音、视频、文字等多态存储模式下的数字化系统中,子模块系统数据和设备侧数据容易形成数据黑盒。需要预防多态存储模式下的数据成为不互通的孤岛。数据标注在业界数据湖治理中已经具备一些初步的实践,它通过对非结构化数据包含的业务实体或基础特征进行标识和注明,为数据的消费者提供查询或关联的条件,提高数据的检索和使用效率。使非结构化数据形态下的分析、关联使用成为可能。
(3)治理规则的自学习。数字孪生、虚拟现实以及不断新增的物联网设备,都会带来动态的、未知种类的新增数据。已有的数据治理规则要能够不断适应新的数据甚至业务标准,面临着向探索性、自动化、智能化的方式转变。治理规则的自学习和自优化是解决上述需求的一个可能路径。以数据标准为例,当出现新增的数据集或者样本后,对它的各个数据项进行统计分析。当其数值明显偏离其余的观测值的情况时,结合样本数据中可枚举性的原则进行匹配,制定出这个数据项的参考主数据范围。依据这样的参考主数据标准自动化机制,可以将不匹配的记录进行识别、确认并进行必要的溯源或清洗。
(4)数据安全要求的升级。由于用户数据确权复杂度加大、用户隐私的保护范围复杂化、人工智能计算过程对安全的影响、跨境数据管理的法规尚不完善,数据安全会向着更加多元化的安全防控体系延伸。基于去中心化的区块链技术在明确数据来源、所有权、使用权和流通路径、事后追溯方面有着天然的优势[7],去中心化的数据安全治理是此类场景的可选项。除了数据存储、访问、确权与应用安全的狭义数据安全,用户隐私保护、算法规则安全也都将纳入数据层面安全需要考量的内容。总的来看,安全体系的范围和纵深都会大于现阶段的要求。■