云边一体的下一代智能协同交互技术研究
2019-09-23唐毅常诚
唐毅 常诚
一、边缘计算与云计算
一般来说, 边缘计算(e d g e computing)是指一种将应用程序及相关服务的运算,由网络中心节点移至网络逻辑上的边缘节点来处理, 目标是加快数据处理与传送速度,减少延迟。这里提到的边缘节点可以是各种具有计算能力的传感器, 小到终端嵌入式芯片, 大到智能汽车。 Garnter 在Top 10 Strategic Technology Trends for 2019 中提及从现在起到2028 年, 从工业基础计算单元, 智能手机到智能驾驶的能源管理, 边缘计算设备将日趋智能化。
边缘计算通常会被与云计算做比较, 但这并不意味着边缘计算要取代云计算。 实际上, 边缘计算与云计算各有所长, 当前云计算的优势已被业界所熟悉, 云计算擅长需要海量可扩展存储能力, 非实时且周期相对较长的数据处理和分析, 而边缘计算脱胎于云计算, 它擅长的是局部短周期数据的实时处理和分析。 从当前工业界面临的实际情况出发, 云计算与边缘计算之间不是替代关系, 而是互相协同的关系, 二者之间紧密结合才能更好地满足各种需求场景的匹配。
近年来, 随着智能终端设备的普及, 在各种社交应用中记录和分享更丰富的多媒体内容逐渐为用户所习惯。 随着移动通信服务的持续优化, 通讯延迟将不再是瓶颈, 这就意味着在人与人之间的无缝协作形式将可能被赋予更多的可能性, 尤其是AR ( 增强现实 )和 MR ( 混合现实 )等技术的逐渐成熟可以带给人们更加沉浸式的协作体验, 同时, 这些新技术需要实时同步大量真实场景的建模数据, 对设备间通讯的带宽和延迟有着极高的要求。
不难想象, 数据处理的实时性要求部分计算能力必须移至边缘节点以缩短相应时间, 此外, 部分数据由于要确保私密性与安全性也不适合交由云计算来处理。 同时, 云计算可以统一管理和调度边缘节点, 通过汇聚边缘节点的数据以及部分计算结果, 优化和更新模型或者业务规则下发到边缘侧,形成良性循环。
二、目前协同交互技术的现状及挑战
为了应对未来用户间大量数据低延迟无障碍的沟通, 不论是移动运营商还是应用开发商都需要提供系统级的解决方案。 小到一起完成一次课程作业, 大如跨部门远程完成整车设计, 企业内部或者个人用户之间通过更丰富的交互方式能够降低沟通成本, 促进创新, 而希望增进协作方式的多样性和实时性已经成为企业和大众迫切的需求。
目前面向企业或者个人的在线协同工具大多都已支持多人在线实时编辑一般类型的数据如文本和手绘图形等, 然而大多数情况下这种协作是碎片化的, 缺乏一致的用户体验, 而且基于的技术实现也不统一。 三维重建技术是增强现实(AR)技术的基础, 经过扫描重建后的3D模型可以直接应用与 AR 或者虚拟现实(VR)的不同场景中, 从而增强用户沉浸式的交互体验。这里我们以对三维图像的在线协同为例来讨论印象笔记对云边一体下的下一代协同交互技术的探索和思考。
三、边云协同与三维重建
利用相机进行三维重建在学术和工业界已经不是一个新鲜话题, 然而商用的解决方案还停留在需要多种图像设备配合并结合大量的后端计算来解决。 随着消费级“深度感知相机"即基于结构光的RGB-D(RGB+ Depth)相机的在手机移动端的广泛使用, 以及手机移动端自身计算性能的提升,利用移动端相机进行三维重建将成为现实。基于RGB-D相机的三维建模方法在已经在国内外展开了不少的研究, 比较有名的是KinectFusion、Kintinuous,ElasticFusion,InfiniTAM,BundleFusion等, 工业界的实践中国外如 Apple公司,国内如小米和 oppo 等公司都在积极推动深度相机在手机上的应用。
5G网络时代的到来将使得边缘计算与云端海量存储与大数据处理更为有效的结合,印象笔记正在探索如何利用边云一体来搭建新一代的技术架构, 印象笔记愿景是要做用户的"第二大脑", 大脑对真实世界的建模能力自然是我们希望接近或者达到的目标之一。 印象笔记拥有一款名为“扫描宝”的移动端手机应用, 目前该应用可通过手机的摄像头识别纸张边缘,不需要额外的手动操作即可完成扫描纸质文件, 自动对文件增强对比,自动纠正倾斜,同时也可以去除文件中的阴影, 使得扫描后的文档可读性更强, 搭配印象笔记本身的多端同步功能可以实现纸质文件的跨平台处理和归类功能, 在这些功能背后所基于的技术是印象笔记自主实现的计算机图像识别算法。结合三维图像的重建技术, “扫描宝”有望成为边缘节点中对真实世界进行三维采样的有利工具之一。
为了应对前述提及的用户对更丰富多样的内容进行协作, 在信息采集时就需要做好准备, 以印象笔记的扫描宝为例, 3D圖像的建模功能将使得内容的收集变得更为多样化, 同时在移动设备上采集三维信息之后如何有效的保存和展现给用户也是我们需要面临的课题。
四、模块化的内容记录与组织
为了应对更为丰富内容的记录与编辑, 传统的编辑器技术往往显得有些力不从心。 传统上所见即所得(What You See Is What You Get)的富文本编辑器旨在辅助用户编写以文本为基础的内容, 衡量富文本编辑器的先进性的指标有很多, 诸如工具栏可支持的功能数量, 编辑器可支持的格式等等。 很多标准如今仍然成立, 然而, 工业界最新一代的编辑器的目标已不再只是用于打印或者出版, 它所编辑的内容将会在浏览器或者诸多显示设备上呈现, 内容可以是实时的, 可交互的, 甚至是多人参与的可协作的内容。
一般来说, 使用浏览器原生的ContentEditable 属性, 这是绝大多数现有富文本编辑器所使用的实现方式。 然而ContentEditable的缺陷也很明显, 使用它来编辑文本, 即便是最简单的诸如字体加粗或者换行, 不同的浏览器内核对其的实际的实现都不尽相同, 由于不同设备或者平台对浏览器的支持不同, 在客户端A 和客户端 B 上使用基于ContentEditable 实现的同一个编辑器来处理相同内容,极有可能出现严重的数据不一致问题, 当面临更加丰富的多媒体数据时该编辑器将会束手无策。
印象笔记目前正在积极探索改造其编辑器内核, 与传统编辑器最为主要的差异有如下几点:
编辑内容与视觉呈现完全分离, 在依然使用contentEditable属性来处理输入和选择的同时,定义一套编辑器内部使用的数据模型( data model) ,无需直接处理 DOM。 通过捕获用户的操作行为,由原先的直接操作 DOM,改为更新数据结构状态,再将更新后的状态映射至用户可见的编辑器视图的方式,来实现编辑器的所见即所得,这样用户的操作行为对数据结构的更新是非常可控的, 同时contenteditable所带来的副作用也消失了。
用户对重新定义的内部数据结构的所做的任何操作都要满足join semi-lattice 所要求的 3 种特性即交换律,幂等律和结合律,从而使得编辑器可支持任意类型数据的在线协作。
编辑器将采用可扩展的插件式架构, 从可处理内容的格式到内容的组织和呈现都将变得更加自由, 与印象笔记其他的系统无缝对接的同时也可以很方便的接入外部服务。
为了满足用户对 AR/MR交互的需要, 也就是对三维模型支持实时的在线协作, 除了边缘设备上的图像采集和更为自由的编辑器之外, 协同交互技术也面临相当的挑战。
五、协同编辑技术的进化
自谷歌推出商用在线协同文档已有十年, 与之相关的解决实时协同操作一致性问题的算法研究也有20多年的历史。 实现实时交互的关键技术之一就是如何在不影响开发效率的前提下如何支持不同交互原子操作的冲突合并和最终一致性问题, 一般来说目前有两类实现方式, 一种称之为操作转换( operation transformation),简称 OT, 另一種称之为可扩展性无冲突复制数据类型 ( conflict-free replicated data type), 简称 CRDT。
OT算法自上个世纪 80 年代到如今已经有近 30 年的历史, 一直被作为很多在线协同编辑工具的解决方案。它的基本思想是本地产生的操作立刻执行, 本地需要将接收到的远程操作与本地操作历史中已执行的并发操作进行操作转换后再执行。 虽然 OT 具有较好的本地响应速度, 但是随着要支持的操作类型的增加, 设计正确的操作转换函数会变得相当困难。
CRDT作为一类新的协同编辑算法诞生较晚, 由法国的 INRIA 最早提出。 该算法的特点是不需要保存操作历史, 并发操作之间也不需要进行操作转换。 通过分配给所有操作对象唯一的标识符ID, 使得并发操作之间可交换执行。 大部分 CRDT 算法具有良好的伸缩性, 适合应用于大规模的协同编辑领域。 CRDT 算法的挑战是如何合理设计操作对象全局唯一的 ID, 以及如何减少各种操作类型在网络上传输的效率问题等。
CRDT与 OT 算法都有各自的优势与不足, 以对三维图像的协同编辑来说, 除了要解决对三维模型的各种编辑操作支持冲突合并以外, 还要解决相应的计算机视觉模型的训练和更新问题, 真正做到边缘设备实时处理, 云端设备批量更新的边云协同。 印象笔记为了适应下一代协同编辑要支持的多数据类型间操作的一致性和可扩展性, 正在积极尝试综合两种技术的长处从而改进现有的CRDT算法, 支持多数据类型实时同步,更好的解决最终一致性问题。
六、未来展望
为了应对用户未来多种多样的实时协作形式, 只有充分利用边缘计算与云计算的优势才能找到有效的解决方案。 印象笔记正在积极探索下一代云边一体的交互技术, 在边缘节点处理数据的实时采集和分析, 在云端利用服务器来统一管理边缘节点的身份验证和数据同步问题, 利用改进的 CRDT 技术来处理边缘节点之间, 边缘节点和云端服务器间的操作一致性问题, 希望可以为下一代协同交互提供一整套系统级解决方案。
作者单位:唐毅 印象笔记首席执行官
常诚 印象笔记研究院院长