“数据中台关键技术与系统研究”专辑
2020-12-07导读
导读
新冠肺炎疫情全球蔓延之势不仅影响了人们的生活,更是对全球各大经济体产生了巨大冲击,这场突如其来的变故迫使所有国家选择数字化转型,为应对这场变故,我国于2020年3月提出了以大数据、人工智能和工业4.0为核心的“新基建”计划,建设在虚拟空间上的信息高速公路和基础设施,2020年4月,“数据”作为新型生产要素被写人中央文件,首次与其他生产要素并列,这标志着我国全社会数字化转型的进程正在提速,人们普遍意识到数据作为一种战略资源,正在深刻变革着人们的生活和工作、科技和产业等方面,将为引领经济和社会新常态提供强有力的支撑。
一方面,各种智能终端和移动互联网蓬勃发展,各种各样的数据呈爆炸式增长,致使数据的采集、传输、存储、管理、分析和服务都发生了翻天覆地的变化,这种变化使得科学研究在经历了实验科学、理论科学和计算科学之后,加快步入数据密集型科学时代,在这种背景下,我们更需要数据科学与工程相关的技术与方法,综合运用统计、数据挖掘和机器学习的方法快速、准确地获取大数据中的有价值信息,实现深度理解、敏锐发现与精准决策,因此,数据科学与工程学科是实施“新基建”计划的先进生产力之一。
另一方面,由于业务不断变化和日趋复杂,传统的信息化建设导致数据“烟囱”林立,表现为数据标准不统一、数据统计口径各异、数据间存在不一致甚至冲突等问题,显然,数据烟囱和孤岛的存在难以适配业务的演化和发展,同时阻碍了数据的有效利用和新兴业务的构建,成为“新基建”计划推进和数字化转型过程中的巨大障碍。
数字中台(Data Platform)以数据为中心,在数据集成(特别是语义集成)的基础上以服务的方式提供數据的全生命周期管理,为业务构建提供便利,实现数据对于应用业务的价值,是保障“新基建”计划和数字化转型顺利推进的先进生产力,在互联网、零售、制造、金融、教育、社会治理等领域数字化转型的过程中,数据中台建设已成为其中最基础、最关键的一项任务,数据中台的核心功能是提供统一、便利的数据集成、数据管理、数据分析和数据服务能力,它如同电机之于交流电,是发挥数据这种新能源动力(Power)价值的核心系统,在传统信息系统中,这一功能是由以数据库管理系统及以其为基础的ETL工具、数据仓库和OLAP系统、中间件系统等一系列平台、系统和工具共同完成的。
数据中台建设一方面需要在分布、多源、异构、演化的信息系统中实现包括数据治理、数据集成、数据管理、数据分析与挖掘、数据可视化等技术,面临着传统数据管理中既有的诸多挑战;另一方面,还需要新的数据管理和人工智能技术作为支撑,例如,它需要知识图谱支持数据语义集成和推理等功能,需要数据世系(Lineage)支持全流程的数据追踪和审计,更重要的是,数据中台需要一套新的应用建模、系统设计,以及开放架构下开发与运维(DevOps)的方法,数据中台设计、开发与运维方法及其关键核心技术的研发对于发挥数据价值、“赋能”行业领域,具有重要意义。
《华东师范大学学报(自然科学版)》2020年第5期推出的“数据中台关键技术与系统研究”专辑,总结了国内外数据中台相关领域取得的研究成果,探讨了数据中台的系统架构、关键技术、设计和开发与运维方法,介绍了重要的数据中台建设和应用案例,总结了数据中台建设的经验与教训,并展望了进一步的发展方向,专辑采用邀稿和征稿相结合的方式组织稿件,所有稿件均通过了通信评审,最终确定录用稿件16篇,并将其分为数据系统、数据治理、机器学习方法与系统、数据语义抽取和数据中台应用5个专栏。
数据系统专栏共录用3篇论文,这些工作主要探讨了分布式数据管理系统中的事务处理优化和区块链系统中智能合约生成等问题,针对多核主存数据库的高竞争负载,张舒燕等提出了事先过滤无效请求,节省系统资源、降低锁竞争;通过锁共享机制降低写操作间的锁竞争,并实现了Filmer原型系统;通过大量实验,验证了过滤和锁共享可以提高处理高竞争负载的效率,针对单主云数据库系统不支持写操作的动态扩展,卫孝贤等提出了多主云数据库系统架构,基于全局有序的事务日志,通过乐观冲突检测技术实现冲突事务的回滚,维持多主云数据库系统的隔离级别与一致性;进一步,通过全局有序事务日志的广播和回放,将主节点的修改同步到其余节点,保证了每个节点独立的服务能力;并在开源数据库MySQL上实现了整套方案,验证了方案的可行性,针对智能合约开发缺乏编程友好性,高一琛等提出了一种针对特定领域智能合约自动生成的方法,实现了对于智能合约的聚类分析以及交易类智能合约基本函数代码的生成,并且采用MFC将生成的代码和uI控件连接,为用户提供友好的智能合约编程页面,实现智能合约的自动生成,大幅减少了智能合约编程的难度和成本。
数据治理是数字化转型和数据中台的基础与核心,该专栏共录用2篇论文,分别介绍了云存储系统和双中台双链架构中的数据安全和隐私保护问题,针对云存储中电力设备图像面临着被攻击、篡改或丢失等风险,张驯等提出了一种适用于云端电力设备图像的完整性审计方案;在图像切割的基础上,采用尺度不变特征转换算法提取图像块特征,在Merkle哈希树的节点上增设访问等级位和更新状态位实现图像完整性审计;理论分析和实验结果表明,在图像完整性审计时具有较低的计算开销和较高的审计效率,并且对图像的不完整区域能够进行准确定位,针对双中台双链系统中数据共享存在的安全隐患,刘峰等提出了一种交互式协议来解决内生性数据的安全与隐私问题,保证数据在上链前的传输信道中不被篡改。
机器学习方法与系统是数据中台中获取数据价值的核心工具,该专栏共录用2篇论文,分别介绍了基于编码器一解码器的图像描述和深度神经网络模型压缩的最新研究进展,针对已有编码器一解码器结构处理图像时可能遗失细节信息以及训练时间过长的问题,王俊豪等提出了包含紧凑的双线性编码器和多模态解码器的图像描述方法;在编码阶段,紧凑的双线性池化用于编码细粒度的语义图像区域特征;在解码阶段,从细粒度的区域目标实体特征和目标实体类别特征中提取多模态特征,并将其与整体编码后的特征融合用于解码语义信息生成描述;在公开数据集上的实验表明,该方法取得了很好的图像描述效果,针对目前深度神经网络模型内存消耗高和计算量大的缺陷,赖叶静等介绍了4种具有代表性的深度神经网络压缩方法:网络剪枝、量化、知识蒸馏和紧凑网络设计;分析了近年来代表性网络压缩方法的特点,总结了模型压缩的相关评价标准和未来研究趋势。
数据语义抽取是数据中台区别于已有数据平台的典型特征,该专栏共录用3篇论文,分别综述了图顶点表示学习、文本语义相似度度量和基于远程监督的关系抽取研究进展,周晓旭等介绍网络顶点表示学习的动机及其挑战,从基于分解、基于随机游走和基于深度学习三大类方法的角度介绍了网络顶点表示学习的最新研究进展,韩程程等介绍了语义文本相似度计算的最新研究进展,主要包括基于字符串、基于统计、基于知识库和基于深度学习的方法;针对每一类方法,不仅介绍了其中典型的模型和方法,而且深入探讨了各类方法的优缺点,并对该领域的常用公开数据集和评估指标进行了整理,最后讨论并总结了该领域未来可能的研究方向,王嘉宁等介绍远程监督关系抽取的概念和形式化描述,从训练数据集中存在噪声、信息匮乏以及非均衡这三个方面对比分析相关方法及其优缺点,并对公开数据集以及评测指标进行了解释和对比分析,最后探讨了远程监督关系抽取的新挑战以及未来发展趋势。
数据中台打破传统信息化体系中的数据烟囱,可以对数据进行分类、整理、加工、处理,使其成为清晰有序、有条理、有脉络的可用信息,从而支撑形形色色的应用,数据中台应用专栏共录用6篇论文,陈炳等研究了数字政府的特征,阐明了政务中台建设是构建数字政府的重要支撑;结合上海市“一网通办”的建设历程,介绍了政务中台中业务、数据、应用这三方面的实践,任寅姿介绍了一种面向业务侧的数据资产建设新方法,支撑数据中台的资产服务能力,张国芳等提出了一种基于自编码器的异常检测算法,实现大规模电力系统日线损率数据的异常检测,郭晓哲等提出了一种面向电商领域智能客服的生成一检索式对话模型,在真实对话数据集上的实验表明,该模型比单一的检索式或者生成式模型在多轮对话建模上表现得更为优异,徐一文等综合运用传统手动分类特征和交易流水的深度时序特征,构建了聚合支付平台上的商户流失率预测模型,李小昌等提出了一种基于自编码器的深度表征学习模型Mean-Attn,用于发现旅行同伴;在轨迹表征阶段,该方法使用低维稠密向量表征、位置编码技术和注意力机制实现空间和时间信息的嵌入表示;通过对嵌入向量的聚类发现旅行同伴。
本专辑的出版正值华东师范大学数据科学与工程学院成立四周年之时,谨以此专辑为数据科学与工程学院贺岁,并对关心与支持数据科学与工程学院发展的各位同仁表示衷心的感谢,最后在专辑出版之际,谨在此衷心感谢提供优质稿件的各位作者和参与稿件评审的各位专家学者,特别感谢华东师范大学学报期刊社自然科学版编辑部各位老师的辛勤工作和大力支持,正是他们冒着酷暑不辞辛苦地加班工作才让本专辑得以顺利出版,希望本專辑为数据中台技术的研发提供一个窗口,顺利推进我国“新基建”计划的实施和数字化转型。