面向企业服务的广西人工智能测训平台设计与实现
2024-08-05朱琳梁琪何政原策
摘要:近年来,国家高度重视人工智能(AI)的技术进步与产业发展,在人工智能领域的投入不断加大,各类AI产品不断涌现,服务市场快速成长。文章提出一种面向企业服务的人工智能测训平台,采用人工智能算法模型设计平台的整体架构,构建数据标注及特征工程、数据安全沙箱、模型训练及调优、算法模型发布及评估、资源管理、在线开发工具等核心功能。该平台在技术、运营及场景层面均取得了创新性突破,为缩短人工智能算法和模型的研发周期、提高人工智能核心技术的突破能力和突破速度创造了条件。
关键词:人工智能;测训平台;企业服务;AI模型
中图分类号:TP18" " 文献标识码:A" " " 文章编号:1674-0688(2024)04-0107-04
0 引言
2017年8月,国务院印发的《新一代人工智能发展规划》中提出,到2030年我国的人工智能理论、技术与应用总体达到世界领先水平,成为世界主要人工智能创新中心。此后,全国各省市先后发布人工智能专项规划政策,以期引领新一轮科技革命和产业变革,抢占发展先机。人工智能在各行业领域的应用取得了不少的研究成果,例如杨平等[1]研究人工智能深度学习训练与服务平台,提出一种5G端到端的服务赋能体系,从而实现各类应用服务的快速构建;张树军[2]探讨人工智能技术在实训室建设中的应用,提出建设集教学、实训与练习于一体的开放式平台,使师生可以通过手机、电脑或实验设备,不受时间和地点的限制完成教学实践任务;陈正宇[3]的研究构建了面向特定领域的人工智能训练与服务体系,例如在医学场景中提供人工智能在医疗领域的相关知识、代码和数据集展示,同时提供医疗数据标注及医疗模型构建、训练、部署等一站式模型开发功能,在面向企业服务时,该体系同样可以作为借鉴和参考。本文研究面向企业服务的广西人工智能测训平台,旨在弥补企业端平台赋能服务的空缺,加速广西企业快速创建和部署AI模型,推动广西人工智能产业发展迈入快车道。
1 国内外人工智能测训发展现状
当前,英国、日本、德国等20多个国家和地区已在大力部署人工智能产业,力图在新一轮国际科技竞争中掌握主导权。我国高度重视人工智能技术的发展,在人工智能测训方面,“百度”是国内首家面向企业服务并开源人工智能训练平台的AI公司。人工智能训练平台的核心在于深度学习框架PaddlePaddle与Kubernetes技术的结合,摒弃了虚拟机底层技术的支持,采用Docker的容器化技术与Kubernetes的容器调度方案实现云计算平台的高效性和实用性。国内多家AI独角兽公司,例如北京市商汤科技开发有限公司、北京旷视科技有限公司、北京地平线机器人技术研发有限公司等,因种种原因而未对外提供人工智能训练平台服务,这些公司内部均拥有自己的人工智能训练平台,并且平台都是采用Docker技术和Kubernetes方案的组合方式实现。国际上,亚马逊公司提供的收费平台AWS(Amazon Web Services)是著名的人工智能训练平台之一。在AWS上,用户可以创建并运行自己的任务,其技术原理同样是基于Docker技术和Kubernetes方案的组合。与此同时,国外的FloydHub平台也正式对标AWS,其功能和技术原理与AWS相似,但收费相对较低。此外,谷歌公司内部使用的DeepMind平台以及微软公司内部使用的AzureML、Philly、7i等云训练平台,其核心思想和实现原理都是以容器化为核心,以Kubernetes的容器调度方案为辅助,满足用户资源的申请和使用需求。
随着人工智能技术与各行业领域的深度融合,广西人工智能产业的发展趋于多元化。人工智能与各产业的融合发展在拓宽人工智能应用领域的同时,也在优化企业的管理与服务,简化服务流程,为企业带来更大的经济效益。广西在人工智能赋能的各个层面都取得了一定的成果,尤其在应用层面呈现出蓬勃发展的新态势,但在面向企业端的赋能平台上,服务能力不足。
2 广西人工智能测训平台的设计与实现
2.1 平台整体架构
广西人工智能测训平台提供一站式模型开发管理服务,涵盖从算力资源管理、数据接入、数据标注、数据集管理、模型构建、模型训练、模型管理、部署上线到服务监控全流程的服务能力,同时平台提供智能服务开放窗口,实现在线功能体验、申请试用、方案成果展示、技术研讨交流等功能。平台整体架构见图1,其中SDK是对lib、dll、.h、示例等进行封装后可直接调用的文件,API是提供编程时的接口,一般情况下API包含在SDK中,vGPU是虚拟桌面上渲染图形的组件。
资源层主要实现对硬件资源的维护管理;平台层主要提供从数据到模型服务的分步构建功能;用户层主要是为不同类型的用户提供差异化服务。
(1)资源管理模块。该模块为平台的资源提供了统一的管理和维护功能,管理者可实时查看平台拥有的算力资源,同时对资源进行分配,满足入驻企业对算力资源的需求[4]。入驻企业可根据业务需求申请平台的算力资源,审批通过后即可使用。
(2)数据处理模块。该模块提供在线数据预处理功能,可对接入平台的原始数据进行加工,转换成符合模型开发的训练数据集;转换后的数据可发布共享,入驻企业相互间可节省数据标注的时间。
(3)模型训练模块。该模块为算法工程师、模型调优者提供低门槛、标准化、流程化的开发方式,预置和内置了各种软件常用环境和AI引擎,让开发者不需要过多地关注底层实现即可以完成AI模型服务的开发。
(4)模型部署与服务模块。该模块提供模型版本的管理功能,可以发布不同的模型版本,实现模型的共享,同时支持对模型的一键化服务,极大地缩短了模型工程化的时间。
此外,为了更好地扩大征集智能场景需求的范围、宣传和推广入驻企业的智能服务与应用成果,系统设计了AI开放门户,以更好地平衡、匹配AI服务的供需关系,让社会上更多的主体参与广西人工智能服务的建设。
2.2 平台核心能力设计
广西人工智能测训平台主要包括开放服务子系统和智能服务构建子系统两大部分,开放服务子系统的建设主要为智能服务的需求方和提供方及社会公众提供服务,使用者可以实时在线关注平台的资信、资源服务、模型服务、应用案例、平台介绍等信息。需求方可以在线提出场景需求,平台运营方在线对接场景需求,遴选符合要求的智能场景需求并发布,有能力或感兴趣的机构可以在线承接。
智能服务构建子系统的建设针对数据管理者、数据标注者、模型开发者、场景应用开发者,提供数据接入、数据标注、模型训练、模型评估和AI模型推理等服务。各模块分层解耦,独立运行,满足不同用户的不同需求。例如,模型服务提供者可以利用算力资源,通过将模型镜像部署至算力资源平台的方式或通过服务接口注册的方式提供AI模型服务。平台的各模块既可以独立运行,又可以相互拼接,以满足不同用户的实际需求,有利于构建AI服务,快速响应AI场景需求。
根据系统的架构设计,平台主要由数据标注及特征工程、数据安全沙箱、模型训练及调优、算法模型发布及评估、资源管理、在线开发工具等核心功能组成。
2.2.1 数据标注及特征工程功能
数据标注及特征工程功能充分对接数据平台,利用数据平台实现数据标准化、特征工程和数据管理等。根据训练数据需要形成标注数据的标签库,对标签进行多层次的关联管理,并对图片、文本等进行自定义标注,满足训练数据的需求[5]。训练任务可引入创建好的数据集作为训练数据集,也可导出标注文本,在线下训练数据。特征工程包括训练数据特征信息查看、数据集版本筛选、特征指标查询、特征任务维护、特征任务启动、特征任务停止、特征任务进度查看、特征任务评估、数据集特征分布情况展示、历史特征工程任务列表查询、特征工程统计分析(如效果、使用率等)。
2.2.2 数据安全沙箱功能
数据安全沙箱是平台构建的独立运行环境,具备独立的存储资源、计算资源、网络资源和环境资源[6]。数据沙箱通过特定的开放性网络端口与特定的安全交换服务进行通信,通信的数据经过特定密钥加密脱敏处理,以保证数据来源单一、可控和安全;沙箱之间通过不同网络区域互相隔离,相互之间无法通信,保证数据的可控传输和安全转移。
针对需要专门资源和对运行环境有要求的入驻机构和企业等主体,平台可灵活提供线上和线下2种数据安全沙箱的使用方式,依托AI平台的硬件资源,结合虚拟化技术,为入驻机构和企业按需提供开发、测试和生产发布全过程独立、隔离的运行环境。入驻机构和企业可以在隔离的环境中完成模型开发、训练、优化、测试和发布工作。线下模式和线上模式的数据安全沙箱流程分别见图2和图3。
2.2.3 模型训练及调优功能
基于数据资源和算力资源,平台已预置并优化常用的AI模型训练环境,通过内置通用的AI引擎、构建容器机理、简化模型训练流程,降低了模型训练的门槛,为入驻企业和机构提供充分的模型训练和模型管理服务,使入驻企业和机构能更专注于智能应用服务的开发。机器学习或深度学习模型训练需要大量的重复循环过程,如果运用训练好的模型预测未知数据时发现效果不理想,则需要对模型进行优化处理。为此,平台设计了多种优化模型的方法,如增加训练集、调整正则化参数、减少特征数量等。
2.2.4 算法模型发布及评估功能
平台通过在线建立评估任务,选择统一的测试数据集,配置一致的基础环境,设定相关算法模型的评估指标。启动评估后,平台自动采集相关信息并进行信息的处理和查询。根据智能场景的需求,入驻企业和机构利用平台的数据资源和服务资源研发的人工智能模型必须通过“公平、公正”的测评后,才可应用于实际中。平台提供在线的算法模型评估,既可保证在相同环境、相同测试数据集下评估条件的一致性,也可保证评估过程、结果的可信度,并且能有效节省人力、物力。
2.2.5 资源管理功能
平台的资源管理模块主要包括数据资源管理和算力资源管理。数据资源管理是通过对接人工智能场景需求的原始数据以及由原始数据衍生的训练数据,对数据资源进行多维度(来源、用途、类型等)管理,并且按需提供受限的共享服务,在安全共享的前提下,满足入驻机构对数据资源的需求,实现数据资源的价值。算力资源管理是提供AI中心IDC(互联网数据中心)机房所有算力资源的管控服务,包括x86服务器、ARM(Advanced RISC Machine)服务器,对核心算力资源进行维护,形成算力资源池,进行统一的管理和分配,实现对算力资源的最大化利用。
2.2.6 在线开发工具功能
平台提供交互式的在线开发环境,用户可以通过Notebook编辑文本,引入多种类型文件,以交互模式运行代码及查看结果等。对于在线开发环境,平台支持多种AI引擎的应用,即同一个实例可以使用所有支持的AI引擎,不同引擎之间可快速、方便地切换。
3 广西人工智能测训平台的创新点
广西人工智能测训平台为响应智能场景需求的技术攻关提供了简易化、标准化、流程化的全流程服务,加速了技术的突破和融合应用。平台各功能模块可独立运行,也可通过相互拼接实现全流程服务。针对人工智能模型评测难、转化难等问题,建设算法模型的评测模块,该模块可以有效地评估人工智能模型的各项核心指标,提高成果质量,是投入实际生产应用的基础。
(1)从技术层面看,平台遵循“高内聚,低耦合”的设计思路,基于大数据、大规模分布式训练和环境依赖等方法,突破人工智能服务的基础软件环境,实现了AI引擎和容器技术的融合应用,为创新构建AI研发工具、实现数据智能标注和数据安全沙箱功能、AI模型在线检验评测、AI算法综合评估、自动化模型生成、AI供需对接、标准体系建立、创业咨询、孵化培育、培训实训等AI全生命周期提供了技术支持。
(2)从运营层面看,平台构建了完整的运营体系,内置离线环境依赖和AI引擎环境,支持平台不断扩展,增强AI平台的安全性和强分离性。通过对算力资源细粒度进行优化管理,支持用户最优、任务最优及系统最优的多维度资源智能化分配,实现资源的高效利用。
(3)从场景层面上看,平台实现了核心算力资源GPU(图形处理器)的池化及统一的资源监控与动态扩容。平台集场景需求对接、数据集、数据标注、模型生产、模型服务、服务开放于一体,并且各模块可相互独立工作,互不影响,形成一批有特色、有影响力的人工智能应用场景。
4 结语
随着科学技术的不断进步,通过人工智能赋能企业服务成为企业发展的重点方向。本研究可以为企业提供人工智能应用的标准化产品,使企业全面、深入地了解运营过程中对人工智能技术的需求,并针对企业需求有针对性地提出解决方案,推动人工智能算法模型在各领域的应用,最终起到降本增效的作用。目前,广西的大部分企业仍缺乏应用人工智能的意识,特别是缺乏对当前热点大模型的了解,技术创新能力较弱,难以适应人工智能赋能企业发展的转型需求。因此,本研究的意义在于推动广西企业聚焦人工智能应用场景需求的落地,促进人工智能技术与广西当地产业经济、社会治理和民生服务的深度融合。
5 参考文献
[1]杨平,裴霁.一种使能5G的AI深度学习训练与服务平台[J].邮电设计技术,2020(12):61-64.
[2]张树军.基于人工智能的开放式实训平台模式探讨[J].黑龙江科学,2021,12(21):130-131.
[3]陈正宇.面向医疗领域的人工智能模型训练平台的设计与实现[D].北京:北京邮电大学,2024.
[4]华程.基于云计算的人工智能训练平台应用策略研究[J].电信快报,2021(1):17-19,42.
[5]郑琳欣,朱大智,吉承文.人工智能数据标注格式转换方法[J].数字技术与应用,2023,41(6):164-166.
[6]童伟,邱枫.基于Hyperledger Fabric框架区块链基础平台安全沙箱机制研究[J].长江信息通信,2023,36(4):26-29.