AI大模型未来将走向何方广泛应用成首要挑战

2021-01-13王雄

计算机与网络 2021年22期

王雄

目前在AI行业，大模型火到“破圈”。华为云盘古大模型的机场广告在首都机场和深圳宝安机场亮相，主打“行业AI开发应用优选”的定位，引发了广泛关注。

以往，AI大模型这类基础设施层面的前沿技术极少在大众广告渠道被看到。如今，大模型不仅成为众多AI行业峰会中被高频讨论的热词，在AI行业之外的影响力也日渐扩大。这些都表明，AI大模型正在加速走出实验室，成为赋能各行各业的通用AI基础设施。

自2020年OpenAI推出NLP大模型GPT3至今，全球范围内AI大模型迎来爆发式增长，参与企业越来越多，参数级别越来越大，成为新一轮AI竞赛的赛场。目前，大模型吸引了谷歌、微软、英伟达、华为、智源研究院、百度、阿里、商汤、浪潮及中科院自动化所等科技巨头和顶尖科研机构参与其中，各家大模型的参数量级也从千亿、万亿，迅速跃迁到了10萬亿级别。

同时我们也看到，大模型火爆的背后却面临广泛应用的困局。技术很牛，落地很难，不够接地气成为业界对大模型发展的普遍认知。大模型百家争鸣的格局背后，AI行业更需要冷思考。

AI大模型应该为应用而生

为什么众多科技巨头扎堆推出大模型？

这要回归到AI落地的核心挑战。国际欧亚科学院院士、华为云人工智能领域首席科学家、IEEE Fellow田奇认为，AI进入千行百业面临很多挑战，其中最重要有3点：第一，AI场景碎片化使得AI技术难以大规模复制。传统的定制化、作坊式的模型开发方式是“一个场景一个模型”，无法复用和积累，导致AI开发的高门槛、高成本；第二，如何将行业知识与AI技术相结合，跨越行业专业技术知识与AI技术之间的鸿沟；第三，AI技术一直面临攻击、隐私、安全以及可解释性方面的难题。

AI大模型拥有超大规模参数、巨量训练数据，通过模型的巨量化可以提高人工智能的通用属性，降低人工智能的应用门槛。正因为直击AI落地的挑战，大模型成为很多AI企业的共识。

那么，AI大模型能带来科学计算的范式革命吗？目前还存在哪些局限？2021年10月，华为云AI院长峰会汇聚了AI产学研各界的最强大脑，来自华为的AI科学家与来自中国科学院、中国工程院以及国内30余所顶尖高校的数十名院长、教授关于AI大模型的现状和前景进行了专业的探讨。各界大咖普遍认为，目前AI大模型最大挑战在应用落地，如何让更多行业和场景真正用起来。

首先，不是所有场景都需要大模型。大模型在医药研发、卫星遥感、灾害评估、自然生态监测等场景有巨大价值，但一些数据量小、任务并不复杂的场景，并不适合使用大模型，相当于“大炮打蚊子”。

其次，大模型不是参数数量越大越好，如何广泛应用才是最大价值和难点。大模型应用价值取决于其泛化能力，能否快速适配不同场景。

一位AI领域教授认为：“大模型不在于大，而在于能不能解决应用的问题，是不是来自于真正的需求，怎么样能够在更广泛的应用场景中用起来，这是目前大模型最大的挑战。”

“大模型应该是AI走向下一个时代的跳板，大模型的大一定是体现它能够去掌握、组织更大量的数据，而不是模型的参数量大。”一位华为云高级研究员也持同样的观点。

第三，大模型不是万能的，不应该希望一个大模型能解决所有问题。

“如果大模型想要实际用得比较好，一定要有配套的工作流，如果把下游的工作流程给搭建起来，大模型在很多场景上能够得到比较好的应用。”该高级研究员表示。

深入AI落地的无人区

如果说参数的直观对比类似外行看热闹，那么，落地能力才是大模型实力的真正较量。

目前，大模型在落地层面还处在探索的初期，各大科技巨头都在摸索尝试。其中华为云盘古大模型在行业应用方面走得更远，已经在能源、零售、金融、工业、医疗、环境和物流等行业的100多个场景实际应用，让企业的AI应用开发效率平均提升了90 %。

2021年4月华为云发布的盘古系列预训练大模型具有超大规模参数、超高精度的特质，还提供模型预训练、微调、部署和迭代的功能，以减少行业侧的数据标注依赖，从而降低人工智能开发的门槛和成本。

华为云盘古系列大模型包括NLP中文语言大模型、CV视觉大模型、多模态大模型和科学计算大模型。盘古大模型家族还在不断壮大，2021年9月华为云新推出盘古药物分子大模型，其研究了17亿个小分子的化学结构，可以高效生成药物新分子，计算蛋白质靶点匹配，预测新分子生化属性，并对筛选后的先导药进行定向优化，实现全流程的AI辅助药物设计。

在众多行业场景中，还存在着大量AI尚未落地的无人区。其中很多场景都有这样的特征：样本复杂多样且不均衡，如果使用传统AI模型标注成本高、效率低、准确率也有待提升。这些场景正是盘古AI大模型的典型应用场景之一。盘古大模型把自己化作AI世界的开路先锋，深入传统AI模型难以触及的领域，不断探索AI落地的前沿。

在电力行业，国网重庆永川公司在智能电力巡检场景用无人机代替人工进行缺陷检测，但面临海量数据标注工作量大和缺陷种类繁多等问题。盘古CV大模型利用海量无标注电力数据进行预训练，并结合少量标注样本微调的高效开发模式，提出了针对电力行业的预训练模型。应用之后，样本筛选效率提升约30倍，筛选质量提升约5倍，以永川每天采集5万张高清图片为例，相对人工标注一天可节省170人。

同时，结合华为云盘古大模型搭载的自动数据增广以及类别自适应损失函数优化策略，可以做到一个模型适配上百种缺陷，一个模型就可以替代永川原先的20多个小模型，极大地减少了模型维护成本，平均精度提升18.4 %，模型开发成本降低90 %。

在金融行业，金融机构担保贷款通常要求企业提供不动产担保。原因在于动产移动性较强，很难控制动产的去向和价值，监管难度大，银行提供贷款风险较高。因此动产很难作为抵押物进行融资贷款，造成中小企业融资难的困境。

浦发银行的浦惠云仓项目利用人工智能、物联网、区块链、金融科技等相关技术，能够智能地监测收货、入库、在库、出库等环节，识别异常行为，确保货物“不调包”和货物数量准确。该项目采用华为云盘古大模型，用一个模型覆盖全部9种物流场景，通过对人员异常行为、入库/出库异常检测、叉车轨迹异常识别等全部流程检测，实现了对动产的实时监管，增强了银行风控能力。另外数字化也提高了动产解质押、出库、进入市场等环节的流通时间，将原来的120天资金占用回款周期缩短到20～30天，大幅降低了企业的融资成本。

在生态监测方面，华为云盘古科学计算大模型实现了对全球海浪浪高的实时预测，在精度和覆盖范围与传统科学计算相当的基础上，将预测速度提升到了原来的10 000倍。

在时尚产业，华为云盘古多模态大模型强大的跨模态检索、跨模态生成能力，不断延伸AI的创造力。通过以文搜图和以图搜文能力，可以实现趋势预测。通过以文生图和以图生图能力，盘古多模态大模型可以通过文本控制来快速生成服装图片，供人类设计师参考。

优秀的泛化能力是如何炼成的

当大模型普遍受困于落地难题，为什么盘古大模型率先做到了广泛应用？这离不开其开发过程中首次采用的众多领先技术。

比如，盘古大模型首次在对比度自监督学习中引入了样本相似性，使得小样本学习的能力获得了显著提升。盘古CV大模型是首个判别与生成联合预训练的模型，其小样本学习在10 %的标签分类上精度达到了业界第一。盘古大模型首创采用“阶段式训练”和“动态冰化”策略，显著提升大模型训练的稳定性和效率；在下游应用中，仅需少量样本和学习参数即可完成千亿规模大模型的快速微调和下游适配等。

作为盘古大模型的设计师，田奇此前曾表示，盘古大模型设计之初秉持了三个核心原则：“第一，网络规模要大；第二，模型大但不能臃肿，有强壮的网络架构，希望它是百米冠军，系统的性能要做到极致，综合性能提升10 %以上；第三，希望它有优秀的泛化能力，也就是场景覆盖率要高，不仅是单项的百米冠军，也希望是10项全能冠军。”

之所以坚持这样的技术路线，源自盘古大模型的初衷：让AI开发由作坊式向工业式转变，降低行业AI开发应用门槛，让大模型真正走进千行百业，不再只是大资本和大实验室的专属。在AI走向千行百业过程中，华为云盘古大模型在行業落地方面快人一步，能够帮助行业专家快速掌握AI技能。

放眼全球AI产业，大模型已经成为国际间AI技术竞争的一个热点，通过大模型构筑中国AI技术竞争壁垒，是这一代中国科技企业的机遇和挑战。中国工程院院士、鹏城实验室主任、北京大学信息科学技术学院院长、教授高文院士曾指出，中国的人工智能产业有政策支持、数据资源、应用场景、青年人才4个长板。其中，丰富的数据资源和应用场景是我国AI产业非常突出的优势。

将散落在各行各业的数据生产要素价值发挥到极致，AI大模型大有可为，尤其是当AI大模型与行业专家的知识相结合，必将开启新一轮的AI应用浪潮，爆发出巨大的价值。