大模型+手机,安卓与苹果的分歧
2024-02-01荣智慧
荣智慧
把ChatGPT放进口袋需要几步?
在手机上运行生成式人工智能,而不是靠巨头的服务器,是最热门的科技潮流之一。
安卓手机率先抢占潮头。
2023年年初,高通展示了第一款运行Stable Diffusion“文生图”模型的安卓手机,该模型具有约10亿个参数。当年年底,谷歌公布Gemini的Nano版本可以直接嵌入安卓系统。据称,三星Galaxy手机将于2024年具备AI功能,运行大模型LLM2的微缩版。
中国手机商小米、荣耀、vivo和OPPO,先后宣布新一代旗舰机型包含“生成式人工智能”功能。
热潮之下,苹果公司显得分外沉默。
无论是手机制造商,还是芯片制造商,都希望AI重振智能手机市场。智能手机刚刚经历了十年来最糟糕的一年,出货量下降5%。
高通先亮出了“无损”运行Stable Diffusion的配置。
Stable Diffusion是利用生成式人工智能来完成“文生图”的火爆应用之一,和Dall-E 2、Midjourney齐名。
Stable Diffusion属于深度学习家族,工作人员会逐步给图像添加“噪点”,通过模型记录添加噪点的过程,再进行逆转,供AI学习。
噪点,也叫噪声,是指数码摄影器材拍摄的图像中,存在的粗糙点,一般受电子干扰产生。
从AI的角度,先看到的是一幅布满噪点的画面,再看到画面一点点变清晰,最后成为画作。AI学的是整个去噪点的过程,特别是如何处理高斯噪声(概率密度函数服从正态分布的噪声),最后生成画作。
Stable Diffusion的功能是,可以在几秒内将文本转换为512x512像素的图像;图像可以转换、放大、修改和替换;使用GFP-GAN建模,允许用户上传模糊的面部圖像,进行放大或恢复原貌。
用手机玩这类应用,人人都能随时当毕加索。
其实,“AI手机”具体能运行哪些模型和应用,目前评估为时过早。今年上市的第一批AI手机中,可能会包含一些“相对基础”的应用,比如语音控制照片编辑、简单问答等,模型参数在10亿到100亿之间。
像荣耀展示的下一代旗舰机Magic,用户通过自然语言发出指令,能让AI自动查询相册里的拍摄素材,并寻找合适的部分整合成一段视频。
号称“超越GPT-4”的谷歌Gemini的Nano版,也将落户谷歌自家手机Pixle。
Gemini为“原生”多模态大模型,可以泛化理解、操作和组合不同类型的信息,包括文本、代码、音频、图像和视频。届时用户可以在手机感受“具有Bard体验的高质量智能助手能力”。Bard是谷歌的对话式人工智能工具。
AI进入智能手机不是新鲜事,2017年就开始了。
那一年,工程师开始在片上系统(SoC)添加新的AI组件,以提高“智能”或AI助手任务的性能,并使其具有成本效益、功耗和尺寸效率—因此也相当依赖更快、更新的系统内存。
不过,之前的想法,还是集成云和终端设备来扩展应用。
比如加州大学伯克利分校有一款名为MyShake的地震预警应用程序,它使用手机中的加速度计传感器和GPS,来测量局部发生的震动程度,并结合附近其他用户的数据,在云中进行综合分析。这款应用程序想打造的,是个人地震仪或个人地震预警系统。
而当下的主流思路是实现端侧大模型推理:一方面能获得实时响应,一方面也避免个人数据上传到云端、泄露隐私。
安卓手机两款最新旗舰芯片都主打“人工智能”功能。
联发科的天玑9300,采用台积电4纳米工艺,拥有227亿个晶体管。据悉使用“全大核”CPU架构,包含4个Cortex-X4超大核,最高频率可达3.25GHz,以及4个主频为2.0GHz的Cortex-A720大核,其峰值性能相较上一代提升40%,同性能情况下功耗节省33%。
针对AI功能,天玑9300集成了MediaTek第七代AI处理器APU 790,整数运算和浮点运算的性能是前一代的两倍,功耗降低了45%。
其内存硬件压缩技术,通过量化和压缩,把大模型的内存占用降低到了5GB,让大多数用户(手机内存16GB)日常跑得动大模型应用。
高通的骁龙 8 Gen 3,为Qualcomm Kryo 64位架构,同样采用4纳米工艺制程。CPU部分为1+5+2的8核架构组合,相比上一代处理器8 Gen 2的1+4+3布局多了一个性能核心。
具体为1颗3.3GHz主频Arm Cortex-X4超大核心、5颗最高主频3.2GHz大核心,以及2颗2.3GHz主频能效核心。
骁龙8 Gen 3支持100亿参数的大语言模型。据报道,跑Llama2-7B时,每秒能生成20个Token。与此同时,8 Gen 3 跑大模型时,以往要占用10G内存,经量化后不到2G。性能相对前代提升了9.5万亿次/秒,实现30%的运算速度提升。
骁龙系有三星、华硕、荣耀、iQOO、魅族、蔚来、努比亚、一加、OPPO、真我、红米、红魔、vivo、小米和中兴等客户,天玑系历来为OPPO、摩托罗拉、vivo、小米和传音提供服务。二者有部分客户交叉。
另外,针对个人电脑的人工智能芯片也将面世。骁龙 X Elite目前已支持在端侧运行超过130亿参数的生成式AI模型,面向70亿参数大模型每秒生成30个Token,预计从2024年中期开始,就会有厂商会推出该芯片的PC版。
可以说,2022年年底诞生的对话式人工智能ChatGPT,正在加速进入C端—在PC和手机上针对个人用户提供新的互动方式,从而改变消费者的学习、工作和生活习惯。
当用户输入任何文字、声音、图像信息时,端侧的人工智能助手将即时对相关内容进行响应、调取和加工。
比如,当作者写作一篇文章时,AI助手可以随时根据关键词的输入提供相关数据和信息。
当用户在聊天对话框打出“我们约个时间吃饭”时,AI助手立刻给出日程表、地点附近的餐厅和最优路线。如果有一天AI能判断这句话是不是客套话,那就真的“神作”了。
这些场景,可能在未来的几年内实现。
生成式AI助手将成为人和所有应用之间的强大接口。由此,以应用为中心的用户界面也将被颠覆,个人和企业的生产力和生产效率也有更大的想象空间。
苹果看似沉默,其实也没闲着。它有“Apple GPT”。
2023年12月12日,苹果研究人员于arXiv发布了一篇名为“LLM in a Flash”的论文,提供了“解决当前计算瓶颈的解决方案”。
论文表示,可以利用“闪存使用”技术来解決容量限制问题;使用容量较大的闪存来存储AI模型的数据,在需要时在将数据调入内存中处理,从而“为在内存有限的设备上有效运行LLM铺平了道路”。
基于LLM的聊天机器人,比如ChatGPT、Claude等,同时处理的数据量非常庞大,往往需要调用大量内存才能运行。通常,运算数据标准方法是将闪存中的数据加载到内存中,再在内存中进行数据推理。
手机的内存相当有限,严重限制了可以运行的大模型的大小。
上文提到的安卓手机芯片,采取的都是内存硬件压缩技术—量化和压缩,通过减少数字表示位数,来减少模型的存储量和计算量。比如,深度学习一般使用32位浮点数来表示权重和激活值,用上量化,使用更短的整数表示权重和激活值,就能减少内存和计算开销。
量化和压缩肯定会导致模型准确度下降。
苹果研究人员的办法是发明了两种新技术—“窗口”和“行列捆绑”,利用大硬盘的容量承接和整理数据,而不是大力压缩模型。
据说,这方面的尝试会整合在语音助手Siri上,目标是推出与人工智能深度集成的智能版Siri。
还有传言称苹果要在尽可能多的应用程序中添加人工智能。
而且,苹果也开发了生成式人工智能模型“Ajax”—内部叫它“Apple GPT”,在2000亿个参数上运行,可能比ChatGPT 3.5强大,但应该打不过GPT-4。
有分析师表示,苹果将在2024年底左右在iPhone和iPad上推出某种生成式人工智能功能,届时iOS 18会包含此功能。几百台人工智能服务器将于这两年建成。
借生成式人工智能的东风,智能手机将迎来一轮新周期。