APP下载

文化与科技的双向奔赴
——AIGC驱动媒体产业变革

2023-10-12

视听界 2023年5期
关键词:文心百度数字

王 威

2023年以来,AIGC技术火爆全球,百度在这方面做了持续的投入。百度是一家技术公司,公司愿景是用科技让复杂的世界变得更简单,所以在整体的技术投入方面还是很大的,在整体AI的存量投入上在业内首屈一指。

一、数字内容生产的技术演进

数字内容生产方式可大致分为四个阶段:第一个阶段,专家生成内容(PGC),比如传统媒体时代,内容都是以PGC为单位来生产。第二个阶段,用户生成内容(UGC),互联网兴起之后,涌现出大量的UGC生产方式。第三个阶段,AI辅助生成内容。比如自动配音、自动字幕、自动配乐等辅助式的内容生产方式。第四个阶段,AI生成内容(AIGC),就是完全由AI独立化地生产内容。

AIGC是一种高效的新型内容生产方式,它的技术应用场景几乎涵盖所有的模态,包括文本、图像、音频、视频,以及现在比较多的跨模态之间的生成,比如文字生成图像、文字生成演示视频、文字生成创意视频、图像/视频生成文字等。AIGC还包括在游戏里生成策略、生成虚拟人等。AIGC技术领域已经从以前的辅助式的内容生产演化到自主化的全量的内容生产阶段。

AIGC的技术演进(见图1),从具备“理解能力”开始,近三年快速向具备“创造能力”进化。AIGC理解能力技术突破顺序是文字—图片—视频,2017年,文字内容识别和检测,卡证、票据等OCR识别,ASR/TTS/翻译等;2018年,图片内容分析、目标检测与分类、以图搜图、编目、归类、检索,图片内容审核等;2019年,视频内容分析和审核;2020-2021年,质感超清、画质提升,数字人生产,动画/影视渲染制作,AI换脸等;2022年,AI作画;2023年,生成式语言模型ChatGPT、文心一言出现。

图1 AIGC的技术演进

AI理解能力演化的过程是从文字到图片到视频,视频就是多张图片的累加,而AI创造能力的技术路线是完全反的,从视频到图片再到文字。这个过程也说明,AI实现对文字内容的理解,是一个具有代表意义的过程。

AIGC技术不是单靠某一个技术能力的提升,它需要依托涵盖芯片层、框架层、模型层、应用层的完整能力栈支撑。百度是国内首个全栈自研的AI基础设施的企业,百度智能云跨越芯片层、框架层、模型层、应用层四层,实现端到端的“云智一体”全栈AI设施。在芯片层有自研AI芯片昆仑,自研的深度学习框架和平台,自研的AI大底座,自研的大模型和深入千行百业的垂直行业应用。端到端优化带来实际效果的显著提升,云智一体四层机构相互反馈和相互适配,全栈且深入融合带来的端到端优化,在大模型的训练和推理上均带来了更多的效果提升,具有显著优势。

这四层能力的建设是一个巨大的投入。以百度在大模型领域的布局为例,技术上,百度是我国最早布局大模型的公司,多次创造了业界领先,技术积累深厚;产品上,从搜索开始,百度就在多个C端和B端产品上布局对话交互能力,这些日均几十亿次的请求,最懂用户意图;投入上,百度是AI最坚定的拥抱者,十年累计上千亿的投入规模和超过20%的收入投入强度,处于国内前列。在压强式和马拉松式的投入下,百度有了现在基于大模型和AI的一些实践成果。

图2是百度文心大模型全景图,可以看到底下的模型层涵盖了NLP大模型、CV大模型、跨模态大模型,以及生物计算大模型,这是底层的基础化大模型。在这个大模型的基础之上,延伸出了基于不同行业应用的一些行业大模型,比如媒体的文心大模型。从今年年初到现在,大模型比较火热,但是热潮之后,大模型在行业当中要怎么去落地?就是大模型的AI技术怎么和行业深度结合起来,在行业完成降本增效,或者提高各个方面的生产效率,从而起到一个比较实际的效果。

在大模型之上,我们也会给用户提供三种不同的服务形态,第一种,EasyDL-大模型,通过简单的配置,可以把这个模型应用到实际工作场景中。这个模型是已经被训练好的,是一个比较成熟的模型形态。第二种,BML-大模型,它带着科研性质,我们会提供一个预训练好的基础大模型,但是这个大模型要根据实际的业务场景,还要经过模型的调优、数据的喂养,最终变成解决实际问题的场景里的模型,最后纳入我们的模型中心去发挥它的实际作用,它需要一定的开发能力。第三种,大模型API,是完全的一个能力输出,所有的能力都是完整的、训练好的,完全独立地通过API的方式做输出。

其实以前AI的基础就是模型,那么,以前的模型和现在的大模型的差别是什么?一句话来讲,以前的模型,比如说我们要训练AI识别一个矿泉水瓶,会通过很多的图片训练它。它经过反复训练之后,就是这个模型经过一定数据的喂养之后,它能够很准确地识别出这个是矿泉水瓶,或者是某个品牌的矿泉水瓶。但是这个模型只能干一件事,就是只能检测矿泉水瓶,不能检测其他瓶子。而现在的大模型是我们经过综合化的,比如说百亿级千亿级的参数喂养,它既能够检测矿泉水瓶,也能检测茶杯,可以检测很多不同的东西,就是它整体的智商变大了。这就是小模型和大模型的差别。

在百度文心大模型产品中,文心一言是基于对话式的语音交互,文心一格是AI作画相关的一些能力,文心百中是基于营销和搜索方面的产品,还有一个旸谷社区,有很多创意性的产品。

大模型在近几年已被实际应用到多个领域。以百度为例,在百度搜索上,过去的搜索算法,迭代成技术大模型的算法之后,在问题分类准确率上,有4.5%的提升;在新闻推荐上,新闻去重召回率有8%的提升;在好看视频上,视频推荐召回率有10%的提升;在百度地图上,信息搜索满意度有6%的提升;在小度音响上,对用户意图的精准识别,有3.1%的提升。

二、AIGC为媒体产业注入智能化升级新动能

(一)内容智能化生产

1.基于大模型的文本创作能力

基于大模型的能力生成,主要是文本的创作能力。比如资讯自动写作,在数据源的基础上,可以完成一些资讯的自动写作;比如热点新闻聚合,AI可以梳理事件的脉络,生成聚合类新闻;比如营销文案生产,像“6·18”“双11”等大型营销节点,每一个商家都在做大量的海报输出,现在海报生产完全可以通过AI方式完成。

2.基于大模型的图文创作能力

比如在百度的文心一格官网上,用户输一段描述性的话,它能快速生成一些图片,而且多种风格可选,所有图片都是原创,不是借用某个图片二度创作,规避版权问题。

3.图文混合内容创作

以对话的交互方式,经过多轮沟通,快速生成恰当的文案和匹配的素材。现在AI通过对话式的交互之后,会完成多轮的创作和修改。比如用户告诉它一个基本意图、大概方向、主要形式,AI先生成底稿,用户再用对话的方式告诉它,哪些方面需要修改,哪些地方要添加,哪些地方要删除。经过多轮的对话修改之后,它能够生成用户意图下的作品。

AI创作更高效:基于大模型的语义理解能力,快速理解内容制作需求。操作更简单:对话式生成文案与图片,不需要使用复杂工具,人人皆可上手。触达海量素材:大模型结合百度搜索和知识图谱,触达海量素材。

(二)渠道智能化分发

基于大模型的搜索推荐引擎,助力内容高效分发。智能分发是基于搜推一体的内容分发。在过去的基础搜索阶段,用户通过首字母、关键字、联想词等,主动搜索内容;到了移动互联网时代,进入个性化推荐阶段,大数据猜用户喜欢的内容并推送给用户;现在是个性化搜索阶段,把用户的搜索意图和信息意图结合起来,形成搜推一体化的融合策略,很大提升了分发效果。

(三)体验智能化交互

基于大模型的百度智能云曦灵数字人平台,助力数字人高效生产和运营。数字人分为两类,一类是演绎型数字人,一类是一对一的服务型数字人。在媒体中,多数是第一类的广播型、主播型数字人,其实是通过数字人的这个虚拟化载体,模拟一个高质量的主持人。某个民生服务节目主要做医疗服务,主持人熟悉多家医院和多个医疗专家,在节目中起到一个很好的导诊作用,但是他只有一个人,媒体希望通过AI的方式能够把这个主持人的知识库复制到数字人身上,在移动端能够服务更多的用户,甚至给用户提供一对一的医导服务,这是未来数字人的方向。当数字人和大模型结合之后,这个事情变成可能,就是将拥有某些技能的主持人复刻出来,在更多的领域服务更多用户。

AIGC在媒体行业的全面渗透,以及媒体行业对新技术的拥抱,正在促成一场文化与技术的双向奔赴,带来两个方向的改变。过去,我们通过技术的创新,推动内容的创新;未来,在内容创新的基础上,推动技术的变革。所以,未来,AIGC一定能够很大程度上解放生产力,让更多的生产力工作由AI完成,从而释放人的创造力,让人去做更多的创造性工作。

猜你喜欢

文心百度数字
Robust adaptive UKF based on SVR for inertial based integrated navigation
答数字
冬天来啦
百度年度热搜榜
文心杂记
请不断修炼你的“文心”
数字看G20
百度医生
百度“放卫星”,有没有可能?