数字人直播的利弊
2024-04-23刘四海
刘四海
the rightsverse lab创始人、穹宇世界联合发起人
数字人也需要临场应变,也需要自我成长,目前看来还做不到
最近数字分身挺火的,我想知道数字人直播有没有前途。于是问了问身边的几个朋友。朋友甲是直播卖葫芦的,他说试过数字人直播,效果很差,把他刚刚有点起色的号给干废了。朋友乙本身是做数字分身代理生意的,在她看来,“数字人和真人无异”“你能看得出这是数字人吗”“大批数字人律师上线”,言下之意数字人直播很有前途。
看来只对少数几个朋友调研还不能说明问题。于是,我在腾讯混元大模型里输入了一个问题:数字人直播的利弊。腾讯混元给出了一长串的答案:大概意思是优劣势兼具,优势是数字人直播不受时间和空间的限制,可以24小时不间断进行,不需要支付薪资,可以根据不同的场景和需求进行定制,成本低,花样多。劣势是真实度和互动性较差,虽然数字人可以通过技术模拟真人的外观和行为,但依然无法达到真实人的情感表达和沟通效果,虽然可以通过算法回复观众的问题,但无法像真人一样进行实时交流和情感共鸣。对于腾讯混元给出的这个“参考答案”,该如何分析呢?我想从几个关键
词入手。
第一个关键词是“互动性”。和短视频不同,直播更强调互动性。如果数字人直播互动性差,那肯定是个致命漏洞。人们可以接受董宇辉不是屌丝、年薪千万,可以接受董宇辉背后有文案团队,但一定不能接受董宇辉用数字分身直播。为什么呢?因为董宇辉的真正魅力,就藏在直播互动的一些细节里。真人的脸部和表情可以传达很多信息,如情感、态度和信任度等,戴着面具和人说话已经被人反感,何况数字人呢?直播如果无法进行真诚、深入的沟通和交流,那效果势必大打折扣。
第二个关键词是“情感表达”。虽然数字人可以模拟人类情感,但它们仍然是一个机器学习模型,因此可能无法像真正的人类一样真实和深刻地表达情感。目前,数字人直播的情感表达还是通过编程和模型训练对面部表情、语言、肢体动作进行控制,但是,沟通的美妙之处恰恰在于有些东西是“表情、语言、动作”所不能传达的,类似于心有灵犀,拈花一笑,懂者自懂。
基于编程的数字人直播类似于写作,而真人直播类似于演讲。早在古希腊时代,苏格拉底等人就意识到了演讲和写作是两种完全不同的技艺。有些话,你写出来的时候觉得逻辑精妙无比、见人所未见,但真正讲出来则觉得佶屈聱牙。所以像康德、黑格尔这样的人注定只能是哲学家,当不了演讲大师。
加州大学神经科学系罗伯特 · 李文斯顿曾有个比喻,把大脑比喻成“一个和谐且纪律良好的交响乐团”,大脑就像指挥家,而动作、想法、情绪、记忆和生理感受等类似于演奏者,共同组成了一个交响乐团。当你看到别人打哈欠、眨眼、打喷嚏,甚至只是舉起手臂,你的大脑也会进行一系列复杂的反应。好的直播也是一次交响乐团演出,主播和受众的情感表达共同组成了乐章。
其实,说数字人直播的利弊这个话题,还想衍生出一个更关键的问题,那就是:人设的统一。很多情况下,你一直认为自己是一只兔子,但在外人看来也许是只鼹鼠,其实你的生物学身份是头绵羊。数字人之所以大火,是因为所有人都相信数字人和人设能实现真正统一,不存在任何的矛盾或偏差。这种真正的统一性可以增强数字人的可信度和吸引力,从而吸引更多的观众和粉丝。实际上,一个真实的人往往有多面性,有多变性,唯其如此,才成为一个有血有
肉的人。
最后,我想说,数字人直播也并非一无是处,对于一些只需要简单互动的岗位,数字人直播还是可以试试的。