罗永浩数字人刷屏背后，文心大模型成为直播行业的“剧本总导演” #娱乐 #文心大 #罗永浩 #观众 #模型 #直播

在欧文·戈夫曼的经典社会学著作《日常生活中的自我呈现》中，他通过将戏剧表演的概念引入社会互动，提出了一个引人深思的观点：人在日常生活中，依据社会规范（即“剧本”）进行行为管理，以在他人心中塑造出理想的印象。这个理论也能很好地解释为什么数字人直播往往遭到批评，主要的原因是数字人的表演通常无法达到真人主播那样自然的效果，表现出的表情僵硬、动作不协调，使得观众难以产生共鸣。然而，最近，数字人直播领域迎来了颠覆性的突破——罗永浩数字人。2023年6月15日，罗永浩数字人在百度电商的首场直播中，以一场近7小时的高强度直播刷新了大家对数字人形象的认知。

在这场直播中，罗永浩数字人不仅实时回应观众的弹幕，还不断输出他的标志性幽默段子，甚至与助播朱萧木展开了活力四射的对话。直播中的罗永浩与朱萧木配合默契、互动自然，观众纷纷惊叹，“这是不是罗永浩本人在扮演数字人？”这一表现打破了观众对数字人的固有认知。那么，罗永浩的数字人是如何突破传统技术瓶颈，给观众带来如此震撼的表现呢？

2023年6月17日，在百度AI开放日慧播星专场上，百度集团副总裁吴甜透露了罗永浩数字人背后的技术秘密。要想实现如此高度还原的数字人直播，关键在于文心大模型4.5T所提供的“剧本”生成与多模协同。随着618电商大促的火热进行，一场以AI大模型为驱动的电商直播效率革命也悄然拉开了序幕。

在过去，数字人直播的表现常常因为几个原因遭遇诟病：首先，数字人的演技差，表情与动作常常不符合情境，导致产生“恐怖谷”效应，观众感到不自然；其次，互动性差，传统的数字人面对超出预设情境的问题时，无法灵活应对，只能一人独角戏；第三，直播时长不够，很多数字人只能在短视频的框架下循环播放，无法维持长时间的直播内容与互动；最后，行为的不可控性也是一大问题，数字人如果出现失误，不仅会损害品牌形象，还可能引发舆论危机。要让数字人能媲美真人主播，需要攻克一系列技术难关。

但罗永浩数字人的成功，打破了这一切限制。6月15日，他的数字人直播刷新了多个行业纪录：首度实现超6小时的超头部主播直播；首次由多个数字人共同出演，告别了单一数字人尬聊的局面；还首次突破了AI视频生成的时间极限，生成了多达9.7万字的内容。特别是在直播中，罗永浩与朱萧木的互动不仅展现了自然的身体语言和语气节奏，还能够实现与观众的实时互动。罗永浩的数字人展现了全新的表现力，打破了数字人直播的传统局限。

罗永浩数字人的出色表现，离不开背后百度大模型技术的支持。在传统的数字人技术中，语言、语音和视觉通常是分离进行的，这导致台词、表情和动作无法协调一致，形成“拆台”效应。而罗永浩数字人能够流畅自然地与观众互动，正是因为其背后的多模协同技术。

具体来说，罗永浩数字人背后依托了百度的文心大模型4.5T，通过生成高质量的剧本来确保数字人能够自然地呈现出与真人相符的语言、表情和动作。在此过程中，文心大模型4.5T不仅负责剧本生成，还参与了风格定制、语言建模和人物设定。对于罗永浩与朱萧木这样有鲜明风格的主播，文心大模型能够根据他们的语言习惯、语气和节奏对剧本进行个性化定制，从而确保数字人展现出逼真且自然的主播风格。

除了台词与语言风格的精细化调整外，数字人直播中最为关键的部分是多模系统的协同工作。文心大模型通过精确对齐语音与视觉，使得数字人在直播过程中展现出与真人主播相同的动态表现。特别是在实时互动环节，语音和视觉之间的协调性至关重要。如果语音模型表达的是兴奋激昂的语气，而视觉模型却呈现出冷淡的表情，观众会感到“出戏”。为此，百度通过加入对话上下文解码器，确保语音与表情的同步，通过对话历史与当前信息的整合，使数字人在互动中更加灵活。

更进一步，文心大模型为数字人赋予了应对复杂场景的能力。在长时间的直播中，观众可能会提出各种刁钻的问题，直播的内容也会随时变化。通过深度学习和实时理解，文心大模型能够帮助数字人精准捕捉用户的意图，在复杂的交互场景中灵活应对。

最终，罗永浩数字人的直播成功，不仅仅是技术的突破，更是直播行业的一次革新。在数字人直播逐渐走向高效、灵活和可控的新阶段时，百度凭借其AI技术优势，推动着数字人直播技术的快速发展，也为行业内中小商家提供了极具性价比的解决方案。通过百度数字人，商家能够高效地进行商品推荐、精准营销，并降低了真人主播的高昂成本。