上周,Grok 已成为美国、英国和新加坡等主要国家App Store 下载量最高的应用程序。虽然Grok-4是一种非常出色的大语言模型(LLM),但这款聊天机器人缺少最热门的AI功能之一:视频。不过,马斯克似乎也感受到了这种“错失恐惧症”(FOMO)的影响。正因如此,他及其团队刚发布了Imagine:这是其聊天机器人中的一项基于AI的视频生成功能。
它能与谷歌的Veo 3或OpenAI的Sora相媲美吗?本文解答了你的所有疑问。此外,本文还将指导你了解Imagine是什么、如何使用它以及它的用途。
不妨用Imagine来测试我们的想象力吧!
Grok Imagine简介Grok Imagine是X的Grok聊天机器人中最新的视频生成功能,能够生成图像和视频。它使用简单的文本提示即可生成高质量的输出。
马斯克说:“Grok Imagine 现在制作*视频*的时间仅为主要竞争对手制作一张图片所需时间的一半到四分之一!”。
不用说,Imagine的速度和激情毋庸置疑。它操作简单,但凡具备基本提示技能的人都可以使用Grok的Imagine将想象变为现实。生成的视频时长为6秒,比Veo 3生成的视频短,但比OpenAI的Sor生成的视频长。
Grok Imagine的主要功能有哪些?Imagine的一些主要功能包括:
- 文本到图像/视频生成:该模型根据文本提示创建图像和视频。用户只需提供他们想要的内容的详细描述,模型即可迅速生成内容。
- 图像到视频生成:该模型还可以使用上传的图像作为参考来制作视频,将静态图片转换为动态场景。
- 音频集成:视频包含AI生成的音轨,音轨可自动与视觉效果同步,完美契合氛围和主题。这里没有静音片段!
- 更少限制:想要激发创造力?启用“Spicy模式”即可绕过严格的筛选器,探索更具前卫感、审查较宽松的输出。非常适合喜欢突破界限的创作者,不过敏感内容仍有相应的护栏机制。
- 速度遇上创造力:大多数AI视频工具需要等待1-2分钟,这在AI时代太漫长了,而Imagine只需一半的等待时间即可生成更具创意的结果。快速未必就意味着千篇一律。
- 语音命令魔法:无需打字——只需说出你的想法。Imagine的语音支持让你可以借助自然语音命令生成图像和视频,让创作变得像灵感迸发一样简单。
Imagine目前发布了测试版,仅供以下付费客户使用:
- Super Grok用户和Super Grok Heavy用户可以抢先体验Imagine视频生成工具。
- X Premium +用户和Premium用户没有资格享受抢先体验,但他们可以加入候补名单。如果他们是活跃的X用户,预计很快就能获得访问权限。
目前,每个帐户可渲染的视频数量是有限制的。Premium用户、Premium +用户和Super Grok Heavy用户的上限分别为50个、100个和500个。
如何访问Imagine?要访问Grok的Imagine,请按以下步骤操作:
- 下载Grok/Super Grok移动应用程序( Imagine 目前仅在移动应用程序中可用)。
- 下载完成后,使用你的付费帐户登录。
- 你会在顶部看到一个选项:Ask - Imagine。
- 点击Imagine。
在文本框中添加你的提示,即可开始使用。
试用Grok的Imagine我们已经了解了Grok最新的视频生成功能,不妨测试它在以下任务中的表现:
- 生成产品视频
- 生成病毒式表情包视频
- 生成电影镜头
任务1:产品视频
提示:“A model picks up a lipstick, shaped like a metallic pen, placed on a 90’s retro style restaurant and applies it on her lips and smiles, the focus should be on the lips and the background needs to be of a retro style restaurant, which is slightly blurred. The name of the lipstick – Nude browns by Popper, comes on the screen at the end.”(一位模特拿起一支金属笔形状的口红,背景是一家90年代复古风格的餐厅,涂在嘴唇上,然后微笑。重点放在嘴唇上,背景需要是复古风格的餐厅,略微模糊。最后屏幕上会显示这款口红的名字——Popper 的裸棕色。)
输出:
模型先根据你的提示生成各种图像。你可以选择最喜欢的图像。一旦点击后,你将获得以下选项:
- 你可以点击“心形图标”将图像标记为收藏。
- 你可以点击“向下箭头图标”下载图像。
- 你可以点击“向上箭头图标”分享图像。
最后,在右侧,你会找到“制作视频”选项,点击它,几秒钟内你会得到一段基于提示的视频,正包含你选择的图像。
视频几乎是即时生成的,而且质量让我惊喜!它完美地聚焦在口红上,正如我在提示中指定的一样。虽然你可以看出这是AI生成的(模型在逼真地涂抹口红方面遇到了困难),但高清画质依然令人眼前一亮。
真正让我印象深刻的是提示中的每个单词都与视频中显示的完全一致,没有任何尴尬的误拼或误解。
任务2:表情包视频
提示:“A monkey typing furiously on a laptop while another monkey asks it to come outside, while the first monkey refuses and says – AI Agents are coming to take its job”(一只猴子在笔记本电脑上疯狂地敲字,另一只猴子让它出去玩,第一只猴子拒绝了,并说AI智能体要来抢走它的工作。)
输出:
不出所料,Imagine生成了多个图像选项供我选择。然而,与我之前体验的不同,一些生成的图像含有错误的文本——这次的准确率明显下降。
上面有拼写错误。最后,在翻阅大量生成的图像后,我发现了文本正确、让我感觉与给出的提示相似的那个图像。
虽然我的提示还有其他要求,但我没能在一个图像中找到。但我用来生成视频的图像制作了一个相当有趣的表情包。它发出的声音听起来像两只猴子在争吵。总的来说,我喜欢这个视频——它很有趣,也达到了预期的效果。
任务3:电影镜头
提示:“A girl running through a dark alley, camera running with her, from the top, it starts to rain and she slips and looks back with fear, the last shot remains focused on her face, a cinematic shot.”(一个女孩在一条黑暗的小巷里狂奔,摄像机跟着她移动,雨水开始从天而降,她滑倒了,害怕地回头张望,最后一个镜头聚焦在她的脸上,电影般的经典镜头。)
输出:
该工具提供了多个图像选项可供选择,但生成的视频没有完全符合我给出的提示。虽然一开始效果很好——捕捉到了我要求的那种氛围和镜头,但随着视频的继续呈现,质量明显下降。AI生成的伪影变得很明显,瑕疵也一目了然。
我怀疑模型有点勉为其难,因为我给出的提示包含多个复杂的请求。不过,音效还是很到位——完美契合场景需求。
Grok的Imagine怎么样?我对Imagine的看法褒贬不一。Imagine最出色的两点是速度和生成的图像质量。说到视频生成,我认为我们很快会看到它变得更好。目前,该模型落后于Sora和Veo 3以及像Hulileo和Wan这样的中国模型,它们都是视频生成领域的标杆。
随着提示越来越详细,Imagine的效果会越来越好,所以在生成视频时一定要提供尽可能丰富的上下文。目前生成的声音比较普通,与生成的视频不太协调。
结论Imagine是一个出色的模型,但它还有很大的改进空间。鉴于它是Grok的第一个图像生成模型,我相信工作团队很快会让它远远超越任何现有的模型。目前,该模型表现良好,但考虑到市面上有这么多先进的视频生成模型,它确实感觉有点过时了。
话虽如此,还是试试Imagine吧。它非常适合用来制作小片段和短视频来展示创意。而且,由于其相当灵活的速率限制,你可以用它真正创作出有意义的作品。