本来已经备好我的Switch2开始愉快的国庆之旅了。
结果好死不死的,这群AI厂商又卷起来了。
OpenAI大半夜的,宣布,Sora2来了。
看完直播之后,我的困意基本消失殆尽。
我在剧组的群里说:
我之前一直说,我们做AI电影工业化的时候,有一个原则,就是AI生成的片段不进成片。只是辅助,纯粹的辅助。
但,我今天收回这句话。
一声长叹,时代的车轮滚滚向前。
谁知道2027年的时候,这个世界,又是什么样的光景呢?
Sora 2,用OpenAI的原话描述就是:
“With Sora 2, we are jumping straight to what we think may be the GPT‑3.5 moment for video。”
AI视频的ChatGPT时刻,正式来了。
全新的Sora 2,是一个原生的视频和音频生成模型。
注意用词,是视频和音频生成模型,这不是一个纯粹的视频模型了。
类似于Veo3,但是从现在放出来的Demo看,整体效果却远超于Veo3。
直接看官方宣传片吧。
这质量我只能跪着给他们磕头。
GPT-5拉了个大的,Sora 2又是王者归航。
不愧是OpenAI。
这次主要是发布了两个东西,一个是Sora 2模型,一个是Sora APP。
Sora 2模型基本就是现在的SOTA了,而Sora APP的野心则更大,他们要做新时代的AI『抖音』,而且确实很有创意,以社交驱动,让我想起了当年的激萌Faceu。
我们,一个一个来说吧。
一. Sora 2
现在的AI视频模型,基本卷的目标和方向是比较一致的,就是物理运动、人物表演、一致性、音频。
物理运动比较好理解,就是真实,极度的真实,跟现实一样真实。
Sora 2在这个部分,确实有极强的进步。
我们一直说,体育运动,特别是体操和球类运动,几乎就是AI视频模型的图灵测试,几乎没有太多AI视频模型能做的特别好的,即使是hailuo 02和可灵2.5,也只是成功部分或者局部。
而Sora 2非常离谱,可以完成奥运体操动作,在桨板上完成后空翻,甚至还能打排球。
Prompt:一名体操运动员在平衡木上翻转,电影感十足。
对比一下当年Sora 1的。
真的,这个进步,实在是过于明显了,1年半的时间,却好像过去了好久好久。
Prompt:滑板运动员做了一个空翻。
Promp:一个男人从跳水板上跳下,做炸弹式入水动作。
这些我放的是GIF,但是不要忘了,这些里面其实是有声音的。
比如这个打排球。
还有在桨板上完成后空翻。
里面的声音几乎没有瑕疵,极度写实,还有人打排球的运动也是。
目前这确实是我看到的,运动质量和物理规律最牛逼的了。
在动漫风格上,也还不错。
然后就是人物表演,这个其实要跟一致性和多模态能力一起说。
因为如果是不念台词的人物表演,其实现在已经差不太多不分伯仲了,而念台词的人物表演,也就是我们俗称的AI演员,或者是数字人,才是现在大家卷的重点,所以必须要带上多模态也就是音频能力。
现在,你可以在Sora产品中,进行身份验证,生成一个你的分身,作为一个你的数字人的固定ID。
后续你就可以直接调用这个角色,来进行特定的人物生成了。
而配合上固定角色以及极度真实的人物表演,还有几乎完美的音频生成,让AI做真正的故事片,不再是幻想。
而这个脑袋撞桥,就非常的短视频了,但是也特别的真实。
Prompt:@daniel 在斑马群的中间吹小号。
Prompt:@daniel 和 @duxin 进行一场臂力比赛,你决定谁获胜。
人物的表演和神态,还有分镜,跟真实视频相比已经看不出来什么区别了,音频级别也是现在的SOTA。
环境声、风声、碰撞声,甚至是多人在同一个片段里,你就跳不出来音频的错误。
而且可以看到两个视频片段里的@daniel,人脸几乎就是一模一样的。
ID的一致性也得到了完美的还原。
从代码里看,Sora 2应该是有两款模型。
Sora 2和Sora 2 Pro,应该类比可灵的标准版和高品质版。
目前比较坑爹的是,虽然说优先考虑ChatGPT Pro用户的访问,但是目前仅限于美国和加拿大地区,并且启用了万恶的邀请码机制。
我虽然靠着朋友搞到了邀请码,但是这玩意,门槛还是高。。。
首批用户会收到4个邀请码,可以分享给朋友一起体验,因为团队认为这款应用最适合社交场景使用,甚至可能成为一种新的消息传递方式。。。
目前已上线可用的版本,说实话没啥参考意义,被阉割的比较狠,在生成的时候,你几乎无法选择参数。
只有横屏和竖屏,直出10s视频,清晰度低的离谱,360P。
等着OpenAI后面更新吧。
二. Sora APP
这一次,Sora产品本身成为了重点。
目前Web版已经更新,IOS版已经在美区Appstore上限,但是没有『安卓』。
但正如我上面说的,邀请制,现在没有邀请码的用户,都进不去。
我尽可能的让大家看懂这个产品是个啥。
先来看他们的片子。
如果用一句话总结的话,这好像是AI版的『抖音』。
用户可以在上面刷到公域里玩家生成的AI视频,可以点赞转发关注等等一些列操作,甚至整个交互形式和UI,都跟『抖音』完全一个样。
但是最有趣的功能,其实还说数这个“cameos”功能,中文名出镜秀。
这张图,就是非常标准的cameo界面,可以简单的理解为,每一个头像,都是一个cameo,你在生成视频的时候,可以@他们,让特定的角色来出演。
比如第一个就是我,你可以@rockhazix,让我和第二个人sam,一起在很酷的餐厅里吃一顿有趣的晚餐。
这,就是cameo,就是让你的好友来你的视频里客串,一起共演。
OpenAI自己认为,Sora APP是纯粹的为了跟朋友一起使用而制作的。
他们说,测试者们的压倒性反馈表明,正是因为cameo让这款应用显得与众不同且有趣,它是一种与人们交流的新颖独特方式。
不过这块OpenAI做了严格的限制。
你在创建你自己的cameo的时候,要做非常复杂的身份验证。
会要求你录制动态音频提示,完成随机音频挑战后,还需要通过活体检测,以确保这个手机面前的人,是你自己。
在录完以后,你还可以通过Cameo偏好设置来调整模型对你的呈现方式。
最后一切搞定后,你就可以在创作的时候,@你自己了。
比如我就@了我自己和奥特曼,一起吃了一顿晚餐。
运动幅度上,也是确实牛逼的,比如我在大街上喊Sora 2 is out。。。就是我也不知道,为什么面部这么狰狞。
但是我说实话,欧美人的人脸ID保持确实不错,但是亚洲人,还是老问题,比较一般,这是欧美公司的通病了。
比如我的这个视频,我是真的不太想放,有点辣眼睛,但是吧,为了给你们看效果,我还是放一下。。。
玩法还是蛮多的,但是不稳定也是真的。
写在最后
最后,花一点篇幅,来聊聊这个AI版『抖音』,Sora APP。
坦诚的讲,我对这个产品是非常看不清的。
过去所有做AI视频信息流的,有一个算一个,要么不瘟不火,要么几乎都淹没在了历史的尘埃里。
因为,你完全无法解决一个问题,创作者发作品,是希望得到流量和正反馈的,那同样的视频,我为什么要发在你这,而不发在『抖音』上呢?
还有,现在的普通用户,真的对在乎是不是AI视频吗?没人在乎,技术只为作品服务,你作品做的好,用户管你是手绘是CG是实拍还是AI呢?
所以我一直觉得,为了单独去看AI作品而去一个新的产品去接受一个几乎没什么人的生态,这一直都是一个伪命题。
而Sora APP这次不一样点是,因为模型的巨幅飞跃,所以他们搞出了cameo这个东西,硬生生把一个AI版『抖音』,做成了一个社交产品。
对,Sora APP这玩意,虽然大家都在说它是AI版『抖音』,但其实根本不是什么AI版『抖音』,这是以对朋友搞整活和抽象为核心的,社交产品。
有点像当年的Snapchat、激萌Faceu。
而很多新的社交产品,天然的弊端就是,火的快,去的也快。
之前有个产品叫BeReal,2022年爆火,当时强迫所有用户每天同一时间拍摄一张前后摄像头同时记录的照片,迅速席卷欧美年轻群体,一度下载量登顶。
但不到一年,用户新鲜感消退后,迅速陷入困境,现在已经淡出主流视线。
AI视频+cameo当然是一个全新的物种,再加上AI会让所有的人都有创作的权利,上来整蛊朋友+remix,可能会出现很棒的生态。
但,也有可能让社区同质化严重,最后消失。
说实话,我现在看不清Sora这个产品的未来。
我只能说,在现在这个阶段。
先玩起来再说!
欢迎大家来加我好友,随意整活!
https://sora.chatgpt.com/profile/rockhazix
国庆快乐~