sora”真“的来了吗?

avatar
美工队 @ByteDance

背景

sora是一个备受关注的话题,很多人都在关注它的到来。那么,sora真的来了吗?目前,还没有确凿的证据表明sora已经到来。虽然有一些报道和消息称sora已经出现,但这些消息的来源和真实性还需要进一步核实。

不过,我们可以期待sora的到来。sora是一个非常有趣和有潜力的话题,它可能会给我们带来很多新的想法和机会。我们可以关注相关的报道和消息,以便及时了解sora的最新动态。

Sora是什么?

Sora是一个可以根据文本指令创建真实且富有想象力场景的人工智能模型。sora不仅仅是文生视频,更是现实世界的理解,是虚拟世界的物理引擎。

技术方面,目前 OpenAI 透露的不多,简单介绍如下:

Sora 是一种扩散模型,从噪声开始,能够一次生成整个视频或扩展视频的长度,关键之处在于一次生成多帧的预测,确保画面主体即使暂时离开视野也能保持不变。与 GPT 模型类似,Sora 使用了 Transformer 架构,有很强的扩展性。在数据方面,OpenAI 将视频和图像表示为 patch,类似于 GPT 中的 token。通过这种统一的数据表示方式,可以在比以前更广泛的视觉数据上训练模型,涵盖不同的持续时间、分辨率和纵横比。

Sora 建立在过去对 DALL·E 和 GPT 模型的研究之上。它使用 DALL·E 3 的重述提示词技术,为视觉训练数据生成高度描述性的标注,因此能够更忠实地遵循用户的文本指令。除了能够仅根据文本指令生成视频之外,该模型还能够获取现有的静态图像并从中生成视频,准确地让图像内容动起来并关注小细节。

该模型还可以获取现有视频并对其进行扩展或填充缺失的帧,请参阅技术论文了解更多信息,Sora 是能够理解和模拟现实世界的模型的基础,OpenAI 相信这一功能将成为实现 AGI 的重要里程碑。

Sora可以做什么?

Sora 目前的主要功能是将文本描述转化为视频内容。它能够理解并执行详细的文本指令,生成具有视觉质量和连贯性的视频,这些视频可以包含多个角色、动作和场景。Sora 还能够从静态图像生成动画,或扩展现有视频。这一技术展示了 AI 在理解和模拟物理世界运动方面的进步,为创意产业和未来技术发展提供了新的可能性。

  • 生成高质量视频:Sora 能够根据文本提示生成视频,这些视频可以包含复杂的场景、多个角色、特定的动作以及准确的主题和背景细节。

  • 理解自然语言:Sora 拥有深入的语言理解能力,能够准确解释提示并生成表达丰富情感的角色多镜头生成:Sora 可以在单个生成的视频中创建多个镜头,同时保持角色和视觉风格的一致性。

  • 从静态图像生成视频:Sora 能够从一个现有的静态图像开始,准确地动画化图像内容。

  • 视频扩展:Sora 还可以扩展现有视频,或者填补视频中的缺失帧。

Sora使用场景

  • 新闻媒体:制作新闻报道的模拟场景,增强报道的视觉效果。

  • 社交内容创作:帮助内容创作者快速生成吸引人的视频内容,增加社交媒体互动。

  • 创意内容创作:为电影、动画、游戏和广告行业提供快速原型制作和概念验证

  • 教育培训:创建教学视频,模拟复杂场景,帮助学生和专业人士学习新技能

  • 娱乐和艺术:为艺术家和设计师提供工具,以探索新的创意表达方式。

  • 模拟预测:在科学研究和工程领域,模拟实验和预测结果

  • VR和AR:为 VR 和 AR 应用生成逼真的虚拟环境和交互体验。

说说Sora不足

大家都在鼓吹sora的强大,强大毋庸置疑,但是也存在很多不足,或者还需要进一步提升才可以更好使用起来。所以我今天来说说不足的地方。

准确模拟复杂场景

目前 Sora 已经能生成具有多个角色、包含特定运动的复杂场景,不仅能理解用户在提示中提出的要求,还了解这些物体在物理世界中的存在方式。

对于 Sora 当前存在的弱点,OpenAI 也不避讳,指出它可能难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系。

举个例子:

1、“五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐”,狼的数量会变化,一些凭空出现或消失。

2、一个人可能会咬一口饼干,但之后,饼干可能不会有咬痕。

混淆空间细节

sora混淆提示的空间细节。例如:混淆左右,并且可能难以精确描述随着时间推移发生的事件;例如:遵循特定的相机轨迹。例如:提示词“篮球穿过篮筐然后爆炸”中,篮球没有正确穿过篮筐。

Prompt: Step-printing scene of a person running, cinematic film shot in 35mm.

提示:以 35 毫米电影胶片拍摄的人物奔跑的逐帧打印场景。

弱点: Sora 有时会创造出物理上不可能的动作。

Prompt: Five gray wolf pups frolicking and chasing each other around a remote gravel road, surrounded by grass. The pups run and leap, chasing each other, and nipping at each other, playing.

提示:五只灰色的狼崽在一条偏远的碎石路上嬉戏追逐。它们被草地所包围,这些狼崽奔跑、跳跃,追逐着彼此,互相咬着玩耍。

弱点: 动物或人物可能会自发出现,尤其是在包含许多实体的场景中。

Prompt: Basketball through hoop then explodes.

提示:篮球穿过篮圈后爆炸。

弱点: 不精确的物理建模和不自然的物体“变形”的一个例子。

Prompt: Archeologists discover a generic plastic chair in the desert, excavating and dusting it with great care.

提示:考古学家在沙漠中发现了一把普通的塑料椅子,并且小心翼翼地对其进行挖掘和清理。

弱点: 在这个例子中,Sora 未能将椅子建模为一个刚性物体,导致物理交互不准确。

Prompt: A grandmother with neatly combed grey hair stands behind a colorful birthday cake with numerous candles at a wood dining room table, expression is one of pure joy and happiness, with a happy glow in her eye. She leans forward and blows out the candles with a gentle puff, the cake has pink frosting and sprinkles and the candles cease to flicker, the grandmother wears a light blue blouse adorned with floral patterns, several happy friends and family sitting at the table can be seen celebrating, out of focus. The scene is beautifully captured, cinematic, showing a 3/4 view of the grandmother and the dining room. Warm color tones and soft lighting enhance the mood..

提示:一位头发整齐梳理、灰白的祖母站在一张木质餐桌后面,桌上放着一款色彩缤纷、插着许多蜡烛的生日蛋糕,她的表情是纯粹的喜悦和幸福,眼中闪烁着快乐的光芒。她轻轻向前倾斜,用一口轻柔的气息吹灭了蜡烛,蛋糕上涂有粉色糖霜并撒有糖果,而蜡烛也随之熄灭,祖母身穿一件浅蓝色、饰有花卉图案的衬衫,桌旁可以模糊地看到几位快乐的朋友和家人在庆祝。这一幕被美妙地捕捉下来,具有电影般的视觉效果,展示了祖母和餐厅的四分之三视角。温暖的色调和柔和的光线增强了整体氛围。

弱点: 对于模型来说,模拟对象之间以及多个角色之间的复杂互动往往具有挑战性,有时会导致产生幽默的结果。

例子

除了文字以外,Sora 也可以通过图像或视频生成新的视频。这使 Sora 能够执行各种图像和视频编辑任务,包括创建循环视频、将图形转换为视频、向前或向后扩展视频等。

An image of a realistic cloud that spells “SORA”.

写有“SORA”的真实的云的图像。

20240301114107_rec_.gif

Monster Illustration in flat design style of a diverse family of monsters. The group includes a furry brown monster, a sleek black monster with antennas, a spotted green monster, and a tiny polka-dotted monster, all interacting in a playful environment.

不同家族怪物的平面设计风格的怪物插图。该群体包括一个毛茸茸的棕色怪物、一个带有天线的光滑黑色怪物、一个有斑点的绿色怪物和一个微小的圆点怪物,所有这些怪物都在一个有趣的环境中互动。

20240301114008_rec_.gif