OpenAI's Sora 2
详情
下载文件
模型描述
Sora 2 已上线
原文发布于 https://openai.com/index/sora-2/
2024年2月推出的原始Sora模型,在许多方面堪称视频领域的GPT-1时刻——这是视频生成首次展现出真正可行的迹象,随着预训练计算规模的扩大,物体恒存等简单行为开始显现。自那时起,Sora团队一直专注于训练具备更先进世界模拟能力的模型。我们相信,此类系统对于训练能够深刻理解物理世界的AI模型至关重要。实现这一目标的一个重要里程碑,是掌握大规模视频数据的预训练和后训练,而这两者相较于语言领域仍处于早期阶段。
借助Sora 2,我们直接迈入了我们认为可能是视频领域的GPT-3.5时刻。Sora 2能够完成此前视频生成模型极其困难、甚至完全无法实现的任务:奥运会体操动作、在桨板上完成后空翻并精确模拟浮力与刚性动力学、以及在一只猫死死抓住的情况下完成三周半跳。
以往的视频模型过于乐观——它们会扭曲物体、变形现实,以成功执行文本提示。例如,如果一个篮球运动员投篮未中,球可能会凭空传送到篮筐。而在Sora 2中,如果篮球运动员投篮未中,球会从篮板上弹回。有趣的是,Sora 2所犯的“错误”往往看似是其隐式建模的内部代理所犯的错误;尽管仍不完美,但它在遵守物理定律方面比以往系统表现得更好。这对于任何有用的全球模拟器而言都是极其重要的能力——你必须能够模拟失败,而不仅仅是成功。
该模型在可控性方面也实现了巨大飞跃,能够遵循跨越多个镜头的复杂指令,并准确保持世界状态。它在写实、电影感和动漫风格方面表现出色。
作为通用的视频-音频生成系统,Sora 2能够创建具有高度真实感的复杂背景音景、语音和音效。
你还可以直接将现实世界的元素注入Sora 2。例如,通过观察我们一位团队成员的视频,模型可以将他准确地融入任何由Sora生成的环境中,包括外貌和声音的精准还原。这一能力具有极强的通用性,适用于任何人、动物或物体。
