OpenAI's Sora 2

세부 정보

파일 다운로드

모델 설명

Sora 2가 등장했습니다

원문 게시: https://openai.com/index/sora-2/

2024년 2월에 발표된 원본 Sora 모델은 여러 측면에서 비디오 분야의 GPT-1 순간이었습니다. 비디오 생성이 마치 제대로 작동하는 것처럼 보인 최초의 사례였고, 단순한 행동들—예를 들어 물체의 영속성—이 사전 학습 컴퓨팅 자원의 확장으로부터 나타났습니다. 그 이후로 Sora 팀은 더 진보된 세계 시뮬레이션 기능을 가진 모델을 훈련하는 데 집중해왔습니다. 우리는 이러한 시스템이 물리 세계를 깊이 이해하는 AI 모델을 훈련하는 데 필수적일 것이라고 믿습니다. 이를 위한 주요 이정표는 대규모 비디오 데이터에 대한 사전 학습과 사후 학습을 마스터하는 것으로, 이는 언어에 비해 여전히 초기 단계에 있습니다.

Sora 2를 통해 우리는 비디오 분야에서 GPT-3.5 순간이 될 것이라 생각하는 바로 그 지점으로 뛰어넘었습니다. Sora 2는 이전의 비디오 생성 모델들에겐 극히 어려우며, 일부 경우 완전히 불가능했던 일을 수행할 수 있습니다: 올림픽 체조 루틴, 패들보드 위에서의 뒤집기(부력과 강성의 역학을 정확히 모델링), 고양이가 목숨을 걸고 붙잡고 있는 상태에서의 트리플 악셀.

이전의 비디오 모델들은 과도하게 낙관적이었습니다. 텍스트 프롬프트를 성공적으로 실행하기 위해 물체를 변형시키고 현실을 왜곡했습니다. 예를 들어, 농구 선수가 슛을 놓치면 공이 갑자기 골대로 텔레포트될 수 있었습니다. 그러나 Sora 2에서는 농구 선수가 슛을 놓치면 공이 백보드에 튀어나옵니다. 흥미롭게도, 이 모델이 자주 저지르는 ‘실수’들은 Sora 2가 암시적으로 모델링하는 내부 에이전트의 실수처럼 보입니다. 여전히 완벽하지는 않지만, 이전 시스템에 비해 물리 법칙을 더 잘 따릅니다. 이는 유용한 세계 시뮬레이터에 있어 매우 중요한 능력입니다. 성공만이 아니라 실패도 모델링할 수 있어야 하기 때문입니다.

이 모델은 제어성 면에서도 큰 진보를 이루었으며, 여러 장면에 걸쳐 복잡한 지시를 따르면서 세계 상태를 정확하게 유지할 수 있습니다. 사실적인 영화적 스타일과 애니메이션 스타일 모두에서 뛰어난 성능을 보입니다.

일반적인 비디오-오디오 생성 시스템으로서, 이 모델은 높은 현실감으로 정교한 배경 음향, 대화, 음향 효과를 생성할 수 있습니다.

또한 Sora 2에 현실 세계의 요소를 직접 삽입할 수도 있습니다. 예를 들어, 우리 팀원 중 한 명의 영상을 관찰하면, 모델은 그 사람의 외모와 목소리를 정확히 구현하여 어떤 Sora 생성 환경에도 그 사람을 삽입할 수 있습니다. 이 기능은 매우 일반적이며, 어떤 인간, 동물, 물체에도 적용됩니다.

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.