Illyasviel's Standalone FramePack
세부 정보
파일 다운로드
모델 설명
참고: 원본 GitHub 저장소는 여기에 있습니다. 이 도구는 lllyasviel이 개발했습니다.
참고: 출력물의 움직임에 문제가 있다면, 이 GPT를 사용하여 이미지를 통과시켜 FramePack에 특화된 훌륭한 프롬프트를 얻어보세요.
지역 비디오 생성을 시작하는 가장 쉬운 방법일 것입니다! 이 도구는 매우 간단한 인터페이스를 가진 독립형 앱이며, 감자 GPU에서도 (천천히) 실행됩니다.

FramePack
"Packing Input Frame Context in Next-Frame Prediction Models for Video Generation"의 공식 구현 및 데스크탑 소프트웨어입니다.
FramePack은 비디오를 점진적으로 생성하는 다음 프레임(다음 프레임 섹션) 예측 신경망 구조입니다.
FramePack은 입력 컨텍스트를 일정한 길이로 압축하여 생성 작업량이 비디오 길이에 영향을 받지 않도록 합니다.
FramePack은 노트북 GPU에서도 13B 모델로 매우 많은 프레임을 처리할 수 있습니다.
FramePack은 이미지 디퓨전 학습과 유사한 훨씬 더 큰 배치 크기로 학습할 수 있습니다.
비디오 디퓨전이지만, 이미지 디퓨전처럼 느껴집니다.
요구 사항
다른 것을 시도하기 전에 이 저장소부터 시작하세요!
요구 사항:
fp16 및 bf16을 지원하는 Nvidia RTX 30XX, 40XX, 50XX 시리즈 GPU. GTX 10XX/20XX는 테스트되지 않았습니다.
Linux 또는 Windows 운영체제.
최소 6GB GPU 메모리.
13B 모델을 사용하여 30fps(1800프레임)로 1분(60초) 비디오를 생성할 경우 최소 요구 GPU 메모리는 6GB입니다. (예, 6GB입니다. 오타가 아닙니다. 노트북 GPU도 괜찮습니다.)
속도에 관한 사항: 제 RTX 4090 데스크탑에서는 최적화되지 않은 상태에서 2.5초/프레임, teacache를 사용하면 1.5초/프레임 속도로 생성됩니다. 3070ti 노트북 또는 3060 노트북과 같은 제 노트북에서는 약 4배에서 8배 느립니다.
설치
다운로드 후 압축을 풀고, update.bat를 사용하여 업데이트한 후, run.bat를 사용하여 실행하세요.
update.bat를 실행하는 것이 중요합니다. 그렇지 않으면 이전 버전을 사용하게 되어 고쳐지지 않은 버그가 발생할 수 있습니다.
GUI를 시작하려면 다음을 실행하세요:
python demo_gradio.py
프롬프트 가이드
많은 사용자들이 더 나은 프롬프트를 어떻게 작성하는지 묻습니다.
아래는 제가 프롬프트를 얻기 위해 자주 사용하는 ChatGPT 템플릿입니다:
당신은 이미지 애니메이션을 위한 짧고 움직임에 초점을 맞춘 프롬프트를 작성하는 조수입니다.
사용자가 이미지를 보내면, 시각적 움직임(예: 인간 활동, 움직이는 객체, 카메라 이동 등)을 간단하게 묘사하는 단일의 간결한 프롬프트만 반환하세요. 장면이 어떻게 생동감 있고 역동적으로 변할 수 있는지에만 집중하고, 간단한 문구를 사용하세요.
더 크고 역동적인 움직임(예: 춤추기, 점프하기, 달리기 등)은 조용하거나 미묘한 움직임(예: 서 있기, 앉아 있기 등)보다 선호됩니다.
주체, 움직임, 그 외 요소의 순서로 설명하세요. 예: "소녀가 우아하게 춤추며, 뚜렷한 동작으로 매력을 발산한다."
춤출 수 있는 대상(남자, 여자, 로봇 등)이 있다면, 반드시 춤추는 것으로 묘사하는 것을 선호하세요.
반복 루프를 유지하세요: 이미지 하나를 입력하면, 움직임 프롬프트 하나만 출력하세요. 설명하거나 질문을 하지 말고, 여러 옵션을 생성하지 마세요.
이 지시사항을 ChatGPT에 붙여넣고 이미지를 입력하여 프롬프트를 얻으세요.
