Stable Cascade
세부 정보
파일 다운로드
모델 설명
데모:
multimodalart: https://hf.co/spaces/multimodalart/stable-cascade
ehristoforu: https://hf.co/spaces/ehristoforu/Stable-Cascade
Stable Cascade
이 모델은 Würstchen 아키텍처를 기반으로 구축되었으며, Stable Diffusion과 같은 다른 모델들과의 주요 차이점은 훨씬 더 작은 잠재 공간에서 작동한다는 점입니다. 왜 이것이 중요한가요? 잠재 공간이 작을수록 추론 속도가 더 빠르고, 학습 비용이 더 저렴해집니다.
잠재 공간은 얼마나 작은가요? Stable Diffusion은 압축 비율 8을 사용하여 1024x1024 이미지를 128x128로 인코딩합니다. 반면, Stable Cascade는 압축 비율 42를 달성하여 1024x1024 이미지를 24x24로 인코딩하면서도 선명한 복원을 가능하게 합니다. 텍스트 조건 모델은 이 매우 압축된 잠재 공간에서 학습됩니다. 이 아키텍처의 이전 버전은 Stable Diffusion 1.5 대비 16배의 비용 절감을 달성했습니다.
따라서 이 유형의 모델은 효율성이 중요한 사용 사례에 적합합니다. 또한, 미세 조정, LoRA, ControlNet, IP-Adapter, LCM 등 알려진 모든 확장 기능도 이 방법으로 가능합니다.
모델 세부 사항
모델 설명
Stable Cascade는 텍스트 프롬프트가 주어졌을 때 이미지를 생성하도록 학습된 디퓨전 모델입니다.
개발자: Stability AI
지원: Stability AI
모델 유형: 생성형 텍스트-이미지 모델
모델 소스
연구 목적으로는 StableCascade GitHub 저장소(https://github.com/Stability-AI/StableCascade)를 추천합니다.
모델 개요
Stable Cascade는 세 개의 모델—Stage A, Stage B, Stage C—로 구성되며, 이미지를 생성하는 계층적 구조를 나타내므로 "Stable Cascade"라는 이름이 붙었습니다.
Stage A 및 B는 Stable Diffusion에서 VAE가 수행하는 역할과 유사하게 이미지를 압축합니다.
그러나 이 구조를 통해 훨씬 더 높은 이미지 압축률을 달성할 수 있습니다. Stable Diffusion 모델은 공간 압축 비율 8을 사용하여 1024x1024 이미지를 128x128로 인코딩하는 반면, Stable Cascade는 압축 비율 42를 달성하여 1024x1024 이미지를 24x24로 인코딩하면서도 정확히 디코딩할 수 있습니다. 이는 학습 및 추론 비용 절감이라는 큰 장점을 제공합니다. 또한 Stage C는 텍스트 프롬프트가 주어졌을 때 작은 24x24 잠재 벡터를 생성하는 역할을 합니다. 아래 그림은 이를 시각적으로 보여줍니다.

이 릴리즈에서는 Stage C에 두 개, Stage B에 두 개, Stage A에 하나의 체크포인트를 제공합니다. Stage C는 10억 파라미터 및 36억 파라미터 버전을 제공하지만, 대부분의 작업이 미세 조정에 집중된 36억 파라미터 버전을 강력히 추천합니다. Stage B의 두 버전은 각각 7억 및 15억 파라미터를 가지며, 둘 다 우수한 결과를 제공하지만, 15억 파라미터 버전이 작은 세부 사항을 더 잘 재구성합니다. 따라서 각 단계에서 더 큰 버전을 사용하면 최상의 결과를 얻을 수 있습니다. 마지막으로, Stage A는 2천만 파라미터로 구성되어 있으며, 크기가 작아 고정되어 있습니다.
평가

우리의 평가에 따르면, Stable Cascade는 거의 모든 비교에서 프롬프트 일치도와 미적 품질 측면에서 가장 우수한 성능을 보입니다. 위 그림은 parti-prompts(링크)와 미적 프롬프트를 혼합한 인간 평가 결과를 보여줍니다. 구체적으로, Stable Cascade(30개 추론 단계)는 Playground v2(50개 추론 단계), SDXL(50개 추론 단계), SDXL Turbo(1개 추론 단계), Würstchen v2(30개 추론 단계)와 비교되었습니다.
코드 예제
⚠️ 중요: 아래 코드를 실행하려면 PR이 진행 중이므로 이 브랜치에서 diffusers를 설치해야 합니다.
pip install git+https://github.com/kashif/diffusers.git@wuerstchen-v3
import torch
from diffusers import StableCascadeDecoderPipeline, StableCascadePriorPipeline
device = "cuda"
num_images_per_prompt = 2
prior = StableCascadePriorPipeline.from_pretrained("stabilityai/stable-cascade-prior", torch_dtype=torch.bfloat16).to(device)
decoder = StableCascadeDecoderPipeline.from_pretrained("stabilityai/stable-cascade", torch_dtype=torch.float16).to(device)
prompt = "Anthropomorphic cat dressed as a pilot"
negative_prompt = ""
prior_output = prior(
prompt=prompt,
height=1024,
width=1024,
negative_prompt=negative_prompt,
guidance_scale=4.0,
num_images_per_prompt=num_images_per_prompt,
num_inference_steps=20
)
decoder_output = decoder(
image_embeddings=prior_output.image_embeddings.half(),
prompt=prompt,
negative_prompt=negative_prompt,
guidance_scale=0.0,
output_type="pil",
num_inference_steps=10
).images
# 이제 decoder_output은 PIL 이미지 리스트입니다
사용 사례
직접 사용
현재 이 모델은 연구 목적으로만 설계되었습니다. 가능한 연구 분야 및 작업에는 다음이 포함됩니다:
생성형 모델에 대한 연구
해로운 콘텐츠를 생성할 가능성이 있는 모델의 안전한 배포
생성형 모델의 한계 및 편향 탐색 및 이해
예술 작품 생성 및 디자인 및 기타 예술적 프로세스에서의 활용
교육 또는 창의적 도구에의 적용
제외된 사용 사례는 아래에 설명되어 있습니다.
범위 외 사용
이 모델은 사람이나 사건에 대한 사실적이거나 진실된 표현을 생성하도록 학습되지 않았으므로, 이러한 콘텐츠를 생성하는 것은 이 모델의 능력 범위를 벗어납니다.
이 모델은 Stability AI의 수용 가능한 사용 정책에 위배되는 방식으로 사용되어서는 안 됩니다.
한계 및 편향
한계
얼굴 및 일반적인 인물이 제대로 생성되지 않을 수 있습니다.
모델의 자동 인코딩 부분은 손실이 발생합니다.
권장 사항
이 모델은 오직 연구 목적으로만 사용되어야 합니다.







