HelloWorld Stable Cascade Early Beta

세부 정보

파일 다운로드

모델 설명

이 모델은 HelloWorld SC의 초기 베타 버전입니다. Stability AI 공식이 제공한 학습 스크립트를 기반으로, Stable Cascade stage_c_lite 모델(1B 버전)을 미세 조정했습니다.

현재 v0.1 버전은 가장 초기 테스트 모델임을 유의해 주세요. 주요 목적은 새로운 학습 프로세스에 익숙해지는 것입니다. 이미지 생성 테스트 결과, 이 모델의 전반적인 성능은 안정적이지 않으며, 근경에서는 더 나은 효과를 보이지만, 전신 촬영과 같은 전경 구성에서는 이미지 품질이 명확히 저하됩니다.

다음은 Stable Cascade에 관심 있는 다른 모델 작성자에게 도움이 될 수 있는 제 학습의 핵심 데이터입니다:
v0.1 버전은 초상화, 과학 소설, 팔라스 고양이 등의 주제를 포함한 총 740장의 리얼리스틱 학습 이미지를 사용했습니다. 모든 이미지는 우리 개방형 GPT4V 태거를 사용하여 태그 처리되었습니다. 사용된 그래픽 카드는 48GB VRAM을 가진 RTX6000 Ada 하나였으며, 총 학습 시간은 3.5시간이었습니다.

config 파일의 매개변수는 다음과 같습니다:

lr: 1.5e-6
batch_size: 6
image_size: 1024
multi_aspect_ratio: [1/1, 1/2, 1/3, 2/3, 3/4, 1/5, 2/5, 3/5, 4/5, 1/6, 5/6, 9/16, 9/21]
grad_accum_steps: 1
updates: 12500
backup_every: 2500
save_every: 500
warmup_updates: 1
use_fsdp: false
adaptive_loss_weight: True

위 매개변수는 학습 중 약 45GB의 VRAM을 차지합니다. 공식 학습 스크립트는 A100과 같은 고용량 VRAM 카드를 대상으로 하며, VRAM 최적화가 거의 없기 때문에, 24GB 이하의 VRAM을 가진 모델 작성자는 kohya-ss의 업데이트를 기다리는 것을 권장합니다. 현재 공식 학습 스크립트를 사용하면, 배치 크기를 1로 설정하더라도 stage_c_lite.safetensors에 대한 미세 조정에 여전히 30GB의 VRAM이 필요합니다.

(업데이트: 한 네티즌이 공식 스크립트를 GPU 메모리 사용량 측면에서 최적화했습니다 . 현재 stage C 1B 모델의 미세 조정에는 단 10GB의 GPU 메모리만 필요하며, 이는 충분합니다.)

향후 계획:
kohya-ss가 업데이트되면, HelloWorld 6.0의 전체 학습 세트를 사용하여 SDXL, Stable Cascade 3.6B 및 1B 버전을 각각 미세 조정할 계획입니다.

Stable Cascade에 큰 기대를 걸고 있으며, 이 버전이 널리 사용 중인 SDXL의 일부 단점을 보완하여, 더 많은 사용자들이 SD1.5에서 신세대 SD 모델 생태계로 이동하도록 유도하기를 바랍니다.

특별한 감사의 말씀:

容华 모델의 제작자 Fok씨에게, SC 모델 학습 스크립트 실행 중 저에게 큰 도움을 주셔서 진심으로 감사드립니다. 그는 자신의 SC 모델을 최적화하고 테스트 중이며, 좋은 소식을 기대하고 있습니다.

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.