Stable Cascade Stage B Slightly Improved

세부 정보

파일 다운로드

모델 설명

Stable Cascade Stage B(디코더라고도 함)을 학습시켰을 때 어떤 효과가 있는지 확인하고 싶었습니다. 효과는 매우 미세하지만, 이 모델이 최종 이미지의 매우 세밀한 디테일을 담당하는 것으로 보이며, 제가 매우 단순하게 학습시킨 결과가 모델을 명확히 개선한 것처럼 보입니다. 제 학습된 버전은 더 선명하고 덜 흐릿한 이미지를 생성합니다. 이 효과는 스케치 스타일의 그림처럼 세밀한 검은 선이 있는 이미지에서 특히 두드러집니다.

사용한 데이터셋은 약 5천 장의 이미지로, 다양한 스타일을 포함하며 일부 NSFW 콘텐츠도 있습니다. 그러나 Stage B에서는 이미지의 전반적인 콘텐츠나 스타일에 큰 영향을 미치지 않기 때문에 사실상 크게 중요하지 않은 것 같습니다. 실제로 Stage B는 고도로 세밀한 사진만으로, 그리고 일러스트레이션은 전혀 사용하지 않고 학습하는 것이 가장 유리할 것입니다(특정 스타일에 전념하는 파이프라인을 원하는 경우를 제외하고). 저는 계속 실험할 계획입니다.

이 모델은 공식 Stability AI 소스 코드를 기반으로 하여, 제 GPU에서 작동하도록 일부 수정을 가해 학습했습니다.

이 모델을 로드하는 것은 다운로더에게 맡겨진 과제입니다. 저는 diffusers의 StableCascadeUnet.from_single_file을 사용하여 성공적으로 로드했습니다(이것은 변환 로직을 포함하기 때문에 필요합니다). 그 후, 파이프라인을 생성하여 추론을 실행하거나 HF 형식으로 파이프라인을 디스크에 저장할 수 있습니다. ComfyUI에서 이 모델을 로드하고 싶다면, HF 형식이 작동할 수 있으며, 어딘가에 변환 스크립트가 있을 수도 있지만, 저는 ComfyUI를 사용해보지 않아 확신할 수 없습니다.

쇼 이미지에서 첫 번째 이미지는 _이 모델_로 생성되었고, 두 번째 이미지는 공식 Stable Cascade Stage B로 생성되었습니다. 제 버전에서는 개별 머리카락의 디테일이 선명하고 잘 보이는 반면, 원본 버전은 약간 더 흐릿합니다.

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.