SomniumSC

세부 정보

파일 다운로드

모델 설명

Cascade에서 최초로 등장한 고화질 애니메이션 스타일입니다. SomniumSC의 목표는 Stable Cascade의 waifu diffusion이 되는 것입니다. Diffuser 버전은 저희 huggingface에서도 확인하실 수 있습니다.

CivitAI에는 두 개의 파일이 있으며, 각각 Stage C를 미세 조정한 가중치와 텍스트 인코더(zi파일 내에 있음)입니다. 두 파일을 모두 다운로드한 후, zip 파일을 추출하여 .safetensors 파일을 얻어야 ComfyUI에서 모델을 사용할 수 있습니다. 사용법은 아래에 설명되어 있습니다. diffusers 🧨에서 모델을 사용하려면, huggingface의 저희 저장소를 확인하세요. 사용 방법에 대한 코드가 제공되어 있습니다.

부정 프롬프트와 긍정 프롬프트 내의 “단어 샐러드” 또는 번거로운 캡션 작성에 작별을 고하세요. SomniumSC v1.1부터는 놀라운 이미지를 생성하기 위해 어떤 프롬프트 조정도 필요하지 않으며, 캡션 작성도 훨씬 간단해졌습니다. 이 모델은 부정 프롬프트 없이도 우수한 이미지를 생성할 수 있습니다. 이미지에 원하지 않는 요소(예: 엘프 귀, 무작위 하늘)가 나타날 때만 부정 프롬프트를 사용하세요.

Ko-Fi에서 저를 지원해 주세요.


SomniumSC는 새로운 StabilityAI 모델인 Stable Cascade(또는 Würstchen v3)을 기반으로 하며, 2D(만화풍) 스타일을 Stage C 3.6B 모델로 학습시킨 미세 조정 모델입니다. 이 모델은 2D 스타일을 생성하기 위해 텍스트 인코더도 함께 학습했기 때문에, booru 태그 프롬프트뿐 아니라 자연어를 사용할 수 있습니다.

이 모델은 AnySomniumXL v2와 동일한 양과 방법으로 학습되었으며, 수십만 개의 다양한 출처에서 선별된 33,000개 이상의 이미지를 사용했습니다. 데이터셋은 미학 점수가 최소 19 이상, 최대 50 이하(만화풍을 유지하고 너무 사실적이지 않도록 하기 위해)인 이미지만 저장하여 구축되었습니다. 이 점수 척도는 저희 고유의 미학 평가 메커니즘을 기반으로 합니다. 또한, 텍스트나 워터마크(서명, 만화/만화 이미지 등)가 포함된 이미지는 제외되었습니다. 따라서 미학 점수가 17 미만 또는 50 초과인 이미지, 그리고 워터마크나 텍스트가 포함된 이미지는 모두 제거됩니다.

SomniumSC 기술 사양:

  • 1 에포크당 40 에포크 학습 (SomniumSC는 에포크 40 결과 사용)
  • 고유의 멀티모달 LLM으로 캡션 생성 (LLaVA보다 우수)
  • 1024x1024; 1536x1536 (다중 해상도) 버킷 크기로 학습
  • 캡션 셔플: 예
  • Clip Skip: 0
  • 1x NVIDIA A100 80GB로 학습

이 데이터셋을 생성하는 기술은 christophschuhmann의 CLIP 모델과 MLP 점수 방법을 기반으로 하며, 저희가 수정하여 VIT-L/14를 사용해 -1~100 범위의 미학 점수를 산출하고, 저희가 추가한 워터마크 탐지 기능을 통합했습니다.

SomniumSC v1.1의 성과:

✓ 과도한 부정 또는 긍정 프롬프트 없이도 기본적으로 자연어로 더 나은 2D 모델 생성
✓ adetailer 또는 inpainting 없이도 평균적인 Stable Diffusion 모델보다 더 나은 손가락 생성 가능
realistic 같은 부정 프롬프트 없이도 더 진짜 같은 2D 모델 생성
✓ 무작위 워터마크나 텍스트 생성하지 않음
✓ AnySomniumXL v3.5.1보다 더 나은 텍스트 생성 가능
✓ “부정 프롬프트”와 작별. 원치 않는 객체가 없으면 부정 프롬프트가 필요 없음
✓ SomniumSC v1보다 더 나은 색상 생성
✓ 훨씬 간단한 캡션 생성

Stable Cascade와 SDXL 기반 모델의 차이점은 손가락, 손, 발, 캐릭터의 미세한 디테일, 물체 보유 능력이 향상되었고, 최대 1536px까지 생성할 수 있다는 점입니다. 용기 있다면 이 모델로 최대 2048px까지 생성할 수 있습니다.

제한 사항:

✓ 더 다양한 포즈와 스타일을 위해 더 넓은 데이터셋 학습이 여전히 필요
✓ 텍스트 최대 단어 수는 2개로 제한
✓ 인간 또는 변형된 인간 생성에 최적화되어 있음. SCP, 폰이, 비인간 캐릭터 등은 기대한 결과를 얻기 어려울 수 있음
✓ 얼굴이 압축된 듯 보일 수 있음. 1536px 해상도로 생성하면 더 나은 결과를 얻을 수 있음

작은 반 크기 및 Stable Cascade Lite 버전은 곧 출시될 예정입니다.

SomniumSC 사용법:

현재 Stable Cascade는 ComfyUI에서만 지원됩니다. 하지만 저희 데모를 사용하실 수 있습니다.

tutorial 또는 여기를 참고하세요.

어떤 모델을 다운로드해야 할지 간단히 안내드립니다:

Stage A는 여기에서 다운로드
Stage B는 여기에서 다운로드
Stage C는 CivitAI 또는 저희 huggingface 저장소에서 .safetensors 파일 다운로드
텍스트 인코더는 저희 huggingface 저장소에서 다운로드

SomniumSC 프로 팁:

캐릭터에 뾰족한 귀가 생성된다면, elf 또는 pointy ears를 추가하세요.
“압축된 얼굴”이 생성된다면, 1536px 해상도로 생성하여 얼굴을 선명하게 생성하세요.

면책 조항:

이 모델은 STABILITY AI NON-COMMERCIAL RESEARCH COMMUNITY LICENSE 하에 제공됩니다. 이 모델은 판매할 수 없으며, 파생 작품도 상업화할 수 없습니다. 다만, 제가 알고 있는 한, StabilityAI의 멤버십을 구독하면 이 모델을 기반으로 한 파생 작품을 상업화할 수 있습니다. StabilityAI를 지원해 주세요. 그래야 저희에게 계속해서 오픈소스 모델을 제공할 수 있습니다. 그러나 여전히 저희 모델을 자유롭게 병합하실 수 있습니다.

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.