SoteDiffusion Wuerstchen3
세부 정보
파일 다운로드
이 버전에 대해
모델 설명
새 버전 출시: /model/628865/sotediffusion-v2
Würstchen V3의 애니메이션 파인튜닝 버전입니다.
이 릴리즈는 fal.ai/grants에서 후원합니다.
8개의 A100 80G GPU를 사용하여 600만 장의 이미지에 대해 3에포크 동안 학습되었습니다.
이 모델은 Fal.AI를 통해 API로 사용할 수 있습니다.
자세한 내용: https://fal.ai/models/fal-ai/stable-cascade/sote-diffusion
SD.Next UI, Diffusers 또는 UNet 모델에 대해서는 Huggingface를 참조하세요:
https://huggingface.co/Disty0/sotediffusion-wuerstchen3
CivitAI 페이지에는 ComfyUI 체크포인트 모델만 포함되어 있습니다.
추론 파라미터:
메인 모델 다운로드 (8.14 GB 파일):
https://civitai.com/api/download/models/563950?type=Model&format=SafeTensor&size=pruned&fp=fp16
디코더 모델 다운로드 (4.24 GB 파일):
https://civitai.com/api/download/models/563892?type=Model&format=SafeTensor&size=pruned&fp=fp16
긍정적 키워드:
newest, extremely aesthetic, best quality,
부정적 키워드:
very displeasing, worst quality, monochrome, realistic, oldest, loli,
메인:
샘플러: DDPM 또는 DPMPP 2M + SGM Uniform
CFG: 7
스텝: 30 또는 40
디코더:
샘플러: Euler a Karras
CFG: 1 또는 1.2
스텝: 10
압축률: 42 (32~64 사이 가능)
해상도: 1024x1536, 2048x1152
128의 배수라면 어떤 해상도도 사용 가능합니다.
학습:
사용 소프트웨어: Kohya SD-Scripts의 Stable Cascade 브랜치.
https://github.com/kohya-ss/sd-scripts/tree/stable-cascade
사용 GPU: 8개의 Nvidia A100 80GB
GPU 시간: 220시간
기본 학습
파라미터 | 값
amp | bf16
가중치 | fp32
저장 가중치 | fp16
해상도 | 1024x1024
효과적 배치 크기 | 128
unet 학습률 | 1e-5
te 학습률 | 4e-6
최적화기 | Adafactor
이미지 수 | 600만
에포크 수 | 3
최종 학습
파라미터 | 값
amp | bf16
가중치 | fp32
저장 가중치 | fp16
해상도 | 1024x1024
효과적 배치 크기 | 128
unet 학습률 | 4e-6
te 학습률 | 없음
최적화기 | Adafactor
이미지 수 | 12만
에포크 수 | 16
데이터셋:
캡션 생성에 사용된 GPU: 1개의 Intel ARC A770 16GB
GPU 시간: 350시간
캡션 생성에 사용된 모델: SmilingWolf/wd-swinv2-tagger-v3
텍스트 생성에 사용된 모델: llava-hf/llava-1.5-7b-hf
명령어:
python /mnt/DataSSD/AI/Apps/kohya_ss/sd-scripts/finetune/tag_images_by_wd14_tagger.py --model_dir "/mnt/DataSSD/AI/models/wd14_tagger_model" --repo_id "SmilingWolf/wd-swinv2-tagger-v3" --recursive --remove_underscore --use_rating_tags --character_tags_first --character_tag_expand --append_tags --onnx --caption_separator ", " --general_threshold 0.35 --character_threshold 0.50 --batch_size 4 --caption_extension ".txt" ./
데이터셋 이름 | 총 이미지 수
newest : 185만
recent : 138만
mid : 993천
early : 566천
oldest : 16만
pixiv : 344천
visual novel cg : 231천
anime wallpaper : 105천
총합: 5,628,499장
참고사항:
최소 해상도: 1280x600 / 768,000 픽셀
czkawka-cli를 사용해 이미지 유사도 기반으로 중복 제거
약 12만 장의 고화질 이미지를 의도적으로 5번 중복하여 총 이미지 수를 620만 장으로 증가
태그:
태그 형식:
모델은 랜덤 태그 순서로 학습되었지만, 관심 있다면 데이터셋 내 태그 순서는 다음과 같습니다:
미적 태그, 품질 태그, 날짜 태그, 사용자 정의 태그, 평가 태그, 캐릭터, 시리즈, 나머지 태그
날짜:
newest : 2022년 ~ 2024년
recent : 2019년 ~ 2021년
mid : 2015년 ~ 2018년
early : 2011년 ~ 2014년
oldest : 2005년 ~ 2010년
미적 태그:
사용 모델: shadowlilac/aesthetic-shadow-2
점수 > 0.90 : extremely aesthetic
점수 > 0.80 : very aesthetic
점수 > 0.70 : aesthetic
점수 > 0.50 : slightly aesthetic
점수 > 0.40 : not displeasing
점수 > 0.30 : not aesthetic
점수 > 0.25 : slightly displeasing
점수 > 0.10 : displeasing
나머지 : very displeasing
품질 태그:
사용 모델: https://huggingface.co/hakurei/waifu-diffusion-v1-4/blob/main/models/aes-B32-v0.pth
점수 > 0.980 : best quality
점수 > 0.900 : high quality
점수 > 0.750 : great quality
점수 > 0.500 : medium quality
점수 > 0.250 : normal quality
점수 > 0.125 : bad quality
점수 > 0.025 : low quality
나머지 : worst quality
평가 태그:
general
sensitive
nsfw
explicit nsfw
사용자 정의 태그:
이미지 게시판: date,
텍스트: "text" 라고 표시됨,
캐릭터: character, series
pixiv: art by Display_Name,
비주얼 노벨 CG: Full_VN_Name (short_3_letter_name), visual novel cg,
애니메이션 벽지: date, anime wallpaper,
라이선스
SoteDiffusion 모델은 Fair AI Public License 1.0-SD 라이선스를 따르며, 이는 Stable Diffusion 모델의 라이선스와 호환됩니다. 주요 내용:
1. 변경 사항 공유: SoteDiffusion 모델을 수정한 경우, 변경 사항과 원본 라이선스를 모두 공유해야 합니다.
2. 소스 코드 접근성: 수정된 버전이 네트워크를 통해 접근 가능할 경우, 타인이 소스 코드를 다운로드할 수 있는 방법(예: 다운로드 링크)을 제공해야 합니다. 이는 파생 모델에도 적용됩니다.
3. 배포 조건: 모든 배포는 본 라이선스 또는 유사한 규칙을 가진 라이선스 하에 이루어져야 합니다.
4. 준수 의무: 준수하지 않을 경우, 라이선스 종료를 방지하기 위해 30일 이내에 수정해야 하며, 투명성과 오픈소스 가치의 준수를 강조합니다.
참고: Fair AI 라이선스에서 다루지 않는 사항은 Stability AI의 비상업 라이선스에서 파생됩니다.



















