SoteDiffusion Wuerstchen3

세부 정보

모델 설명

새 버전 출시: /model/628865/sotediffusion-v2

Würstchen V3의 애니메이션 파인튜닝 버전입니다.

이 릴리즈는 fal.ai/grants에서 후원합니다.

8개의 A100 80G GPU를 사용하여 600만 장의 이미지에 대해 3에포크 동안 학습되었습니다.

이 모델은 Fal.AI를 통해 API로 사용할 수 있습니다.

자세한 내용: https://fal.ai/models/fal-ai/stable-cascade/sote-diffusion

SD.Next UI, Diffusers 또는 UNet 모델에 대해서는 Huggingface를 참조하세요:
https://huggingface.co/Disty0/sotediffusion-wuerstchen3
CivitAI 페이지에는 ComfyUI 체크포인트 모델만 포함되어 있습니다.

추론 파라미터:

메인 모델 다운로드 (8.14 GB 파일):

https://civitai.com/api/download/models/563950?type=Model&format=SafeTensor&size=pruned&fp=fp16

디코더 모델 다운로드 (4.24 GB 파일):

https://civitai.com/api/download/models/563892?type=Model&format=SafeTensor&size=pruned&fp=fp16

긍정적 키워드:

newest, extremely aesthetic, best quality,

부정적 키워드:

very displeasing, worst quality, monochrome, realistic, oldest, loli,

메인:

샘플러: DDPM 또는 DPMPP 2M + SGM Uniform
CFG: 7
스텝: 30 또는 40

디코더:

샘플러: Euler a Karras
CFG: 1 또는 1.2
스텝: 10

압축률: 42 (32~64 사이 가능)

해상도: 1024x1536, 2048x1152

128의 배수라면 어떤 해상도도 사용 가능합니다.

학습:

사용 소프트웨어: Kohya SD-Scripts의 Stable Cascade 브랜치.
https://github.com/kohya-ss/sd-scripts/tree/stable-cascade

사용 GPU: 8개의 Nvidia A100 80GB
GPU 시간: 220시간

기본 학습

파라미터 | 값

  • amp | bf16

  • 가중치 | fp32

  • 저장 가중치 | fp16

  • 해상도 | 1024x1024

  • 효과적 배치 크기 | 128

  • unet 학습률 | 1e-5

  • te 학습률 | 4e-6

  • 최적화기 | Adafactor

  • 이미지 수 | 600만

  • 에포크 수 | 3

최종 학습

파라미터 | 값

  • amp | bf16

  • 가중치 | fp32

  • 저장 가중치 | fp16

  • 해상도 | 1024x1024

  • 효과적 배치 크기 | 128

  • unet 학습률 | 4e-6

  • te 학습률 | 없음

  • 최적화기 | Adafactor

  • 이미지 수 | 12만

  • 에포크 수 | 16

데이터셋:

캡션 생성에 사용된 GPU: 1개의 Intel ARC A770 16GB
GPU 시간: 350시간

캡션 생성에 사용된 모델: SmilingWolf/wd-swinv2-tagger-v3

텍스트 생성에 사용된 모델: llava-hf/llava-1.5-7b-hf

명령어:

python /mnt/DataSSD/AI/Apps/kohya_ss/sd-scripts/finetune/tag_images_by_wd14_tagger.py --model_dir "/mnt/DataSSD/AI/models/wd14_tagger_model" --repo_id "SmilingWolf/wd-swinv2-tagger-v3" --recursive --remove_underscore --use_rating_tags --character_tags_first --character_tag_expand --append_tags --onnx --caption_separator ", " --general_threshold 0.35 --character_threshold 0.50 --batch_size 4 --caption_extension ".txt" ./

데이터셋 이름 | 총 이미지 수

  • newest : 185만

  • recent : 138만

  • mid : 993천

  • early : 566천

  • oldest : 16만

  • pixiv : 344천

  • visual novel cg : 231천

  • anime wallpaper : 105천

  • 총합: 5,628,499장

참고사항:

  • 최소 해상도: 1280x600 / 768,000 픽셀

  • czkawka-cli를 사용해 이미지 유사도 기반으로 중복 제거

  • 약 12만 장의 고화질 이미지를 의도적으로 5번 중복하여 총 이미지 수를 620만 장으로 증가

태그:

태그 형식:

모델은 랜덤 태그 순서로 학습되었지만, 관심 있다면 데이터셋 내 태그 순서는 다음과 같습니다:

미적 태그, 품질 태그, 날짜 태그, 사용자 정의 태그, 평가 태그, 캐릭터, 시리즈, 나머지 태그

날짜:

  • newest : 2022년 ~ 2024년

  • recent : 2019년 ~ 2021년

  • mid : 2015년 ~ 2018년

  • early : 2011년 ~ 2014년

  • oldest : 2005년 ~ 2010년

미적 태그:

사용 모델: shadowlilac/aesthetic-shadow-2

  • 점수 > 0.90 : extremely aesthetic

  • 점수 > 0.80 : very aesthetic

  • 점수 > 0.70 : aesthetic

  • 점수 > 0.50 : slightly aesthetic

  • 점수 > 0.40 : not displeasing

  • 점수 > 0.30 : not aesthetic

  • 점수 > 0.25 : slightly displeasing

  • 점수 > 0.10 : displeasing

  • 나머지 : very displeasing

품질 태그:

사용 모델: https://huggingface.co/hakurei/waifu-diffusion-v1-4/blob/main/models/aes-B32-v0.pth

  • 점수 > 0.980 : best quality

  • 점수 > 0.900 : high quality

  • 점수 > 0.750 : great quality

  • 점수 > 0.500 : medium quality

  • 점수 > 0.250 : normal quality

  • 점수 > 0.125 : bad quality

  • 점수 > 0.025 : low quality

  • 나머지 : worst quality

평가 태그:

  • general

  • sensitive

  • nsfw

  • explicit nsfw

사용자 정의 태그:

  • 이미지 게시판: date,

  • 텍스트: "text" 라고 표시됨,

  • 캐릭터: character, series

  • pixiv: art by Display_Name,

  • 비주얼 노벨 CG: Full_VN_Name (short_3_letter_name), visual novel cg,

  • 애니메이션 벽지: date, anime wallpaper,

라이선스

SoteDiffusion 모델은 Fair AI Public License 1.0-SD 라이선스를 따르며, 이는 Stable Diffusion 모델의 라이선스와 호환됩니다. 주요 내용:

  • 1. 변경 사항 공유: SoteDiffusion 모델을 수정한 경우, 변경 사항과 원본 라이선스를 모두 공유해야 합니다.

  • 2. 소스 코드 접근성: 수정된 버전이 네트워크를 통해 접근 가능할 경우, 타인이 소스 코드를 다운로드할 수 있는 방법(예: 다운로드 링크)을 제공해야 합니다. 이는 파생 모델에도 적용됩니다.

  • 3. 배포 조건: 모든 배포는 본 라이선스 또는 유사한 규칙을 가진 라이선스 하에 이루어져야 합니다.

  • 4. 준수 의무: 준수하지 않을 경우, 라이선스 종료를 방지하기 위해 30일 이내에 수정해야 하며, 투명성과 오픈소스 가치의 준수를 강조합니다.

참고: Fair AI 라이선스에서 다루지 않는 사항은 Stability AI의 비상업 라이선스에서 파생됩니다.

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.