Kohaku XL Gamma

SDXL 애니메이션 베이스 모델로 독창적인 예술 작품을 생성하는 것을 목표로 합니다.

저작권 캐릭터 또는 아티스트 스타일을 재현하기 위해 설계되지 않음

소개

이 모델은 Animagine XL 3.0 프로젝트의 파생 모델로 볼 수 있습니다.
기본적으로 저는 Linaqruf와 협력하여 더 나은 애니메이션 베이스 모델을 만드는 중이며(우리의 목표와 타겟이 다르다는 것은 명백합니다).
우리는 모델과 기술을 공유하여 모델의 품질을 향상시킵니다.
이 모델도 바로 그 과정에서 생성되었습니다.

모델

Base7

Kohaku-XL base7은 beta7을 재개한 버전으로, 베타 시리즈와 동일한 데이터셋을 사용합니다. 하지만 이번에는 제가 자체 메타데이터 시스템을 사용하여 캡션을 생성했습니다. (Linaqruf가 사용한 것의 고급 버전으로 볼 수 있으며, 곧 오픈소스로 공개할 예정입니다.)

메타데이터 데이터베이스는 다음에서 다운로드할 수 있습니다:
KBlueLeaf/danbooru2023-sqlite · Datasets at Hugging Face

학습 세부 정보:
LR: 8e-6/2e-6
스케줄러: 웜업이 있는 constant
배치 크기: 128 (배치 크기 4 × 그래디언트 누적 16 × GPU 수 2)

Base 8

Kohaku-XL base8은 base7과 동일하지만 LR을 5e-6/1e-6로 사용하며, 148만 장의 이미지에 대해 전체 에포크를 수행했습니다.

Gamma rev1

Kohaku-XL Gamma rev1은 anxl3과 Kohaku XL base7의 학습된 차이를 결합한 병합 모델입니다. 다음 공식을 사용합니다:

gamma rev1 = beta7 + 0.8 * (anxl3 - anxl2) + 0.5 * (base7 - beta7)

Gamma rev2

Kohaku-XL gamma rev2는 다음 식으로 병합되었습니다:

gamma rev2 = beta7 + 1.0 * (anxl3 - anxl2) + 0.25 * (base8 - beta7)

또한 MBW 레시피를 사용하여 Anxl3과 직접 병합했습니다:

0,0.1,0.1,0,0.1,0.1,0,0.1,0.1,0,0,0,0,0,0.05,0.05,0.05,0.05,0.05,0.05

병합 이유:

우선, (anxl3 - anxl2)는 "anxl2에서 재개된 학습을 통해 anxl3이 배운 것"으로 간주할 수 있습니다. 그리고 이 "배운 것"은 주로 "메타 태그" 및 일부 캐릭터/스타일 정보이므로, anxl3/anxl2의 차이를 병합하는 것이 좋습니다.

또는 이 병합을 "두 개의 LoRA/LyCORIS 모델을 병합한 것"으로 볼 수 있습니다. 하나는 anxl3에서 추출되었고, 다른 하나는 base7/8에서 추출되었습니다.

매우 낮은 가중치의 MBW 병합은 병합된 모델의 과학습으로 인한 아티팩트를 수정하기 위한 것입니다.

사용법

FP8 모델

safetensors 0.4.2 이상 또는 PyTorch 2.2.0 이후, 사용자는 FP8을 사용하여 모델을 safetensors 또는 PyTorch 체크포인트로 저장할 수 있습니다. 또한 ZIP 파일로 FP8 버전의 모델을 업로드했으므로, 압축을 풀고 FP8 safetensors 파일을 SD 모델 폴더로 드래그하여 일반적으로 사용할 수 있습니다.

safetensors를 0.4.2 이상으로 업데이트하세요.

FP8 + FP16 추론에 대한 자세한 정보:
A big improvement for dtype casting system with fp8 storage type and manual cast by KohakuBlueleaf · Pull Request #14031 · AUTOMATIC1111/stable-diffusion-webui (github.com )

파라미터

이 모델은 768x1024에서 1024x1024 ARB로 학습되었습니다. 픽셀 수는 786,432 ~ 1,310,720 범위를 사용하는 것이 좋습니다.
권장 CFG 스케일은 4~7입니다.
샘플러는 크게 중요하지 않습니다.

태깅

이 모델은 품질 태그 등에 대해 제가 개발한 시스템을 사용합니다.
따라서 이 모델이 anxl3의 차이 가중치를 결합했더라도, 사용자에게 제 시스템(또는 둘 다)의 태깅 방식을 사용할 것을 권장합니다.

이 모델은 아티스트 이름을 태그로 학습했으므로, 아티스트 태그를 "스타일화 태그"로 사용할 수 있습니다. 그러나 제 학습 설정은 스타일 학습을 목적으로 설계되지 않았기 때문에, 특정 아티스트의 스타일을 정확히 재현할 수는 없습니다. 아티스트 태그는 단지 스타일 리파이너 태그로 사용하세요.
캐릭터 태그도 아티스트와 마찬가지입니다. 모델은 캐릭터 태그를 받아들일 수 있지만, 특정 캐릭터를 재현하는 능력을 보장하지는 않습니다.

프롬프트 형식은 anxl3과 동일합니다. (제가 게시한 샘플 이미지를 참조하세요.)

등급 태그:

일반: safe
민감: sensitive
의심스러움: nsfw
노골적: explicit, nsfw

품질 태그 (좋음에서 나쁨 순):

Masterpiece
best quality
great quality
good quality
normal quality
low quality
worst quality

연도 태그 (최신에서 오래된 순):

newest
recent
mid
early
old

미세한 모자이크 같은 아티팩트를 볼 수 있을 수 있습니다. 이는 높은 LR이나 잘못된 리사이징/이미지 인코딩으로 인해 발생할 수 있습니다.
다음 버전에서 이를 수정할 예정입니다. 현재는 R-ESRGAN anime6b 또는 SCUNet 모델을 사용하여 이를 수정해 보세요.

향후 계획

제 데이터셋에는 리사이징/WebP 아티팩트가 포함되어 있어 모델에 해를 끼칠 수 있습니다. 따라서 새 시스템을 기반으로 데이터셋을 재구성할 예정이며, 완료 후 이를 오픈소스로 공개할 것입니다.

다음 계획은 더 큰(3M~~6M) 데이터셋에 더 나은 설정으로 모델을 학습하는 것입니다(이를 위해서는 A100이 필요하며, 약 2,000~~10,000달러를 투자할 계획입니다). 제 작업을 좋아하신다면, Buy Me a Coffee 또는 BTC 기반 스폰서를 통해 저를 후원해 주세요. 링크는 제 GitHub 프로필에서 확인할 수 있습니다: KohakuBlueleaf (Kohaku-Blueleaf) (github.com )

부록

샘플 이미지를 생성하던 중, 처음에는 병합 방법에 오류가 있었음을 발견했습니다(LyCORIS의 유틸리티 버그로 인해).
최종 버전 rev1은 버그가 없는 버전이지만, 제가 게시한 일부 샘플 이미지는 실제로 이 버그가 있는 버전으로 생성되었습니다.
이 버그가 있는 버전과 base7을 제 HuggingFace에 업로드할 예정입니다:
KBlueLeaf (Shih-Ying Yeh) (huggingface.co )

다음 버전(또는 다른 프로젝트)의 진행 상황을 확인하고 싶다면, 제 홈페이지를 방문하세요:
Kohaku's Homepage (kblueleaf.net )

라이선스

중요

이 모델은 anxl3과 마찬가지로 faipl-1.0-sd 라이선스 하에 제공됩니다:
Freedom of Development (freedevproject.org )

모델 유형	체크포인트
기본 모델	SDXL 1.0
게시일	1/19/2024

Kohaku-XL gamma

세부 정보

파일 다운로드

모델 설명