Kohaku XL Δelta

고객 수준 하드웨어로 학습된 최고의 SDXL 애니메이션 베이스 모델 중 하나.

우리와 함께하세요: https://discord.gg/tPBsKDyRR5

소개

Kohaku XL Delta는 Kohaku XL 시리즈의 네 번째 주요 버전으로, 360만 장의 이미지 데이터셋, LyCORIS 세부 조정[1], 소비자 수준 하드웨어에서 학습되었으며 완전히 오픈소스로 공개되었습니다.

사용법

이 모델을 사용하기 위한 간단한 형식은 다음과 같습니다:

<1girl/1boy/1other/...>, <character>, <series>, <artists>, <special tags>, <general tags>

특수 태그(품질, 레이팅, 날짜)는 실제로 일반 태그에 속하지만, 이러한 태그들을 일반 태그 앞에 그룹화하는 것이 좋습니다.

Kohaku XL Delta는 몇몇 아티스트의 스타일을 높은 정확도로 습득했지만, 사용자는 특정 아티스트의 스타일을 복제하려는 대신 여러 아티스트 태그를 혼합하여 새로운 스타일을 탐색하는 것을 강력히 권장합니다.

특수 태그

- 품질 태그: masterpiece, best quality, great quality, good quality, normal quality, low quality, worst quality

- 레이팅 태그: safe, sensitive, nsfw, explicit

- 날짜 태그: newest, recent, mid, early, old

품질 태그

품질 태그는 각 레이팅 카테고리 내에서 좋아요 수(fav_count)의 백분위 수준을 기반으로 할당되어 nsfw 콘텐츠에 대한 편향을 방지합니다(Animagine XL v3는 이 문제를 겪었습니다). 높은 순서에서 낮은 순서로 다음과 같이 정리됩니다: 95번째, 85번째, 75번째, 50번째, 25번째, 10번째 백분위. 이로 인해 여섯 개의 임계값으로 구분된 일곱 가지 명확한 품질 레벨이 생성됩니다.

레이팅 태그

일반: safe

민감: sensitive

의심스러움: nsfw

명시적: nsfw, explicit

참고: 학습 중 "explicit"로 태그된 콘텐츠는 "nsfw" 범주 내에서도 고려되어 포괄적인 이해를 보장합니다.

날짜 태그

날짜 태그는 이미지의 업로드 날짜를 기준으로 합니다. 메타데이터에는 실제 생성 날짜가 포함되어 있지 않기 때문입니다.

기간은 다음과 같이 분류됩니다:

2005~2010: old
2011~2014: early
2015~2017: mid
2018~2020: recent
2021~2024: newest

강조도

학습 기간이 짧기 때문에 일부 태그가 충분히 학습되지 않았을 수 있습니다. 실험을 통해 "강조도 가중치"를 1.5에서 2.5 사이로 증가시키면 캐릭터 또는 아티스트 태그에 특히 우수한 결과를 얻을 수 있습니다.

sd-webui 사용자는 버전 >= 1.8.0을 사용하고 강조 모드를 "No norm"으로 전환하여 NaN 문제를 방지하세요.

해상도

이 모델은 ARB 1024x1024 해상도로 학습되었으며, 최소 해상도는 256, 최대 해상도는 4096입니다. 즉, 표준 SDXL 해상도를 사용할 수 있습니다. 그러나 1024x1024보다 약간 더 높은 해상도를 선택하는 것이 권장되며, 더 나은 결과를 위해 hires-fix를 적용하는 것도 권장됩니다.

자세한 정보는 제공된 샘플 이미지의 메타데이터를 확인하세요.

이 모델이 탄생하게 된 과정

데이터셋

이 모델의 학습 데이터셋은 HakuBooru에서 유래하였으며, danbooru2023 데이터셋에서 선정된 360만 장의 이미지로 구성되었습니다.[2][3]

ID 0~~2,999,999에서 100만 개의 포스트, ID 3,000,000~~4,999,999에서 또 다른 100만 개의 포스트, 그리고 ID 5,000,000 이후의 모든 포스트를 선택하여 총 410만 개의 포스트를 확보했습니다. 삭제된 포스트, 골드 계정 포스트, 이미지가 없는 포스트(GIF 또는 MP4일 수 있음)를 필터링한 후 최종 데이터셋은 360만 장의 이미지로 구성되었습니다.

선택은 본질적으로 무작위였지만, 재현성을 보장하기 위해 고정된 시드를 사용했습니다.

추가 처리

태그 셔플: 각 단계에서 일반 태그의 순서를 셔플했습니다.
태그 드롭아웃: 각 단계에서 무작위로 10%의 일반 태그를 제거했습니다.

학습

Kohaku XL Delta의 학습은 LyCORIS 프로젝트와 kohya-ss/sd-scripts의 트레이너를 통해 이루어졌습니다.[1][4]

베이스 모델 개선

우리의 조사 결과, CLIP 내의 "token_embedding" 및 "position_embedding" 또는 openCLIP의 "positional_embedding"을 소규모~중규모 세부 조정 시, 특히 작은 배치 크기에서는 유익하지 않을 수 있음이 밝혀졌습니다.[5][6]

따라서 우리는 TE1 및 TE2 모델의 원래 토큰 및 위치 임베딩으로 복원했습니다. 이후 복원된 gamma rev2 및 beta7 모델을 가중치 합(가중치=0.5)으로 결합하여 Kohaku XL Delta의 베이스 모델을 구성했습니다.

이 베이스 모델은 "delta-pre2" 또는 "delta base"라고 불리며, 추가 학습 없이 초기 버전으로, Kohaku XL gamma rev2와 Kohaku XL beta7 사이의 능력을 보유하고 있습니다.

알고리즘: LoKr[7]

이 모델은 LoKr 알고리즘을 사용하여 각 모듈에 대해 완전한 행렬을 트리거하고 인자 2~8로 학습되었습니다. LoRA/LyCORIS를 베이스 모델 학습에 적용할 수 있음을 입증하는 것이 목표였습니다.

원래 LoKr 파일 크기는 800MB 미만이며, TE는 얼리지 않았습니다. 원래 LoKr 파일은 "delta-lokr" 버전으로 제공됩니다.

자세한 설정은 LyCORIS 설정 파일을 참조하세요.

기타 학습 세부 사항

- 하드웨어: RTX 3090 두 대

- 학습 이미지 수: 3,665,398

- 배치 크기: 4

- 기울기 누적 단계: 16

- 등가 배치 크기: 128

- 총 에포크: 1

- 총 스텝: 28638

- 최적화기: Lion8bit

- 학습률: UNet은 4e-5, TE는 1e-5

- LR 스케줄러: Constant

- 워밍업 스텝: 100

- 가중치 감쇠: 0.1

- 베타: 0.9, 0.95

- 최소 SNR 감마: 5

- 해상도: 1024x1024

- 최소 버킷 해상도: 256

- 최대 버킷 해상도: 4096

- 혼합 정밀도: FP16

경고: bitsandbytes 버전 0.36.0~0.41.0에는 8비트 최적화기에서 심각한 버그가 있어 학습에 영향을 줄 수 있으므로 업데이트가 필수입니다.[8]

학습 비용

두 대의 RTX 3090을 사용한 DDP로 360만 장의 이미지 데이터셋에 대해 1 에포크를 완료하는 데 약 17~~18일이 걸렸습니다. 등가 배치 크기 128에 대한 각 스텝은 약 51~~51.5초가 소요되었습니다.

최종 병합

최종 모델은 베이스 모델에 학습된 LoKr을 가중치 1.0으로 병합하여 생성되었습니다. 따라서 이 모델은 완전히 학습된 모델이며, 학습 후 Anxl3/PonyXL6와 병합되지 않았습니다.

다음 계획

Delta는 Kohaku XL의 마지막 대규모 업데이트가 될 가능성이 높지만, 이로 인해 더 이상 수정하지 않겠다는 뜻은 아닙니다. 그리고 이것이 실제로 마지막 버전임을 보장할 수는 없습니다.

몇 에포크를 더 실행하거나 데이터셋을 500만 장의 이미지로 확장해보려고 합니다. 또한, 더 큰 설정으로 DoKr을 시도해보려고 고려 중입니다.

(재미있는 점은, Delta도 처음에는 실험용으로 시작되었지만, 너무 잘 나와서 주요 릴리스가 되었습니다!)

특별한 감사

AngelBottomless & Nyanko7: danbooru2023 데이터셋[3]

Kohya-ss: 트레이너[4]

ChatGPT/GPT4: 이 모델 카드를 개선함

AI 예술은 인간처럼 보이기보다 AI처럼 보여야 합니다.

참고 및 자원

참고

[1] Shih-Ying Yeh, Yu-Guan Hsieh, Zhidong Gao, Bernard B W Yang, Giyeong Oh, & Yanmin Gong (2024). Navigating Text-To-Image Customization: From LyCORIS Fine-Tuning to Model Evaluation. In The Twelfth International Conference on Learning Representations.

[2] HakuBooru - booru 스타일 이미지 플랫폼용 텍스트-이미지 데이터셋 제작기. https://github.com/KohakuBlueleaf/HakuBooru

[3] Danbooru2023: 대규모 커뮤니티 기반 및 태그된 애니메이션 일러스트 데이터셋.

https://huggingface.co/datasets/nyanko7/danbooru2023

[4] kohya-ss/sd-scripts.

https://github.com/kohya-ss/sd-scripts

[5] Transformers: Pytorch, TensorFlow, JAX용 최신 기계 학습.

https://github.com/huggingface/transformers/blob/b647acdb53d251cec126b79e505bac11821d7c93/src/transformers/models/clip/modeling_clip.py#L204-L205

[6] OpenCLIP - CLIP의 오픈소스 구현.

https://github.com/mlfoundations/open_clip/blob/73fa7f03a33da53653f61841eb6d69aef161e521/src/open_clip/transformer.py#L598-L604

[7] LyCORIS - LoRA를 넘어서는 다른 랭크 적응 구현, Stable Diffusion용.

https://github.com/KohakuBlueleaf/LyCORIS/blob/main/docs/Algo-Details.md#lokr

[8] TimDettmers/bitsandbytes - 이슈 659/152/227/262 - 잘못된 들여쓰기 줄이 오랫동안 버그를 일으킴.