Kohaku XL εpsilon

소비자용 하드웨어로 가정에서 t2i 모델을 튜닝한 최고의 사례

우리와 함께하세요: https://discord.gg/tPBsKDyRR5

Rev2 소개

Kohaku XL Epsilon rev1을 기반으로 재개
156만 장의 이미지, 5에포크
선택된 아티스트의 작품과 선택된 시리즈/게임 관련 이미지로 학습
PVC 피규어 사진으로 학습되어 추가 모델 없이 PVC 스타일을 생성 가능

소개

Kohaku XL Epsilon은 Kohaku XL 시리즈의 다섯 번째 주요 버전으로, 520만 장의 이미지 데이터셋, LyCORIS 미세 조정[1], 소비자용 하드웨어에서의 학습, 완전한 오픈소스를 특징으로 합니다.

베치마크

3600자 기준 CCIP 점수

(0~1, 높을수록 우수)

명백히, Kohaku XL Epsilon은 Kohaku XL Delta보다 훨씬 우수합니다.

사용법

<1girl/1boy/1other/...>, 

<character>, <series>, <artists>, 

<general tags>,

<quality tags>, <year tags>, <meta tags>, <rating tags>

Kohaku XL Epsilon은 Delta보다 더 많은 아티스트 스타일을 완벽히 습득했습니다. 동시에 여러 아티스트 태그를 결합할 때 안정성도 향상되었습니다. 사용자는 자신만의 스타일 프롬프트를 직접 만들어보는 것을 권장합니다.

좋은 스타일 프롬프트 예시:

ask \(askzy\), torino aqua, migolu, (jiu ye sang:1.1), (rumoon:0.9), (mizumi zumi:1.1)

ciloranko, maccha \(mochancc\), lobelia \(saclia\), migolu, ask \(askzy\), wanke, (jiu ye sang:1.1), (rumoon:0.9), (mizumi zumi:1.1)

shiro9jira, ciloranko, ask \(askzy\), (tianliang duohe fangdongye:0.8)

(azuuru:1.1), (torino aqua:1.2), (azuuru:1.1), kedama milk, fuzichoco, ask \(askzy\), chen bin, atdan, hito, mignon

ask \(askzy\), torino aqua, migolu

품질 태그는 각 등급 카테고리 내에서 '좋아요 수(fav_count)'의 백분위 순위를 기반으로 배정되어 nsfw 콘텐츠에 대한 편향을 방지합니다(Animagine XL v3이 이 문제를 겪었습니다). 높은 순서에서 낮은 순서로 다음과 같이 구성됩니다: 90th, 75th, 60th, 45th, 30th, 10th 백분위. 이로 인해 6개의 임계값으로 구분된 7개의 명확한 품질 레벨이 생성됩니다.

Danbooru 이미지의 평균 품질이 예상보다 높다는 것을 발견해 임계값을 낮췄습니다.

등급 태그

일반: safe
민감: sensitive
의심스러움: nsfw
명시적: nsfw, explicit

참고: 학습 시 "explicit"로 태그된 콘텐츠는 "nsfw" 범주에 포함되어 포괄적인 이해를 확보했습니다.

날짜 태그

날짜 태그는 이미지의 업로드 날짜를 기준으로 하며, 메타데이터에는 실제 제작 날짜가 포함되어 있지 않습니다.

기간은 다음과 같이 분류됩니다:

2005~2010: old
2011~2014: early
2015~2017: mid
2018~2020: recent
2021~2024: newest

해상도

이 모델은 ARB 1024x1024 해상도로 학습되었으며, 최소 해상도는 256, 최대 해상도는 4096입니다. 즉, 표준 SDXL 해상도를 사용할 수 있습니다. 그러나 1024x1024보다 약간 높은 해상도를 선택하는 것이 권장되며, 더 나은 결과를 얻기 위해 hires-fix 적용도 권장합니다.

자세한 정보는 제공된 샘플 이미지를 참고하세요.

이 모델이 탄생한 과정

왜 Epsilon인가

Delta와 마찬가지로, 새로운 데이터셋을 위한 테스트이며 결과가 매우 좋았습니다.

출력 결과도 Delta와 매우 다릅니다.

데이터셋

이 모델의 학습 데이터셋은 HakuBooru에서 가져왔으며, danbooru2023 데이터셋에서 선택된 520만 장의 이미지로 구성되었습니다.[2][3]

ID 0~2,000,000 사이의 100만 개의 게시물, ID 2,000,000~4,999,999 사이의 200만 개의 게시물, 그리고 ID 5,000,000 이후의 모든 게시물(총 535만 개의 게시물)을 선별했습니다. 삭제된 게시물, 골드 계정 게시물, 이미지가 없는 게시물(GIF나 MP4 등)을 필터링한 최종 데이터셋은 520만 장의 이미지로 구성되었습니다.

선별은 기본적으로 무작위이지만, 재현성을 위해 고정된 시드를 사용했습니다.

추가 처리

태그 셔플: 각 단계에서 일반 태그의 순서를 셔플했습니다.
태그 드롭아웃: 각 단계에서 일반 태그의 **15%**를 무작위로 제거했습니다.

학습

Kohaku XL Epsilon의 학습은 LyCORIS 프로젝트와 kohya-ss/sd-scripts의 트레이너를 통해 이루어졌습니다.[1][4]

알고리즘: LoKr[7]

모델은 LoKr 알고리즘을 사용하여, 전체 행렬을 활성화하고 모듈별로 인자 2~8로 학습되었습니다. LoRA/LyCORIS가 베이스 모델 학습에 적용 가능함을 입증하는 것이 목표입니다.

기본 LoKr 파일 크기는 800MB 미만이며, TE는 동결되지 않았습니다. 기본 LoKr 파일은 "delta-lokr" 버전으로 제공됩니다.

자세한 설정은 Kohaku XL Delta의 LyCORIS 설정 파일을 참조하세요.

기타 학습 세부사항

하드웨어: Quad RTX 3090
학습 이미지 수: 5,210,319
총 에포크: 1
- 총 스텝: 20354
- 배치 크기: 4
- 그래디언트 누적 스텝: 16
- 등가 배치 크기: 256
옵티마이저: Lion8bit
- 학습률: UNet은 2e-5 / TE는 5e-6
- 학습률 스케줄러: Constant (warmup 포함)
- warmup 스텝: 1000
- 가중치 감쇠: 0.1
- Betas: 0.9, 0.95
최소 SNR 감마: 5
노이즈 오프셋: 0.0357
해상도: 1024x1024
최소 버킷 해상도: 256
최대 버킷 해상도: 4096
혼합 정밀도: FP16

Rev2 추가 학습 세부사항

하드웨어: Quad RTX 3090
학습 이미지 수: 1,536,902
총 에포크: 5
- 총 스텝: 15015
- 배치 크기: 4
- 그래디언트 누적 스텝: 32
- 등가 배치 크기: 512
옵티마이저: Lion8bit
- 학습률: UNet은 1e-5 / TE는 2e-6
- 학습률 스케줄러: Cosine (warmup 포함)
- warmup 스텝: 1000
- 가중치 감쇠: 0.1
- Betas: 0.9, 0.95
최소 SNR 감마: 5
노이즈 오프셋: 0.0357
해상도: 1024x1024
최소 버킷 해상도: 256
최대 버킷 해상도: 4096
혼합 정밀도: FP16

경고: bitsandbytes 버전 0.36.0~0.41.0은 8비트 옵티마이저에 심각한 버그가 있어 학습에 영향을 줄 수 있으므로 업데이트가 필수입니다.[8]

학습 비용

4개의 RTX 3090을 사용한 DDP로, 520만 장의 이미지 데이터셋에 대한 1에포크 학습은 약 12~~13일이 소요되었습니다. 등가 배치 크기 256에 대한 각 스텝은 약 49~~50초가 소요되었습니다.

Rev2 학습 비용

4개의 RTX 3090을 사용한 DDP로, 150만 장의 이미지 데이터셋에 대한 5에포크 학습은 약 17~~19일이 소요되었습니다. 등가 배치 크기 512에 대한 각 스텝은 약 105~~110초가 소요되었습니다.

왜 13600스텝 중간 체크포인트를 공개합니까?

13600스텝~15300스텝 사이에서 학습이 중단되었습니다. Kohya-ss 트레이너는 이전에 재개 + 스텝 건너뛰기 기능을 구현하지 않았습니다.

Kohya와 저는 이를 올바르게 구현하고 검증했습니다만, 최종 결과가 완전히 정확한지 확신할 수 없어, 누군가 학습을 재현하려 할 때 최종 결과의 문제를 파악할 수 있도록 중간 체크포인트를 공개합니다.

앞으로의 계획

새로운 데이터셋(1000만~1500만 장의 이미지 목표) 개발에 집중하고 있으며, SD3가 나오면 시도해볼 가치가 있는지 확인 중입니다.

Epsilon에 대한 작은 미세 조정을 수행하여 rev2/3/4…로 공개할 수도 있지만, 현재로서는 여전히 데이터셋이 주된 초점입니다.

특별한 감사

AngelBottomless & Nyanko7: danbooru2023 데이터셋[3]

Kohya-ss: 트레이너[4]

AI 아트는 인간처럼 보이기보다 AI처럼 보여야 한다.

(재미있는 사실: 이 슬로건은 제 개인 홈페이지에서 유래했습니다. 많은 사람들이 이 문장을 좋아해 자신의 모델 페이지에 넣고 있습니다.)

참고 및 자료

참고

[1] SHIH-YING YEH, Yu-Guan Hsieh, Zhidong Gao, Bernard B W Yang, Giyeong Oh, & Yanmin Gong (2024). Navigating Text-To-Image Customization: From LyCORIS Fine-Tuning to Model Evaluation. In The Twelfth International Conference on Learning Representations.

[2] HakuBooru - booru 스타일 이미지 플랫폼용 텍스트-이미지 데이터셋 제작기. https://github.com/KohakuBlueleaf/HakuBooru

[3] Danbooru2023: 대규모 커뮤니티 기반 및 태그된 애니메이션 일러스트 데이터셋. https://huggingface.co/datasets/nyanko7/danbooru2023

[4] kohya-ss/sd-scripts. https://github.com/kohya-ss/sd-scripts

[7] LyCORIS - LoRA의 전통적 방법을 넘어서는, Stable Diffusion용 다른 랭크 적응 구현. https://github.com/KohakuBlueleaf/LyCORIS/blob/main/docs/Algo-Details.md#lokr

[8] TimDettmers/bitsandbytes - 이슈 659/152/227/262 - 잘못된 들여쓰기로 오랫동안 버그 발생. https://github.com/TimDettmers/bitsandbytes/issues/659

자료

Kohaku XL beta. /model/162577/kohaku-xl-beta

Kohaku XL gamma. /model/270291/kohaku-xl-gamma

Kohaku XL delta. /model/332076/kohaku-xl-delta

라이선스

이 모델은 "Fair-AI 공공 라이선스 1.0-SD" 하에 공개됩니다.

자세한 정보는 원본 라이선스를 참조하세요:

Freedom of Development (freedevproject.org )

모델 유형	체크포인트
기본 모델	SDXL 1.0
게시일	6/3/2024

Kohaku-XL Epsilon

세부 정보

파일 다운로드

이 버전에 대해

모델 설명