Kohaku-XL Zeta
세부 정보
파일 다운로드
모델 설명
Kohaku-XL Zeta
DiT는 필요하지만 유일한 해결책은 아니다
우리와 함께하세요: https://discord.gg/tPBsKDyRR5
주요 특징
Kohaku-XL-Epsilon rev2에서 이어진 버전
더 안정적입니다. 긴/세부적인 프롬프트는 더 이상 필수 조건이 아닙니다.
스타일 및 캐릭터에 대한 정확도가 향상되었으며, 더 다양한 스타일을 지원합니다.
- CCIP 지표가 Sanae XL 애니메이션을 상회합니다. 3700개 문자 집합 중 2200개 이상의 캐릭터가 CCIP 점수 > 0.9를 달성했습니다.
danbooru 태그와 자연어 문장 모두로 학습되어, 자연어 캡션 처리 능력이 향상되었습니다.
danbooru만이 아닌 복합 데이터셋으로 학습되었습니다.
danbooru (760만 장의 이미지, 마지막 ID 7832883, 2024/07/10)
pixiv (260만 장의 특별한 데이터셋에서 필터링, URL 세트는 이후 공개 예정)
pvc 피규어 (약 3만 장의 이미지, 내부 소스)
realbooru (약 9만 장의 이미지, 정규화용)
총 846만 장의 이미지
모델은 두 종류의 캡션 모두로 학습되었기 때문에, ctx 길이 제한이 300까지 확장되었습니다.

사용법 (이 섹션을 꼭 읽어주세요)
추천 생성 설정
해상도: 1024x1024 또는 유사한 픽셀 수
CFG 스케일: 3.5~6.5
샘플러/스케줄러:
Euler (A) / 모든 스케줄러
DPM++ 시리즈 / 지수 스케줄러
기타 샘플러의 경우, 개인적으로 지수 스케줄러를 추천합니다.
스텝: 12~50
프롬프트 생성
DTG 시리즈 프롬프트 생성기는 KXL Zeta에서도 여전히 사용 가능합니다. 태그와 자연어 캡션을 모두 지원하는 완전히 새롭게 개발된 프롬프트 생성기가 현재 개발 중입니다.
프롬프트 형식
Kohaku XL Epsilon 또는 Delta와 동일하지만, "general tags"를 "자연어 캡션"으로 대체할 수 있습니다. 둘을 함께 사용할 수도 있습니다.
특수 태그
품질 태그: masterpiece, best quality, great quality, good quality, normal quality, low quality, worst quality
등급 태그: safe, sensitive, nsfw, explicit
날짜 태그: newest, recent, mid, early, old
등급 태그
일반: safe
민감: sensitive
의심스러움: nsfw
명시적: nsfw, explicit
데이터셋
특정 개념에 대한 성능 향상을 위해 필터링되지 않은 전체 danbooru 데이터셋을 사용하였습니다. 이에 추가로 Pixiv에서 크롤링한 데이터셋(인기순으로 정렬된 3~5개 태그 기반)을 보완 데이터셋으로 사용하였습니다. Pixiv의 검색 시스템은 태그당 5000페이지까지만 허용하므로 의미 있는 이미지가 많지 않으며, 일부는 danbooru 데이터셋과 중복됩니다(그러나 이러한 개념을 강화하고자 중복은 무시했습니다).
KXL Epsilon rev2와 마찬가지로, 개념/스타일의 유연성을 높이기 위해 realbooru 및 pvc 피규어 이미지도 추가했습니다.
학습
하드웨어: Quad RTX 3090
데이터셋
이미지 수: 8,468,798
해상도: 1024x1024
최소 버킷 해상도: 256
최대 버킷 해상도: 4096
캡션 태그 드롭아웃: 0.2
캡션 그룹 드롭아웃: 0.2 (태그/자연어 캡션을 완전히 제거)
학습
배치 크기: 4
그래디언트 누적 스텝: 32
등가 배치 크기: 512
총 에포크: 1
총 스텝: 16548
학습 시간: 430시간(실제 시간)
혼합 정밀도: FP16
최적화기
최적화기: Lion8bit
학습률: UNet은 1e-5 / TE 학습은 비활성화
LR 스케줄러: Constant (워밍업 포함)
워밍업 스텝: 100
가중치 감쇠: 0.1
베타: 0.9, 0.95
디퓨전
최소 SNR 감마: 5
편향 조정 추정 손실: 활성화
IP 노이즈 감마: 0.05
왜 여전히 SDXL을 사용하고, 새로운 DiT 기반 모델은 사용하지 않나요?
누군가 저에게 합리적인 컴퓨팅 자원을 제공하거나, 효율적인 DiT 모델을 공개하는 팀이 등장하지 않는 한, 저는 새로운 DiT 기반 애니메이션 베이스 모델을 학습하지 않을 것입니다.
하지만 8개의 H100을 1년 동안 제공해 준다면, 저는 여러 DiT 모델을 처음부터 학습할 수도 있습니다(원하신다면요).
라이선스
Fair-AI-public-1.0-sd

















