Aozora-XL Vpred

세부 정보

파일 다운로드

모델 설명

Aozora-XL: V-예측 SDXL 모델

Aozora-XL은 NoobAI v-pred를 기반으로 한 v-예측 모델로, 안정성과 일관성을 향상시키기 위해 세밀하게 조정되었습니다. 이 모델은 RTX 3060과 같은 12GB 소비자 GPU를 사용하여 전체 또는 부분적인 미세 조정을 가능하게 하는 맞춤형 학습 스크립트를 사용합니다. 학습 스크립트는 커뮤니티 사용을 위해 GitHub에서 Aozora_SDXL_Training에서 이용할 수 있습니다.

  • 병합되지 않음

  • 내부 병합된 LoRA 없음


버전 0.15 업데이트

이 버전은 v-예측 설정의 특정 문제를 해결하기 위해 v0.1을 기반으로 개발되었습니다. 이전 버전에서 나타났던 약간의 희미한 색조를 줄이고 화려한 색상을 복원하기 위해 v0.1 기반으로 학습되었습니다. 추가적인 미세 조정은 장면 구성과 디테일 렌더링에서 발생하는 일반적인 v-예측 문제를 해결하는 데 초점을 맞췄습니다. 이 모델은 깊은 색상을 가진 시각 소설 및 애니메이션 콘텐츠로 구성된 약 50,000장의 이미지 데이터셋을 사용하여 5에포크 동안 학습되었습니다. 설정은 다음과 같습니다:

- 기본 모델: Aozora V0.1

- 최대 학습 단계: 250,000

- 그래디언트 누적 단계: 64

- 혼합 정밀도: bfloat16

- UNET 학습률: 8e-07

- 학습률 스케줄러: 10% 워밍업이 적용된 코사인

- 기능: Min-SNR Gamma(수정된 버전, gamma 5.0), Zero Terminal SNR, IP 노이즈 Gamma(0.1), 잔차 이동, 조건부 드롭아웃(확률 0.1)

이러한 변경사항으로 인해 다양한 프롬프트에서 더 나은 색상 정확도와 신뢰할 수 있는 출력이 가능해졌습니다.

- 참고: 모든 미리보기 이미지는 기본 기능을 보여주기 위해 별도의 디테일러나 향상 도구 없이 생성되었습니다


버전 0.1 개요

초기 릴리스(v0.1 alpha)는 개념 증명으로, 약 18,500장의 이미지(50% ZZZ 캐릭터, 버전 2.0까지; 50% Danbooru 상위 평가 이미지)를 사용하여 10에포크 동안 학습되었습니다. 이는 기본 모델(NoobAI-XL/NAI-XL V-Pred 1.0)의 특성을 유지하면서 학습 방식 덕분에 안정성 향상을 보여줍니다.


프로젝트 목표

- 소비자 하드웨어에서도 SDXL 미세 조정이 가능한 GUI 기반 학습 스크립트 제공

- 다양한 데이터셋을 지속적으로 활용하여 Aozora-XL을 안정적이고 제어 가능한 모델로 발전시키기


학습 방법

이 방법은 UNet의 약 92%를 학습하여 효율성을 최적화합니다. v-예측 안정성을 위한 적응형 Min-SNR 감마 가중치와 맞춤 학습률 스케줄이 포함됩니다.

학습 사양:

- 하드웨어: NVIDIA RTX 3060 1대 (VRAM 사용량: 약 11.8GB)

- 최적화기: Adafactor

- 배치 크기: 1 (64개의 그래디언트 누적 단계)

- 학습된 UNet 파라미터: 2.3B


권장 설정

- 긍정적 프롬프트: very awa, masterpiece, best quality

- 부정적 프롬프트: 선택 사항; 필요 시 (worst quality, low quality) 사용

- 샘플러: DPM++ 3M SDE GPU 또는 Euler (선화에는 Euler, 손/발과 같은 디테일에는 SDE)

- 스케줄러: SGM Uniform 또는 Normal

- 단계: 25-35

- CFG 스케일: 3-5 (낮은 값에서도 잘 작동)

- 해상도: 1024x1024 또는 유사한 크기(최대 1152x1152)

- Hires. Fix: RealESRGEN과 같은 업스케일러를 사용하여 약 0.35의 노이즈 감소 적용

시스템에 따라 v-예측 모델이 다르게 작동할 수 있으므로 설정을 실험해 보세요.


라이선스

이 모델은 기본 모델인 NoobAI-XL의 라이선스를 따릅니다. 해당 조건을 확인하고 준수하세요.

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.