NoobAI-Flux2VAE-RectifiedFlow

세부 정보

파일 다운로드

모델 설명

NoobAI-RF(https://huggingface.co/CabalResearch/NoobAI-RectifiedFlow-Experimental) 모델을 Flux2 VAE로 실험적으로 변환했습니다.

모델이 Flux2 VAE에 적응하는 능력을 관찰했으며, 현재의 추세는 더 큰 학습을 통해 상당한 개선이 가능함을 시사합니다. 이는 결국 더 큰 모델들과 경쟁할 수 있는 잠재력을 의미합니다.
당신의 지원이 이를 현실로 만들 수 있습니다.

지원에 대한 자세한 정보: 여기를 클릭하세요

모델 설명

이 모델은 SDXL Unet과 Flux2 VAE를 결합한 네이티브 학습 결과입니다. 기존 4채널 모델을 Flux 2의 32채널 복소수 잠재 공간에 맞게 적응시켰으며, 어댑터나 트릭 없이 완전히 네이티브 방식으로 구현되었습니다.
이 과정에서 NoobAI의 Danbooru 데이터셋이 사용되었습니다.

training-flux2vae-sdxl-progress

training-flux2vae-sdxl-progress-crop

제한된 컴퓨팅 자원으로 인해 완전한 수렴을 달성하지 못했으며, 출력 품질은 매우 초기 단계의 애니메이션 모델 수준으로 기대하셔야 합니다. 우리는 커뮤니티가 이 모델에 흥미를 느껴 우리를 지원해 주기를 희망합니다. 전체 학습 과정에서 안정적인 수렴이 관찰되었으며, 추가 학습을 통해 빠른 로컬 애니메이션 생성의 새로운 기준이 될 수 있을 것으로 믿습니다.

이 모델은 최종 제품이 아니라 개념 증명(PoC)으로 간주해 주세요.

학습에는 Rectified Flow를 사용했고, Flux2 VAE 적응을 단계별로 진행했습니다.
대부분의 지식은 보존되었으나, 완전히 새로운 잠재 공간으로 인해 상당히 약화되었습니다.

편향 및 한계

이 기본적인 작업을 수행하기 위한 예산이 제한되어 있습니다. 충분히 적응하여 어느 정도 수용 가능한 이미지를 생성할 수 있게 되었지만(Flux 2 VAE를 사용한 이론적 NoobAI 0.1의 지식에 근접), 더 나은 결과를 얻기 위해서는 대규모 컴퓨팅 자원이 필요합니다. 왜냐하면 모델은 새로운 수준의 디테일을 처음으로 인식하고(또는 기존 디테일을 새로운 방식으로 인식하고) 있기 때문입니다. 이는 매우 어려운 작업입니다.

공식 데이터셋의 대부분의 편향이 적용됩니다(Blue Archive 등).

노이즈, 흐릿한 디테일, 풍경 비율에서의 낮은 성능, 손의 품질 저하, 전반적인 구성 문제 등을 기대하셔야 합니다.

모델 출력 예시

우리가 달성한 장점 중 하나는 색상입니다:

00439-3595667584-small 네이티브 플로우 모델이기 때문에 색상이 강력하면서도 산성적이거나 불안정하지 않습니다.

이미 언급했듯이, 모든 생성물에 최소한 일부 그레인과 흐릿함이 존재할 것으로 기대하셔야 합니다. 아직 세부적인 풍부한 디테일까지 수렴하지 못했기 때문입니다. 00448-1663643003

권장 파라미터:
샘플러: Euler, Euler A, DPM++ SDE 등
스텝: 20-28
CFG: 6-9
스케줄: Normal/Simple/SGM Uniform/Quadratic
긍정적 품질 태그: masterpiece, best quality
부정적 태그: worst quality, normal quality, bad anatomy

A1111 WebUI

(모든 스크린샷은 RF 릴리스와 동일하며, 설정에 차이가 없습니다)

권장 WebUI: ReForge - Flow 모델을 네이티브로 지원하며, 우리는 Flux2VAE 기반 SDXL 수정 사항에 대한 네이티브 지원을 PR했습니다.

ReForge에서 사용법:

изображение (상단 Sigma max 필드는 무시하세요. RF에서는 사용되지 않습니다.)

ReForge에서 RF 지원은 내장 확장 기능을 통해 구현됩니다:

изображение

imagen

위와 같이 파라미터를 설정하면 사용 가능합니다.

Flux2VAE는 현재 적절한 고품질 미리보기 방법이 없으므로, Approx Cheap 옵션을 사용하여 간단한 PCA 투영을 확인하세요(ReForge).

권장 파라미터:
샘플러: Euler A Comfy RF, Euler, DPM++ SDE Comfy 등 모든 버전은 가능한 한 반드시 RF 또는 Comfy여야 합니다. ComfyUI에서는 라우팅이 자동이지만, WebUI에서는 그렇지 않습니다.
스텝: 20-28
CFG: 6-9
스케줄: Normal/Simple/SGM Uniform
긍정적 품질 태그: masterpiece, best quality
부정적 태그: worst quality, normal quality, bad anatomy

RF를 위한 ADETAILER 수정: 기본적으로 Adetailer는 Advanced Model Sampling 확장을 무시하여 RF를 깨뜨립니다. 설정의 이 부분에 AMS를 추가해야 합니다:

изображение

여기에 다음을 추가하세요: advanced_model_sampling_script,advanced_model_sampling_script_backported

이것이 작동하지 않는 경우, adetailer 확장 내부로 들어가 args.py를 열고 _builtin_scripts를 다음과 같이 교체하세요:

изображение

학습

모델 구성

(기반 모델 대비)

Unet: 동일
CLIP L: 동일, 고정
CLIP G: 동일, 고정
VAE: Flux2 VAE

학습 세부사항

(주요 학습 단계)

학습된 샘플 수(비배치 스텝): 약 1,850만 개의 샘플
학습률: 5e-5
효과적 배치 크기: 1472 (92 배치 크기 2 누적 8 GPU)
정밀도: Full BF16
최적화기: Kahan 합산을 사용한 AdamW8bit
가중치 감쇠: 0.01
스케줄: 워밍업 포함 상수
타임스텝 샘플링 전략: Logit-Normal -0.2 1.5 (때로는 Lognorm, Shift 2.5로 언급됨)
텍스트 인코더: 고정
토큰 유지: False
태그 드롭아웃: 10%
무조건 드롭아웃: 10%
셔플: True

VAE 컨볼루션 패딩: False
VAE 시프트: 0.0760
VAE 스케일: 0.6043

추가 기능 사용: 보호 태그, 코사인 최적 운송

학습 데이터

2024년 10월까지의 원본 NoobAI 데이터셋의 2에포크(스크린캡 데이터는 제외됨)

LoRA 학습

현재 단계는 학습 가능하지만, 기본 모델이 아직 세부 사항에 수렴하지 못했기 때문에 소규모 디테일에 의존하는 주제/콘텐츠의 정확한 재현은 어렵습니다. 현재 스타일 학습 설정(Anzhc):

학습률: 최대 7.5e-4까지 테스트
배치 크기: 144 (6 실제 * 24 누적), SGA(확률적 경사 누적) 사용 - SGA 없이 사용하면 누적을 4-8로 낮출 것입니다.
최적화기: Kahan 합산을 사용한 Adamw8bit
스케줄: ReREX (단순화를 위해 REX 또는 코사인 감쇠 사용)
정밀도: Full BF16
가중치 감쇠: 0.02
타임스텝 샘플링 전략: Logit-Normal (0.0 1.0 또는 -0.2 1.5), Shift 2.5

Dim/Alpha/Conv/Alpha: 24/24/24/24 (Lycoris/Locon)

텍스트 인코더: 고정

최적 운송: True

예상 데이터셋 크기: 100장 (10장만으로도 가능하나, 반복을 통해 약 100장 수준으로 균형을 맞추세요.)
에포크: 50

하드웨어

모델은 클라우드 8xH200 노드에서 학습되었습니다.

소프트웨어

SD-Scripts의 커스텀 포크 (Bluvoll이 유지보수)

감사의 말

특별한 감사

전체 학습을 단독으로 후원하고 익명을 원하신 특별한 후원자에게


지원

우리가 워이푸를 0.2% 더 나아지게 하기 위한 지속적인 노력을 지원하고 싶다면, 아래 링크에서 가능합니다:

https://ko-fi.com/bluvoll

암호화폐 링크는 준비 중입니다.

잠재적 미래

필요한 컴퓨팅량: 모델은 최소 20 에포크, 이상적으로는 35 에포크의 전체 데이터 학습이 필요할 것으로 이론화합니다. 우리 서비스 제공업체 기준으로 각 에포크는 약 460달러입니다. 최소한 2 에포크를 학습할 만큼의 기부가 모이면 학습을 재개할 계획입니다. 충분한 기부가 모이면 데이터셋을 최신 데이터로 업데이트할 것입니다.
왜 지금 바로 하지 않나요? Flux 2 VAE로 캐싱하는 데 15시간이나 걸리며, 각 잠재 공간이 2MB이므로 약 +-20TB의 저장 공간이 필요하고, 이 자체로 180달러의 컴퓨팅 비용이 발생합니다.

이 모델 출시 시점에서 파이프라인 및 구성 요소의 추가 개선을 진행 중이며, 이 아키텍처를 더 업그레이드할 계획이 있습니다.

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.