Rouwei-16channel

세부 정보

파일 다운로드

모델 설명

SDXL 아키텍처를 16채널 잠재 공간으로 실험적으로 변환

이것은 Rouwei-0.8 위에서 실험적으로 수행된 사전 학습으로, 16채널 잠재 공간을 사용하며 Flux AE를 활용합니다.

목표:

  • 기존 지식과 성능을 유지하면서도 더 나은 디테일을 달성하고 계산 요구 사항을 낮추는 것

  • 동일한 잠재 공간을 사용하는 Flux/Chroma/Lumina 및 기타 모델과의 공동 샘플링 가능성

현재 상태:

초기 알파 버전으로 매우 원시적입니다. 이미지에는 추가 노이즈가 포함될 수 있으며, 작은 디테일에 아티팩트가 생길 수 있으며, 그 정도는 무시할 수 있을 정도에서 심각할 정도까지 다양합니다. 업스케일, 샘플러/스케줄러, 스타일, 심지어 프롬프트까지 영향을 미칩니다.

잠재 공간 대신 픽셀 공간에서 GAN 업스케일 모델을 사용하면 훨씬 부드러운 결과를 얻을 수 있으며, 기본 해상도를 높이는 것도 도움이 됩니다.

현재는 엡실론 예측을 사용하고 있으며, 향후 vpred 또는 기타 방식으로 전환할 수 있습니다.

사용법:

ComfyUI

워크플로 예시 (또는 색상 예시에서 아무 이미지나 선택)

  1. 체크포인트 다운로드 (FP32 및 Unet-only 버전은 HF 저장소에서 확인 가능)

  2. 이 노드 다운로드 (또는 Comfy Manager를 사용하여 install missing nodes 실행)

  3. SDXL 16ch loader 노드를 사용하여 모델을 로드한 후, 기존 SDXL과 동일하게 사용

  4. Latent multiply 노드를 절대 삭제하지 마세요. 잠재 변수는 일반적인 SDXL 추론과 동일하게 처리 전후로 스케일링되어야 합니다. 이 단계는 아직 숨겨져 있지 않습니다.

mat1 and mat2 shapes cannot be multiplied (_x16 and 4x3) 오류가 발생하는 경우 - Ksampler의 미리보기 옵션을 비활성화하세요. 이 오류는 4채널용으로 설계된 TAESD VAE를 미리보기에 사용하기 때문입니다.

기타 UI

주요 차이점은 텐서 형태, 사용되는 VAE, 잠재 변수 스케일 팩터뿐이므로, 다른 모든 UI에서도 지원 구현이 간단할 것입니다.

LoRA 어댑터, ControlNet, IP-Adapter 등 기타 요소는 테스트되지 않았습니다.

공동 샘플링:

이 모델은 Flux, Chroma, Lumina-image 및 기타 일부 모델과 마찬가지로 16채널 잠재 공간에서 작동하므로, 충분한 메모리가 있다면 복잡한 워크플로를 구현할 수 있습니다. 이를 통해 RouWei의 캐릭터, 스타일, 개념에 대한 모든 지식을 더 큰 모델의 성능과 결합할 수 있습니다.

예시 워크플로를 참고하세요. Flux에서 단 몇 번(1~4회)의 단계만 사용하여 거친 기본 구성품을 생성한 후, 잠재 변수를 16채널 SDXL 모델로 전달하여 초기 고노이즈 타임스텝을 건너뛰고 디노이징합니다.

이것은 가장 단순한 접근법입니다. 왜냐하면 잠재 변수를 여러 VAE나 어댑터를 통해 재변환할 필요가 없기 때문이며, 각 디노이징 단계에서 모델을 변경해도 성능에 영향을 주지 않습니다.

전환 간에 반드시 Latents multiply 노드를 적용하세요.

구현 방법

기본 아키텍처에 아무런 변경도 없습니다. 단지 입력 및 출력 레이어를 새로운 크기로 재초기화한 후, 중간 블록을 점진적으로 언프리징하면서 학습합니다.

기본 SDXL 잠재 스케일 팩터 0.13025는 여기서 잘 작동하지 않으며, 이 릴리즈에서는 0.6을 사용합니다.

이것은 가장 최적의 접근법은 아닙니다. 향후 모델의 외부 레이어에 직접적인 사용 대신 일부 변경을 가하면 성능 향상이 가능할 것입니다. 관련 아이디어나 의견이 있다면 공유해 주세요.

학습:

현재 버전에서 학습하려면 UNET 설정에서 입력/출력 채널 수를 변경하고 스케일 팩터를 0.13025 대신 0.6으로 설정하면 됩니다. VAE 부분도 제대로 작동하는지 확인하세요.

(코드 예시는 이후 제공)

협력 및 지원을 원합니다:

당신의 생각, 제안, 요청 등을 공유할 수 있는 Discord 서버에 참여해 주세요. 여기서 직접 또는 Discord에서 DM으로 저에게 연락하세요.

감사 인사:

학습의 일부는 Google TPU를 사용하여 수행되었으며, OpenRoot-Compute에서 후원했습니다.

개인: NeuroSenko

그리고 이전에 저를 지원해 주신 모든 동료들에게 진심으로 감사드립니다.

기부:

BTC bc1qwv83ggq8rvv07uk6dv4njs0j3yygj3aax4wg6c

ETH/USDT(e) 0x04C8a749F49aE8a56CB84cF0C99CD9E92eDB17db

XMR 47F7JAyKP8tMBtzwxpoZsUVB8wzg2VrbtDKBice9FAS1FikbHEXXPof4PAb42CQ5ch8p8Hs4RvJuzPHDtaVSdQzD6ZbA5TZ

라이선스:

Illustrious 베이스와 동일한 바이럴 라이선스입니다.

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.