Rouwei-Gemma

세부 정보

파일 다운로드

모델 설명

Rouwei 0.8(및 기타 SDXL 모델)용 텍스트 인코더로 LLM을 사용하기 위해 트레이닝된 어댑터.

업데이트 v0.2:

성능이 향상된 t5gemma-2b 텍스트 인코더 모델의 새로운 버전입니다.

실행하려면 t5gemma-2b 인코더 모델이 필요합니다. (ungated mirror, 아래 다운로드 지침 참조).

작동하려면 맞춤 노드의 최신 버전이 필요합니다.

자세한 실행 지침 및 프롬프트 팁은 아래에 있습니다.

이 도구란:

SDXL 모델에서 Clip 텍스트 인코더를 대체하여 프롬프트 준수 및 이해를 향상시킵니다.

ELLA, SDXL-T5 및 기타 유사한 도구와 유사하지만, 이 도구는 애니메이션 모델에 특화되어 있으며 검열 없이 고급 지식을 제공합니다.

주요 기능:

  • SDXL 애니메이션 모델 중에서 최고 수준의 프롬프트 준수 및 자연어 프롬프트 이해력

  • 긴 프롬프트와 짧은 프롬프트 모두 지원, 청크당 75 토큰 제한 없음

  • 스타일과 캐릭터의 원래 지식을 유지하면서 프롬프트 작성에 놀라운 유연성 제공

  • 캐릭터, 부위, 요소 등 개별 특징을 설명할 수 있는 구조화된 프롬프트 지원

  • booru 태그와 완벽한 호환성(단독 또는 자연어와 결합 가능), 간편하고 편리한 프롬프트 작성 가능

최신 버전 실행 방법:

1. Comfy용 맞춤 노드 설치/업데이트

  • 옵션 a: ComfyUI/custom_nodes로 이동하여 git clone https://github.com/NeuroSenko/ComfyUI_LLM_SDXL_Adapter 입력

  • 옵션 b: 예제 워크플로우 열고, ComfyUI Manager에서 Install Missing Custom Nodes 버튼 클릭

2. 최신 Transformers가 설치되어 있는지 확인: ComfyUI venv를 활성화하고 pip install transformers -U 입력

3. 어댑터를 다운로드하여 /models/llm_adapters에 저장

4. T5Gemma 다운로드

  • 옵션 a: ComfyUI venv를 활성화한 후 hf download Minthy/RouWei-Gemma --include "t5gemma-2b-2b-ul2_*" --local-dir "./models/LLM" 입력 (필요시 경로 수정)

  • 옵션 b: safetensors 파일을 다운로드하여 ComfyUI/models/text_encoders에 저장 (다음 노드 업데이트 내에 구현됨)

5. 아직 보유하지 않았다면 Rouwei (vpred 또는 epsilon 또는 base) 체크포인트 다운로드

6. 색인에서 이미지 중 하나를 참조 워크플로우로 사용하고 자유롭게 실험하세요

gemma-3-1b LLM 모델을 기반으로 한 이전 버전 실행 방법은 이 HF 저장소에서 확인할 수 있습니다.

현재 성능:

이 버전은 다양한 모델의 Clip 텍스트 인코더보다 프롬프트 이해력에서 뛰어납니다. 각 캐릭터/객체의 더 많은 세부 사항과 개별 부위를 명시할 수 있으며, 순수한 무작위성 대신 일관성 있게 작동합니다. 단순한 만화를 생성(안정성은 다름), 위치와 더 복잡한 구성 정의도 가능합니다.

그러나 여전히 초기 단계이며, 드문 요소(특히 아티스트 스타일)와 일부 편향에 어려움이 있을 수 있습니다. 또한 적절한 트레이닝(아마도 수정도 필요)이 필요한 비교적 오래되고 작은 UNET을 사용하므로, Flux나 QwenImage와 같은 최상위 오픈소스 이미지 생성 모델과 동일한 성능을 기대하지 마세요.

사용법 및 프롬프트 예시:

모델은 멀티언어 입력이나 심지어 base64를 포함한 다양한 형식을 수용할 수 있어 매우 유연합니다.

그러나 다음 프롬프트 스타일 중 하나에 집중하는 것이 좋습니다:

(샘플은 색인 또는 HF 저장소 README 참조)

자연어

kikyou (blue archive) 검은 머리와 양쪽에 고리로 묶인 고양이 꼬리가 있는 비키니 수영복을 입은 고양이 소녀가 네 발로 서서 수영 고리 위에 균형을 잡고 있다. 그녀는 공포에 떨며 꼬리를 일으키고 주변 물을 두려워한다.

단순한 텍스트입니다. 매우 짧거나 매우 긴 프롬프트는 피하는 것이 좋습니다.

Booru 태그

일반 booru 태그.

강조 기능이 노드에 추가되기 전까지 대괄호 앞에 \를 추가하지 마세요. 또한 Clip과 달리 철자 오류는 잘못된 결과를 초래할 가능성이 높습니다.

태그와 자연어의 조합:

masterpiece, best quality, by muk (monsieur).
1girl, kokona (blue archive), grey hair, animal ears, brown eyes, smile, wariza,
holding a yellow ball that resembles crying emoji

대부분의 경우 가장 간단하고 편리한 접근법입니다.

구조화된 프롬프트:

bold line, masterpiece, classroom.
## Asuka:
ouryuu Asuka Langley in school uniform with tired expression sitting at a school desk, head tilt.
## Zero two:
Zero two (darling in the franxx) in red bodysuit is standing behind and making her a shoulder massage.

Markdown # (구분용), JSON, XML 또는 줄 바꿈과 :를 사용한 간단한 구분을 이해합니다. 구조화된 프롬프트는 여러 캐릭터에 개별 특징을 부여할 때 결과를 개선할 수 있습니다. 구체적인 경우에 따라 매우 안정적으로 작동하거나, 무작위 수준보다 높은 결과를 내거나, 편향이나 복잡성으로 인해 불가능한 것을 달성하기 위해 일부 반복이 필요할 수 있습니다.

모두 함께:

위의 모든 조합 가능. 가장 복잡한 경우에 권장.

품질 태그:

긍정: masterpiece 또는 best quality

부정: worst quality 또는 low qualit

불필요한 반복은 원치 않는 편향을 유발할 수 있으므로 피하는 것이 좋습니다.

현재 맞춤 노드는 프롬프트 가중치 및 표준 스펠링을 지원하지 않습니다. 또한 (괄호)는 그대로 두고 \를 추가할 필요가 없습니다.

기타 설정 및 권장 사항은 원래 RouWei와 동일합니다.

지식 및 학습 데이터셋:

학습 데이터셋은 이 데이터셋에서 가져온 약 270만 장의 이미지와 몇 가지 다른 출처를 활용했습니다. 여전히 상당히 적은 수입니다.

학습 및 코드

전방 코드 예시, t5gemma에서 hidden states 얻기 예시

LORA 학습용 sd-scripts 포크

전체 학습용 sd-scripts(개발 브랜치) 포크 — t5gemma, adapter, unet 각 부분에 대한 미세 조정 지원

호환성:

Rouwei와 작동하도록 설계되었으며, NoobAi 및 인기 있는 병합을 포함한 대부분의 Illustrious 기반 체크포인트와 호환됩니다. LoRA의 UNET 부분은 작동하지만, TE 부분은 다시 학습해야 합니다.

가까운 미래 계획:

  • 강조 기능을 포함한 맞춤 노드 개선

더 큰 데이터셋으로 학습된 새로운 버전을 만들어 용량을 평가하고 인코더와 공동 학습할지 여부를 결정할 예정입니다.

문제가 발견되지 않으면, 다음 버전의 Rouwei 체크포인트를 위한 텍스트 인코더로 사용할 계획입니다.

도움/협업을 원합니다:

당신의 생각, 제안, 요청 등을 공유할 수 있는 Discord 서버에 참여하세요. 여기에 직접 메시지를 보내거나 Discord에서 DM을 주세요.

감사의 말:

학습의 일부는 Google TPU를 사용하여 수행되었으며, OpenRoot-Compute에서 후원했습니다.

개인: NeuroSenko(코드), Rimuru(아이디어, 토론), Lord(테스트), DraconicDragon(수정, 테스트), Remix(노드 코드)

이전에 저를 지원해 주신 분들께도 감사드립니다:

수많은 익명의 분들, Bakariso, dga, Fi., ello, K., LOL2024, NeuroSenko, OpenRoot-Compute, rred, Soviet Cat, Sv1., T., TekeshiX

기부:

BTC: bc1qwv83ggq8rvv07uk6dv4njs0j3yygj3aax4wg6c

ETH/USDT(e): 0x04C8a749F49aE8a56CB84cF0C99CD9E92eDB17db

XMR: 47F7JAyKP8tMBtzwxpoZsUVB8wzg2VrbtDKBice9FAS1FikbHEXXPof4PAb42CQ5ch8p8Hs4RvJuzPHDtaVSdQzD6ZbA5TZ

라이선스

어댑터 모델은 MIT 라이선스를 따릅니다.

이 도구는 google/t5gemma-2b-2b-ul2 및 google/gemma-3-1b-it의 원본 또는 미세 조정된 모델을 사용합니다.

Gemma는 [ai.google.dev/gemma/terms](ai.google.dev/gemma/terms)에서 확인할 수 있는 Gemma 사용 약관에 따라 제공되고 제한됩니다.

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.