Gemma-3-1b를 텍스트 인코더로 사용하기 위한 Rouwei 0.8용 훈련된 어댑터

업데이트 v0.1:

gemma-3-1b 어댑터의 새 버전이 제공됩니다

정상적으로 작동하려면 어댑터 모델(여기 및 HF에 업로드됨)과 훈련된 LLM을 모두 다운로드하여 사용해야 합니다. LLM은 단일 gguf 파일로 다운로드할 수 있으며, HF-Hub를 통해 디렉토리 형태로도 다운로드할 수 있습니다.

실행하려면 업데이트된 커스텀 노드가 필요합니다. 예제 워크플로우는 색인 또는 여기에서 찾을 수 있습니다. 기타 예제는 여기에서 확인할 수 있습니다.

새 버전은 프롬프트 준수도가 향상되었으며, 각 캐릭터의 개별 특징을 설명하는 구조화된 프롬프트를 사용할 수 있고, 간단한 만화를 생성할 수 있으며, 전반적으로 애니메이션 아트 관련 지식이 풍부해졌습니다. 아직 완벽하지는 않지만, 기존 CLIP 인코더보다 훨씬 뛰어나며 길고 상세한 프롬프트를 사용할 수 있고 일반적인 태그 누출 현상도 줄어듭니다.

t5gemma-2b용 버전도 제공됩니다

다른 접근 방식으로 t5gemma-2b-2b-ul2의 텍스트 인코더를 활용하여 SDXL UNet용으로 출력을 변환하는 어댑터를 훈련했습니다. 짧은 훈련 기간과 수정되지 않은 t5gemma 인코더를 고려하면 꽤 좋은 성능을 보입니다. 이 버전은 캐릭터 및 아티스트 스타일에 대한 지식 면에서 gemma-3-1b를 텍스트 인코더로 사용한 버전을 이미 능가하지만, 복잡한 프롬프트에는 덜 정확합니다.

이 버전을 실행하려면 gemma-llm용 워크플로우와 다릅니다(해당 버전의 색인 또는 여기 참조).

작동하려면 업데이트된 커스텀 노드가 필요합니다

자세한 실행 방법과 프롬프팅 팁은 아래에 나와 있습니다

이 도구란:

LLM의 힘을 활용하여 프롬프트 이해 및 컨디셔닝 생성을 수행하는 SDXL 텍스트 인코더의 대체제입니다.

ELLA, SDXL-T5 및 기타 유사 도구와 비슷한 개념이지만, 이 도구는 애니메이션 모델과 검열 없는 고급 지식에 초점을 맞춥니다.

왜 중요한가:

SDXL은 비교적 낮은 컴퓨팅 비용과 높은 속도로 우수한 심미성과 다양성을 가진 결과를 생성할 수 있다는 점에서 훌륭하고 유연한 모델로 입증되었습니다. 하지만 프롬프트 준수는 CLIP 사용으로 인해 크게 제한됩니다. 또한 75토큰을 초과하는 프롬프트를 처리하려면 분할이 필요하며, 이는 원래 의미를 왜곡할 수 있습니다.

CLIP을 더 나은 대체품으로 교체하면 SDXL이 복잡한 프롬프트를 이해하는 능력이 크게 향상되고 동시에 기존 장점도 유지할 수 있습니다. 또한 이미지, 좌표, OpenPose에서 가져온 포즈, 각 캐릭터에 대한 개별 프롬프트 등 추가 요소들도 구현할 수 있고 메인 프롬프트와 시너지를 낼 수 있습니다.

작동 방식:

텍스트 프롬프트는 LLM에 의해 처리되고, 마지막 레이어의 히든 상태는 어댑터에 의해 처리되어 캐주얼 어텐션을 보완하고 SDXL UNet의 컨디션으로 재구성됩니다.

왜 gemma-3인가:

단지 실험용으로 괜찮고 작은 모델이기 때문입니다. 향후 개발 과정에서 qwen-vl이나 다른 모델로 대체될 가능성이 높습니다.

걱정하지 마세요. 이 LLM 추론에는 검열이나 거부가 전혀 발생하지 않습니다. 이 시스템은 "모델 이해"를 나타내는 히든 상태만 사용합니다.

현재 가능한 기능:

우선 현재 상태에서 이 도구는 실제로 작동하는 제품보다는 개념 증명에 가깝습니다. 훈련 예산을 고려하면 작동하는 것 자체가 기적이죠.

기존에 사용하던 보루 태그 처리
매우 짧고 긴 프롬프트까지 최대 512토큰(gemma 토크나이저 기준)까지 처리 가능한 자연어 프롬프트
markdown, xml, json及其他 포맷을 사용한 구조화된 프롬프트로 각 요소의 위치 지정
위 항목의 모든 조합
프롬프트를 충분히 이해하면 태그 누출 없이 작동

따라서 이 도구는 표준 텍스트 인코더로 사용할 수 있으며, 긴 표현에 대한 훨씬 깊은 이해를 제공하고 서로 혼합되지 않도록 여러 조건을 유지할 수 있습니다.

아직 불가능한 기능:

매우 복잡한 프롬프트에 어려움을 겪을 수 있음
지식이 불안정하며, 매우 드문 캐릭터는 인식하지만 더 인기 있는 캐릭터는 혼동할 수 있음
스타일 역시 마찬가지
일부 아티스트 스타일 사용은 프롬프트 이해에 부정적 영향을 미쳐 일부 요소를 무시할 수 있음
품질 좋은 텍스트 생성 불가
강조(태그 가중치:1.1) 및 일반적인 스펠 사용 불가

이 모든 문제는 향후 훈련으로 해결될 예정입니다. 1번은 UNet 훈련이 필요하고, 2~4번은 LLM을 훈련해야 하는데, 단어 자체를 모르거나 반응이 너무 미약하기 때문입니다. 5번은 추가 훈련(및 적절한 데이터셋)으로 곧 해결될 예정입니다. 6번은 커스텀 노드 개선이 필요하며 곧 추가될 예정입니다.

실행 방법:

LLM gemma-3-1b 인코더 (v0.1_g3-1b_51k로 표시됨)

1. Comfy용 커스텀 노드 설치

2. gemma-3를 지원하는 버전의 Transformers를 업데이트하고 Comfy venv에 gguf 파이썬 패키지를 설치했는지 확인

3. 어댑터를 다운로드하여 /models/llm_adapters에 저장

4. 훈련된 LLM GGUF 또는 HF를 다운로드하여 /models/LLM/에 저장 (HF 사용 시 전체 디렉토리를 저장해야 하며, .safetensors만이 아니라 원본 모델의 모든 파일이 필요합니다. 디렉토리가 존재하지 않으면 모델명으로 생성)

5. 아직 보유하지 않았다면 Rouwei (vpred 또는 epsilon 또는 base) 체크포인트 다운로드

6. 색인에서 제공하는 이미지 중 하나를 기준 워크플로우로 사용하고 자유롭게 실험

이전 버전 0.0alpha는 원래의 gemma-3-1b-it (제한 없음)을 사용

T5gemma-2b 인코더

위 단계와 동일하되, 다음 사항만 다름:

google/t5gemma-2b-2b-ul2 또는 재포장된 인코더 전용 버전을 다운로드해야 함

HF-Hub 명령어를 사용 가능:

hf download Minthy/RouWei-Gemma --include "t5gemma-2b-2b-ul2_*" --local-dir "/path/to/comfy/models/LLM"

어댑터 다운로드
t5gemma용 워크플로우는 약간 다릅니다. 색인 이미지를 확인하세요.

현재 GGUF는 t5gemma 아키텍처를 지원하지 않으며, 지원이 추가되면 업데이트될 예정입니다.

프롬프팅:

새로운 파이프라인은 거의 모든 프롬프트 형식을 지원하며 매우 유연합니다(기본64나 다국어도 지원하나 성능은 저하됨). 최상의 결과를 얻으려면 다음 패턴을 따르세요:

태그만: 지원됨, 잘 작동하나 단순히 태그만으로 제한할 필요는 없음
긴 자연어 프롬프트: 현재 개발 상태에서 복잡도가 너무 높지 않으면 잘 작동. 과도한 수사적 표현이나 의미 없는 채움은 피하는 것이 좋음
구조화된 프롬프트: 여기서 진정한 흥미가 시작됩니다. json(ToriiGate 예제처럼), xml, 또는 기타 형식을 사용할 수 있지만 가장 편리한 것은 Markdown입니다. 주로 # 표제를 사용하여 프롬프트의 각 부분을 분리하고 특정 요소를 명시. 이 방식은 태그와 NL 프롬프트 모두에 적용 가능. 예시:

2girls, wakamo (blue archive), izuna (blue archive), richly decorated room, from above, masterpiece.

## Character 1

Wakamo (blue archive), 검은 머리, 노란 눈, 여우 마스크를 쓴 여우 소녀로 왼쪽에 서서 메이드 복장을 입고 있음. 벌거벗은 팬티가 담긴 트레이를 들고 있음. 표정은 교활하고 자신감 넘침, 트레이를 자랑스럽게 제시 중.

## Character 2

Izuna (blue archive), 갈색 머리, 노란 눈, 머리에 꽃을 꽂은 여우 소녀가 오른쪽에 서 있음. 메이드 유니폼을 입고 있으며, 치마를 들고 팬티를 입지 않았음을 보여줌. 붉은 얼굴, 부끄러움을 느끼는 표정

태그와 자연어 표현의 모든 조합 가능

잠재적 문제:

태그나 단어의 순서가 때때로 중요하며 특정 캐릭터나 개념에 편향이 발생할 수 있음
CLIP 인코더보다 철자 정확도가 훨씬 더 중요함
일부 경우 아티스트 및 스타일 태그 사용이 강력한 편향을 유발하여 프롬프팅을 어렵게 만들며, 이는 이전 버전보다 훨씬 심각함
여전히 초기 실험 단계이지만, 기본 SDXL 인코더와 비교해 뛰어난 결과를 보여주지만, Flux와 같은 새로운 대형 모델과 비교하면 약함

현재 커스텀 노드는 프롬프트 가중치 및 일반적인 스펠을 지원하지 않습니다. 또한 (괄호)는 그대로 두고 \를 추가할 필요가 없습니다.

기타 설정 및 권장 사항은 원래 Rouwei와 동일합니다.

품질 태그:

긍정적:

masterpiece 또는 best quality 둘 다 사용 가능하나 개선 효과는 거의 없으며, 생략해도 됨. 깔끔하게 유지하고 불필요한 '마법 조합'은 피하세요. 이는 부정적 효과를 줄 수 있음. 프롬프트 끝에 배치 가능.

부정적:

worst quality 또는 low quality. 긍정적 태그와 동일. 단순히 이 이미지에서 나타나지 않기를 원하는 특정 요소만 포함하고, 일반적인 제한은 피하세요.

지식:

인기 있는 캐릭터를 알고, 아티스트 스타일을 모방하며, 개념 및 기타 요소를 이해할 수 있습니다. 하지만 이러한 지식은 향후 훈련을 통해 확장되어야 할 LLM의 한계에 의해 제한됩니다. 또한 현재 데이터셋은 애니메이션 이미지만을 포함하고, UNet의 능력에 의해 일부 일반적인 지식도 제한됩니다.

호환성:

Rouwei와 작동하도록 설계되었으며, 그 병합 및 튜닝 버전과도 작동해야 합니다. Illustrious 모델, Noobai, 기타 SDXL 체크포인트와는 제한적인 호환성을 가질 수 있습니다.

단기 계획:

UNet 훈련에 가장 유망한 옵션을 결정하기 위한 추가 연구 및 비교
커스텀 노드용 강조 기능
훈련 코드
...

훈련 예산:

맥주 3리터, 커피 0.5리터, 3x5090 리그에서 며칠(현재 2주)

도움을 주거나 협력할 의사가 있으신가요:

Discord 서버에 참여하여 의견, 제안, 요청 등을 공유하세요. 여기에 직접 메시지 보내거나 Discord에서 DM을 보내주세요.

기부:

BTC: bc1qwv83ggq8rvv07uk6dv4njs0j3yygj3aax4wg6c

ETH/USDT(e): 0x04C8a749F49aE8a56CB84cF0C99CD9E92eDB17db

XMR: 47F7JAyKP8tMBtzwxpoZsUVB8wzg2VrbtDKBice9FAS1FikbHEXXPof4PAb42CQ5ch8p8Hs4RvJuzPHDtaVSdQzD6ZbA5TZ

감사의 인사:

NeuroSenko(코드), Rimuru(아이디어, 토론), Lord(테스트), DraconicDragon(수정, 테스트)

이전에 저를 지원해 주신 분들께도 감사드립니다:

수많은 익명의 분들, Bakariso, dga, Fi., ello, K., LOL2024, NeuroSenko, OpenRoot-Compute, rred, Soviet Cat, Sv1., T., TekeshiX

라이선스

이 도구는 원본 또는 미세 조정된 모델 google/t5gemma-2b-2b-ul2 및 google/gemma-3-1b-it을 사용합니다.

Gemma는 [ai.google.dev/gemma/terms](ai.google.dev/gemma/terms)에서 찾을 수 있는 Gemma 이용 약관에 따라 제공되고 그에 따라 제한됩니다.

어댑터 모델은 MIT 라이선스를 따릅니다.

모델 유형	체크포인트
기본 모델	Other
게시일	10/26/2025

Rouwei-Gemma

세부 정보

파일 다운로드

이 버전에 대해

모델 설명