Rouwei-Gemma
详情
下载文件
关于此版本
模型描述
训练的适配器,用于将 LLM 作为 Rouwei 0.8(及其他 SDXL 模型)的文本编码器。
更新 v0.2:
新版 t5gemma-2b 文本编码器模型,性能有所提升。
运行需要 t5gemma-2b 编码器模型(无限制镜像,下载说明见下文)。
你需要更新的 自定义节点 才能正常运行
以下为详细启动说明与提示技巧
这是什么:
SDXL 模型中 Clip 文本编码器的即插即用替代方案,可实现更好的提示遵循与理解能力。
类似于 ELLA、SDXL-T5 及其他类似模型,但本模型专注于动漫模型与高级知识,且无审查限制。
主要特性:
在 SDXL 动漫模型中,具备顶尖的提示遵循与自然语言理解能力
支持长提示与短提示,无每块 75 个标记的限制
在保留原有风格与角色知识的同时,提供惊人的提示灵活性
支持结构化提示,可分别描述角色、部位、元素等特征
完美兼容 booru 标签(单独使用或与自然语言结合),便于轻松提示
如何运行最新版本:
1. 安装/更新 Comfy 的 自定义节点
选项 a:进入
ComfyUI/custom_nodes并输入git clone https://github.com/NeuroSenko/ComfyUI_LLM_SDXL_Adapter选项 b:打开 示例工作流,进入 ComfyUI Manager 并点击
安装缺失的自定义节点按钮
2. 确保你拥有最新版 Transformers:激活 ComfyUI 的 venv,输入 pip install transformers -U
3. 下载适配器并放入 /models/llm_adapters
4. 下载 T5Gemma
选项 a:激活 ComfyUI venv 后输入
hf download Minthy/RouWei-Gemma --include "t5gemma-2b-2b-ul2_*" --local-dir "./models/LLM"(如需请修正路径)选项 b:下载 safetensors 文件并放入 ComfyUI/models/text_encoders(将在下一次节点更新中实现)
5. 如果尚未拥有,请下载 Rouwei(vpred 或 epsilon 或 基础版)检查点
6. 使用展示图中的任意一张作为参考工作流,自由尝试
基于 gemma-3-1b LLM 模型的旧版本说明,请参见此 HF 仓库
当前性能:
此版本在提示理解方面优于各类模型中的任何 Clip 文本编码器。它允许为每个角色/对象指定更多细节与独立部分,结果比纯随机更稳定一致,可制作简单漫画(稳定性因情况而异),定义位置与更复杂的构图。
然而,它仍处于早期阶段,对罕见事物(尤其是艺术家风格)可能存在困难及某些偏见。此外,它基于较老且较小的 UNET,需进行适当训练(可能还需修改),请勿期待其性能达到 Flux 和 QwenImage 等顶级开源图像生成模型的水平。
使用与提示示例:
该模型非常灵活,可接受多种格式,包括多语言输入甚至 base64。
但建议采用以下几种提示风格之一:
(示例见展示图或 HF 仓库的 README)
自然语言
kikyou (blue archive) 一位黑发猫娘,穿着侧绑比基尼泳装,四肢着地站在游泳圈上。她害怕得尾巴高高竖起,对周围水域感到恐惧。
纯文本即可。建议避免过短或过长的提示。
Booru 标签
常规 booru 标签。
在节点支持强调功能前,请勿在括号前添加 \。此外,与 Clip 不同,拼写错误很可能导致错误结果。
标签与自然语言结合:
masterpiece, best quality, by muk (monsieur).
1girl, kokona (blue archive), grey hair, animal ears, brown eyes, smile, wariza,
holding a yellow ball that resembles crying emoji
大多数情况下最简单便捷的方式。
结构化提示:
bold line, masterpiece, classroom.
## Asuka:
ouryuu Asuka Langley 穿着校服,表情疲惫地坐在课桌前,头部微倾。
## Zero two:
Zero two (darling in the franxx) 穿着红色紧身衣,站在她身后为她按摩肩膀。
可识别 Markdown # 作为分隔符、JSON、XML 或使用换行与 : 的简单分隔。提示结构化有助于在描述多个角色及其各自特征时提升效果。根据具体案例,它可能非常稳定,通常优于随机结果,或需多次尝试才能克服偏见或复杂性实现目标。
综合使用:
上述所有方式的任意组合。推荐用于最复杂的情况。
质量标签:
正向:masterpiece 或 best quality
负向:worst quality 或 low qualit
建议避免过度堆砌,以免引发不期望的偏见。
当前自定义节点不支持提示权重与标准括号语法。此外,(括号) 请保持原样,无需添加 \。
其他设置与建议与原始 RouWei 相同。
知识与训练数据集:
训练数据集使用来自 该数据集 的约 270 万张图片及其他若干来源。数量仍相对较小。
训练与代码
用于 LORA 训练 的 sd-scripts 分支
用于 完整训练 的 sd-scripts(dev 分支),支持对各部分(t5gemma、适配器、UNet)进行微调。
兼容性:
专为 Rouwei 设计,兼容大多数基于 Illustrious 的检查点,包括 NoobAi 与流行合并模型。LoRA 的 UNet 部分可用,但 TE 部分需重新训练。
近期计划:
- 改进自定义节点,包括强调功能
将推出基于更大数据集训练的另一个版本,以评估容量,并决定是否与编码器联合训练或保持独立。
若未发现重大缺陷,该模型将作为下一版 Rouwei 检查点的文本编码器使用。
我愿意提供帮助/合作:
加入 Discord 服务器,分享你的想法、建议、请求等。也可直接在此处或 Discord 私信我。
感谢:
部分训练使用了 Google TPU,由 OpenRoot-Compute 赞助。
个人贡献者:NeuroSenko(代码)、Rimuru(创意与讨论)、Lord(测试)、DraconicDragon(修复与测试)、Remix(节点代码)
同时感谢此前支持我的各位:
多位匿名人士、Bakariso、dga、Fi.、ello、K.、LOL2024、NeuroSenko、OpenRoot-Compute、rred、Soviet Cat、Sv1.、T.、TekeshiX
捐赠:
BTC: bc1qwv83ggq8rvv07uk6dv4njs0j3yygj3aax4wg6c
ETH/USDT(e): 0x04C8a749F49aE8a56CB84cF0C99CD9E92eDB17db
XMR: 47F7JAyKP8tMBtzwxpoZsUVB8wzg2VrbtDKBice9FAS1FikbHEXXPof4PAb42CQ5ch8p8Hs4RvJuzPHDtaVSdQzD6ZbA5TZ
许可证
适配器模型采用 MIT 许可证。
本工具使用原始或微调模型 google/t5gemma-2b-2b-ul2 和 google/gemma-3-1b-it。
Gemma 模型依据并受 ai.google.dev/gemma/terms 中的 Gemma 使用条款约束。

















