Rouwei-Gemma

详情

下载文件

模型描述

训练的适配器,用于将 LLM 作为 Rouwei 0.8(及其他 SDXL 模型)的文本编码器。

更新 v0.2:

新版 t5gemma-2b 文本编码器模型,性能有所提升。

运行需要 t5gemma-2b 编码器模型(无限制镜像,下载说明见下文)。

你需要更新的 自定义节点 才能正常运行

以下为详细启动说明与提示技巧

这是什么:

SDXL 模型中 Clip 文本编码器的即插即用替代方案,可实现更好的提示遵循与理解能力。

类似于 ELLA、SDXL-T5 及其他类似模型,但本模型专注于动漫模型与高级知识,且无审查限制。

主要特性:

  • 在 SDXL 动漫模型中,具备顶尖的提示遵循与自然语言理解能力

  • 支持长提示与短提示,无每块 75 个标记的限制

  • 在保留原有风格与角色知识的同时,提供惊人的提示灵活性

  • 支持结构化提示,可分别描述角色、部位、元素等特征

  • 完美兼容 booru 标签(单独使用或与自然语言结合),便于轻松提示

如何运行最新版本:

1. 安装/更新 Comfy 的 自定义节点

  • 选项 a:进入 ComfyUI/custom_nodes 并输入 git clone https://github.com/NeuroSenko/ComfyUI_LLM_SDXL_Adapter

  • 选项 b:打开 示例工作流,进入 ComfyUI Manager 并点击 安装缺失的自定义节点 按钮

2. 确保你拥有最新版 Transformers:激活 ComfyUI 的 venv,输入 pip install transformers -U

3. 下载适配器并放入 /models/llm_adapters

4. 下载 T5Gemma

  • 选项 a:激活 ComfyUI venv 后输入 hf download Minthy/RouWei-Gemma --include "t5gemma-2b-2b-ul2_*" --local-dir "./models/LLM"(如需请修正路径)

  • 选项 b:下载 safetensors 文件并放入 ComfyUI/models/text_encoders(将在下一次节点更新中实现)

5. 如果尚未拥有,请下载 Rouwei(vpred 或 epsilon 或 基础版)检查点

6. 使用展示图中的任意一张作为参考工作流,自由尝试

基于 gemma-3-1b LLM 模型的旧版本说明,请参见此 HF 仓库

当前性能:

此版本在提示理解方面优于各类模型中的任何 Clip 文本编码器。它允许为每个角色/对象指定更多细节与独立部分,结果比纯随机更稳定一致,可制作简单漫画(稳定性因情况而异),定义位置与更复杂的构图。

然而,它仍处于早期阶段,对罕见事物(尤其是艺术家风格)可能存在困难及某些偏见。此外,它基于较老且较小的 UNET,需进行适当训练(可能还需修改),请勿期待其性能达到 Flux 和 QwenImage 等顶级开源图像生成模型的水平。

使用与提示示例:

该模型非常灵活,可接受多种格式,包括多语言输入甚至 base64。

但建议采用以下几种提示风格之一:

(示例见展示图或 HF 仓库的 README

自然语言

kikyou (blue archive) 一位黑发猫娘,穿着侧绑比基尼泳装,四肢着地站在游泳圈上。她害怕得尾巴高高竖起,对周围水域感到恐惧。

纯文本即可。建议避免过短或过长的提示。

Booru 标签

常规 booru 标签。

在节点支持强调功能前,请勿在括号前添加 \。此外,与 Clip 不同,拼写错误很可能导致错误结果。

标签与自然语言结合:

masterpiece, best quality, by muk (monsieur).
1girl, kokona (blue archive), grey hair, animal ears, brown eyes, smile, wariza,
holding a yellow ball that resembles crying emoji

大多数情况下最简单便捷的方式。

结构化提示:

bold line, masterpiece, classroom.
## Asuka:
ouryuu Asuka Langley 穿着校服,表情疲惫地坐在课桌前,头部微倾。
## Zero two:
Zero two (darling in the franxx) 穿着红色紧身衣,站在她身后为她按摩肩膀。

可识别 Markdown # 作为分隔符、JSON、XML 或使用换行与 : 的简单分隔。提示结构化有助于在描述多个角色及其各自特征时提升效果。根据具体案例,它可能非常稳定,通常优于随机结果,或需多次尝试才能克服偏见或复杂性实现目标。

综合使用:

上述所有方式的任意组合。推荐用于最复杂的情况。

质量标签:

正向:masterpiecebest quality

负向:worst qualitylow qualit

建议避免过度堆砌,以免引发不期望的偏见。

当前自定义节点不支持提示权重与标准括号语法。此外,(括号) 请保持原样,无需添加 \

其他设置与建议与原始 RouWei 相同。

知识与训练数据集:

训练数据集使用来自 该数据集 的约 270 万张图片及其他若干来源。数量仍相对较小。

训练与代码

前向代码示例,获取 t5gemma 隐藏状态示例

用于 LORA 训练 的 sd-scripts 分支

用于 完整训练 的 sd-scripts(dev 分支),支持对各部分(t5gemma、适配器、UNet)进行微调。

兼容性:

专为 Rouwei 设计,兼容大多数基于 Illustrious 的检查点,包括 NoobAi 与流行合并模型。LoRA 的 UNet 部分可用,但 TE 部分需重新训练。

近期计划:

  • 改进自定义节点,包括强调功能

将推出基于更大数据集训练的另一个版本,以评估容量,并决定是否与编码器联合训练或保持独立。

若未发现重大缺陷,该模型将作为下一版 Rouwei 检查点的文本编码器使用。

我愿意提供帮助/合作:

加入 Discord 服务器,分享你的想法、建议、请求等。也可直接在此处或 Discord 私信我。

感谢:

部分训练使用了 Google TPU,由 OpenRoot-Compute 赞助。

个人贡献者:NeuroSenko(代码)、Rimuru(创意与讨论)、Lord(测试)、DraconicDragon(修复与测试)、Remix(节点代码)

同时感谢此前支持我的各位:

多位匿名人士、Bakariso、dga、Fi.、ello、K.、LOL2024、NeuroSenko、OpenRoot-Compute、rred、Soviet Cat、Sv1.、T.、TekeshiX

捐赠:

BTC: bc1qwv83ggq8rvv07uk6dv4njs0j3yygj3aax4wg6c

ETH/USDT(e): 0x04C8a749F49aE8a56CB84cF0C99CD9E92eDB17db

XMR: 47F7JAyKP8tMBtzwxpoZsUVB8wzg2VrbtDKBice9FAS1FikbHEXXPof4PAb42CQ5ch8p8Hs4RvJuzPHDtaVSdQzD6ZbA5TZ

许可证

适配器模型采用 MIT 许可证。

本工具使用原始或微调模型 google/t5gemma-2b-2b-ul2 和 google/gemma-3-1b-it。

Gemma 模型依据并受 ai.google.dev/gemma/terms 中的 Gemma 使用条款约束。

此模型生成的图像

未找到图像。