Rouwei-Gemma

详情

下载文件

模型描述

用于将 Gemma-3-1b 作为 Rouwei 0.8 的文本编码器的训练适配器

更新 v0.1:

已发布适用于 gemma-3-1b 的新适配器版本

要正常使用,您需要同时下载并使用适配器模型(已上传至此处及 HF)和训练好的 LLM。LLM 可以作为 单个 gguf 文件目录 通过 HF-Hub 下载。

要运行它,您需要更新的自定义节点。示例工作流可在展示中找到,或此处。更多示例请见此处

新版本在提示词遵循性方面表现更佳,支持使用结构化提示描述每个角色的独立特征,可生成简单漫画,并在整体上对动漫艺术相关知识有更丰富的理解。虽然仍不完美,但已显著优于原始 CLIP 编码器,允许使用长而详细的提示词而不出现典型标签渗漏。

已发布适用于 t5gemma-2b 的版本

作为一项采用略微不同方法的并行实验,我们训练了一个适配器,它利用 t5gemma-2b-2b-ul2 的文本编码器,并将其输出转换为 SDXL U-Net 的条件。考虑到训练时间较短且未改动原始 t5gemma 编码器,其表现已相当不错。在角色和艺术家风格的知识方面,它已优于使用 gemma-3-1b 作为文本编码器的版本,但在处理复杂提示时准确性稍低。

要运行它,您需要与 gemma-llm 不同的工作流(可在对应版本的展示中或此处 查看)。

您需要更新的自定义节点才能运行

以下为详细的运行说明与提示技巧

这是什么:

一种可直接替代 SDXL 文本编码器的方案,利用大语言模型(LLM)的力量提升提示理解与条件生成能力。

类似于 ELLA、SDXL-T5 等方案,但本方案专注于动漫模型,具备更深入的知识且无审查限制。

为何重要:

SDXL 已被证明是一个出色且灵活的模型,能够在较低计算成本和高速下生成具有优秀美学和多样性的结果。但其提示遵循性因使用 CLIP 而受到显著限制。此外,处理超过 75 个标记的提示需要分割,这可能导致原始语义失真。

用更新的替代方案取代 CLIP,有望显著提升 SDXL 对复杂提示的理解能力,同时在保持现有优势的前提下赋予更多控制权。此外,图像、坐标、OpenPose 姿态、每个角色的独立提示等额外信息,也可实现并与其主提示协同工作。

工作原理:

文本提示由 LLM 处理,然后通过适配器处理其最后一层的隐藏状态,以补偿因果注意力并将其重塑为 SDXL U-Net 的条件。

为何选择 gemma-3:

仅因其相对适中且小巧,适合实验。后续开发中可能会替换为 qwen-vl 或其他模型。

请放心,此 LLM 推理过程中不存在任何审查或拒绝。该方案仅使用代表“模型理解”的隐藏状态。

当前能做什么(现在):

首先——当前版本更像概念验证,而非实际可用工具。考虑到训练预算,它能运行已是奇迹。

  • 处理您习惯用于提示的 booru 标签
  • 处理自然语言提示,包括极短和极长提示(最多 512 个标记,gemma 分词器)
  • 使用 markdown、xml、json 或其他格式的结构化提示,精确指定各部分内容
  • 上述格式的任意组合
  • 只要模型理解您输入的内容,就不会出现标签渗漏

因此,它可作为标准文本编码器使用,但对长表达式具备更深层次的理解,并能承载更多条件而不相互混淆。

当前不能做什么(尚未):

  1. 可能难以处理非常复杂的提示
  2. 知识不一致,可能识别某些极其冷门的角色,却混淆更流行的角色
  3. 风格同样如此
  4. 使用某些艺术家的风格标签可能产生强烈偏向,导致忽略提示的某些部分
  5. 无法生成高质量文字
  6. 不支持强调(标签权重:1.1)和常见魔法词

以上问题将通过进一步训练解决:第1项需要 U-Net 训练;第2-4项需训练 LLM,因其目前缺乏这些知识,相关词汇反应极弱;第5项仅需更多训练(及对应数据集),将很快解决;第6项需改进自定义节点,也将很快加入。

如何运行:

LLM gemma-3-1b 编码器(标记为 v0.1_g3-1b_51k)

  1. 安装 Comfy 的自定义节点
  2. 确保已将 Transformers 更新至支持 gemma-3 的版本,并在 Comfy 的 venv 中安装 gguf Python 包
  3. 下载适配器并放入 /models/llm_adapters
  4. 下载训练好的 LLM GGUFHF 并放入 /models/LLM/(HF 格式需整个目录,必须包含原始模型的所有文件,而不仅是 .safetensors。若目录不存在,请创建对应模型名称的文件夹)
  5. 若尚未拥有,请下载 Rouwei(vpred 或 epsilon 或 base)检查点
  6. 可使用展示中的任意图片作为参考工作流,欢迎自行实验

先前的 0.0alpha 版本使用原始 gemma-3-1b-it非受限镜像

T5gemma-2b 编码器

步骤相同,但需:

可通过 HF-Hub 命令下载:

hf download Minthy/RouWei-Gemma --include "t5gemma-2b-2b-ul2_*" --local-dir "/path/to/comfy/models/LLM"
  • 下载适配器
  • t5gemma 的工作流略有不同,请参考展示图

目前 GGUF 不支持 t5gemma 架构,待支持后将更新。

提示技巧:

新流程允许使用几乎任何提示格式,十分灵活(甚至支持 base64 或多语言,但性能略有下降)。为获得最佳效果,建议遵循以下模式:

  • 仅使用标签:支持,效果良好,但仅用标签无实际意义
  • 长自然语言提示:同样有效,除非当前开发阶段复杂度过高。建议避免过度华丽的辞藻和无意义填充
  • 结构化提示:这才是真正有趣的部分。可使用 json(如 ToriiGate 示例)、xml 或其他格式,但最方便的是 Markdown。主要用 # 标题分隔提示部分并明确指向特定内容。此方式对标签和自然语言提示均适用。例如:
2girls, wakamo (blue archive), izuna (blue archive), richly decorated room, from above, masterpiece.
## Character 1
Wakamo (blue archive), a fox girl with black hair, yellow eyes and fox mask standing on the left wearing maid outfit. She holds tray with a unworn panties. Her expression is smug and confident, she proudly presenting the tray.
## Character 2
Izuna (blue archive) fox girl with brown hair, yellow eyes, hair flower stands on the right. She also wears maid uniform, she is lifting the hem of her skirt showing that she wears no panties. blushing, ashamed
  • 标签与自然语言表达的任意组合

可能的问题:

  • 有时标签或词汇顺序很重要,可能存在对特定角色、概念等的偏向
  • 拼写正确性比 CLIP 编码器更重要
  • 在某些情况下,使用艺术家和风格标签会产生强烈偏向,使提示更难控制,但已比前一版本好得多
  • 仍处于早期实验阶段,尽管与默认 SDXL 编码器相比表现卓越,但相比新的大型模型(如 Flux)仍较弱

当前自定义节点不支持提示权重和标准魔法词。此外,(括号)请保持原样,无需添加 \

其他设置与建议与原始 Rouwei 相同。

质量标签:

正向:

masterpiecebest quality,二者可同时使用,但不太可能带来明显提升,也可直接省略。保持简洁,避免多余“魔法组合”,因它们可能产生负面效果。可置于提示末尾。

负向:

worst qualitylow quality。与正向标签相同。建议保持简洁,仅添加您不希望在此图像中出现的具体内容,而非泛泛而谈。

知识:

它了解流行角色,可模仿艺术家风格,理解概念及其他内容。但这些能力受限于当前 LLM,需在后续阶段进一步训练才能全面掌握。此外,一些更通用的内容也受限于当前数据集(仅含动漫图像)和 U-Net 能力。

兼容性:

专为 Rouwei 设计,应兼容其合并与微调版本。与 Illustrious 模型、Noobai、其他 SDXL 检查点可能兼容性有限。

近期计划:

  • 更多研究与对比,以确定最值得与 U-Net 一起训练的选项
  • 自定义节点的强调功能支持
  • 训练代码
  • ...

训练预算:

  • 3 升啤酒,0.5 升咖啡,3 块 5090 显卡运行数天(现已两周)

我愿意提供帮助/合作:

加入 Discord 服务器,您可分享想法、提出建议、请求等。也可直接在此处或 Discord 私信联系我。

捐赠:

BTC: bc1qwv83ggq8rvv07uk6dv4njs0j3yygj3aax4wg6c

ETH/USDT(e): 0x04C8a749F49aE8a56CB84cF0C99CD9E92eDB17db

XMR: 47F7JAyKP8tMBtzwxpoZsUVB8wzg2VrbtDKBice9FAS1FikbHEXXPof4PAb42CQ5ch8p8Hs4RvJuzPHDtaVSdQzD6ZbA5TZ

致谢:

NeuroSenko(代码)、Rimuru(创意与讨论)、Lord(测试)、DraconicDragon(修复与测试)

同时感谢此前支持我的各位:

多位匿名人士、Bakariso、dga、Fi.、ello、K.、LOL2024、NeuroSenko、OpenRoot-Compute、rred、Soviet Cat、Sv1.、T.、TekeshiX

许可证

本工具使用原始或微调模型:google/t5gemma-2b-2b-ul2 和 google/gemma-3-1b-it。

Gemma 模型遵循并受 ai.google.dev/gemma/terms 中的 Gemma 使用条款约束。

适配器模型采用 MIT 许可证。

此模型生成的图像

未找到图像。