PonyDiffusion Quality Slider

详情

下载文件

模型描述

本模型提升“质量”

你可能会好奇:“什么是‘质量’?”遗憾的是,我无法直接回答这个问题,但我可以告诉你:本模型是在使用 Pony Diffusion V6 XL 那种令人厌恶的“质量标签”怪物生成的图像上训练的,但其文本描述(caption)中并未包含“质量标签”。这意味着,模型被训练为在不使用质量标签的情况下,模仿添加了质量标签后的输出效果。

为什么要这么做?

我发现“质量标签”过于冗长且极难控制,因此决定开发一个 LoRA,通过滑块来调节“质量”。这使得对质量的控制更加精细和多样化,同时还能节省提示词中的 token(有助于避免注意力机制中出现不必要的 BREAK)。

我是如何做到的?

我使用了 GitHub 上 P1atdev 基于 LECO 论文开发的 LECO 训练脚本训练本模型。LECO 的训练过程会以任意去噪强度生成一张图像,然后训练模型学习“有提示词时的输出”与“无提示词时的输出”之间的差异。这使得模型能将标签、词语、概念或短语映射到任意提示词上。在此,我将:

score_9, score_8_up, score_7_up, score_6_up, score_5_up, score_4_up

这一“质量段落”映射为:

因此,我实际上是训练模型始终生成看起来像是被提示了“质量段落”的图像。

捐赠

说到训练,训练模型成本高昂,而我使用的是自己的私有服务器进行训练。如果你喜欢我的工作,欢迎支持我的开发!

https://ko-fi.com/yolup

主要优势

  1. 我最喜欢这一方法的一点是,它使“质量”变得模块化且可调控。添加“质量标签”的权重对输出的影响有些神秘,但这个 LoRA/LECO 的变化清晰明了,你可以通过调整 LoRA/LECO 的权重精确控制其强度——这是设计的预期操作(而加权提示词只是对注意力层的一种“黑客”式应用,效果并不总是如预期)。

  2. 另一个优势是,这个 LoRA/LECO 不会消耗“质量段落”所占用的 33 个 token!这几乎占满了整个上下文窗口的一半!消耗上下文窗口会迫使你所使用的后端(无论是 A1111、InvokeAI 还是 ComfyUI)在注意力机制中插入不可见的 BREAK,从而破坏你构建的提示词的整体连贯性,并引发其他意外后果。

特性说明

本模型 v1 版本效果较弱,稳定运行时建议权重在 2–3 之间,但即使权重高达 6,仍能识别出其输出效果。

v3 版本具有标准权重行为,可像普通 LoRA 一样使用。

v3 必须在提示词中包含评级和来源标签。

本模型仅在 PonyDiffusion V6 XL 上训练和测试过!不保证与其他模型兼容!

模型 v1 会明显改变背景,使其更具“绘画感”,但随着权重增加,背景的崩溃速度远快于主体。如果你非常在意图像背景,建议仅将本模型作为辅助使用。

我尚未完全测试 v4 版本,如发现任何异常行为,请告知我。

虽然我已尽力将“质量”概念从类似概念中分离出来,但这种分离终究有限度。它可能会以非预期的方式改变你的生成内容。如果你希望讨论这些异常现象,请前往 Discord 上的 Furry Diffusion 服务器向我反馈:

discord.gg/furrydiffusion

加入后,我已为此创建了专门的讨论贴:

https://discord.com/channels/1019133813105905664/1214131180572639312

如果你在问 v2 去哪了——它太糟糕了,我实在不忍心把它发布出来玷污社区。

此模型生成的图像

未找到图像。