Style Components (ComfyUI & Forge)
详情
下载文件
关于此版本
模型描述
风格组件(ComfyUI & Forge)
请前往 Forge 扩展 / ComfyUI 节点 的 GitHub 页面获取使用说明和更多信息。从现在起,此 Civitai 页面将不再更新小版本变更,请关注 GitHub 页面以获取最新动态。
v0.2.0 的旧描述
风格组件(Forge 扩展)
适用于 Stable Diffusion 1.x 和 SDXL 动漫模型的风格控制。
(你实际上不需要下载模型文件,只需尝试 Colab 演示。)
从 v0.1.0 开始,提供了一个 Forge 扩展。
在 v0.2.0 中,新增了一个仅支持 SDXL(AutismmixPony)的 Forge 扩展。请注意,现在风格组件的含义与 v0.1(SD1)版本不同。
这是什么?
这是 IP-Adapter,但用于(动漫)风格。与使用 CLIP 图像嵌入不同,图像生成基于风格嵌入进行条件控制,这些风格嵌入可从图像中提取或手动创建。组件值可在 PNG 信息中查看。
为什么?
目前,风格控制的主要方式是通过艺术家标签。这种方法合理地引发了风格剽窃的担忧。通过将风格分解为所有艺术家都共有的可解释组件,可以避免直接复制风格。此外,通过调整风格组件的强度,可以轻松创建新风格,从而提供比堆叠艺术家标签或 LoRAs 更强的可控性。
此外,这可能对通用训练有益,因为使用风格条件进行训练可以削弱风格向概念中的泄露。这也证明了图像模型可以基于除文本或图像之外的任意张量进行条件控制。希望更多人能理解,没有必要强行将本质上是数值型的条件(如审美分数、日期等)转换为文本标签形式。
如何使用?
目前提供了一个带有 Gradio 界面的 Colab 笔记本。由于这仅是一个实验性预览版,在模型达到更稳定状态之前,不会为流行的 Web UI 提供正式支持。
下载 Forge 扩展并将其解压到 extensions 目录下。确保勾选“启用”复选框。对于 SD V1,请使用 v0.1.0;对于 SDXL,请使用 v0.2.0。
你可以通过调节滑块值或从普通图像导入来创建风格嵌入。每个组件的效果参考网格已在预览图中提供。
SDXL 提示:模型在 AutismmixPony 上训练。这是目前唯一支持的模型。适配器未使用 Pony 标签(source_anime、score_9 等)进行训练,因此在提示时可省略这些标签。
技术细节
首先,通过在 艺术家数据集 上进行监督对比学习,构建风格嵌入模型。然后,从学习到的嵌入中提取 PCA 的前几个主成分。最后,使用相同的数据集(含 WD1.4 标签和投影嵌入)在 anime-final-pruned 上训练修改后的 IP-Adapter。训练分辨率为 576×576(SD1)/ 1024×1024(SDXL),支持可变宽高比。
对于 SDXL 版本,设计经过优化,将风格操控与条件控制解耦。风格提取器使用更大规模的数据集和更多参数进行了更新。
由于模型的训练方式,风格嵌入更侧重于局部风格而非全局构图。此外,在训练中未确保裁剪图像包含面部,因此风格嵌入可能无法很好地捕捉面部或眼睛风格。
致谢
本项目主要受 通过名人基底将任意人物插入扩散模型 和 IP-Adapter 启发。训练与推理代码基于 IP-Adapter 修改(许可证)。


