SuperMix

详情

模型描述

🍍 SuperMix 是一个专注于动漫的文本到图像扩散模型,能够通过细节、光影、纹理及其他构图要素呈现出半写实的风格。同时,该合并模型在风格、形式与媒介的选择上非常灵活,可通过参数生成多种输出效果。SuperMix 擅长以下领域:

  • 人物肖像

  • 动漫风格

  • 半写实风格

  • 风景

  • 概念艺术

  • 细致纹理

  • 复杂背景

  • 车辆、建筑、食物

  • 及更多!

该模型最初是多种专注于动漫的模型的自发融合。我注意到合并后模型在某些细节上表现突出,于是决定围绕这些优势进一步优化并创建一个新混合模型。经过多次迭代与分支测试,我认为当前版本已足够成熟,可直接分享给他人,无需再进行过多变体调整。

我仍自认是生成艺术领域的新手,若您发现任何需要修正或改进之处,请随时告知 👌

我非常期待看到大家使用此模型生成的作品!如果您选择发布,请随意使用标签 #SuperMix


备注

SuperMix1 是一个于 2022 年末由当时已知的多个模型粗略合并而成的旧版模型。因此,该模型及其组件已相对过时,在当前 WebUI 更新等环境下可能较难管理。如今市面上已有许多风格类似、灵活性更高的优秀模型,可能更易于使用,取决于您的风格偏好。若本模型未来获得更新,新版本将致力于解决当前版本的普遍问题、移除许可限制,并提升整体精细度。

💡 替代版本、模型配方及其他信息详见 Hugging Face 页面


通用使用

该模型在通用配置与参数设置上具有相当高的灵活性。
简而言之,我建议从简单入手,试验哪种组合对您当前的提示词最有效。可以尝试一些旧的提示词和配置,或从零开始摸索。该模型在优质提示词下表现尤为出色。在找到合适的配置 + 提示词前,您可能会遇到一些解剖结构或手部表现混乱的情况——但一旦找到,您会立刻意识到。请注意,本模型主要面向肖像风格生成。

预览与示例部分展示了多种不同配置的实例,欢迎自由探索属于您自己的风格。SuperMix 是一个功能强大的模型,能呈现多种风格,请大胆按您认为最佳的方式使用它。

在生成后使用低去噪值的 img2img 上采样,能显著提升图像清晰度与整体质感。请注意,根据参数设置,部分精细纹理可能会被削弱;但您也可以将两次上采样结果合并,以兼顾细节与清晰度。

~20 步,7 缩放系数,**~0.4_** 去噪强度,clip skip 1 或 2,是一个不错的起点_

该模型在细节准确性方面存在一定问题,但主要针对肖像风格优化。请注意,手部与解剖结构可能因提示词和其他参数而表现不稳定。


提示词

SuperMix 在简单与复杂提示词风格下均可表现优异。建议从简单小规模提示词开始,再逐步扩展。👑 在我看来,提示词是生成质量最重要的因素之一。请仔细斟酌您使用的词与使用方式,留意潜在冲突,并观察所有元素如何与其他参数协同作用。(例如:采样器、步数、缩放系数、clip skip、种子、LoRA 等)

注意:艺术家令牌对输出影响显著,请谨慎使用。

正面提示词:作为起点,简单提示词已足够有效,但通过添加结构可更精准引导模型风格。尝试任何与您其他参数配合良好的组合。以下是一些起点示例:

(masterpiece:1.1), (highest quality:1.1), (HDR:1.0)
extreme quality, cg, detailed face+eyes, (colorful:0.8), <content>, masterpiece, 8k, tone mapping, hyper focus

负面提示词:本模型对简单负面提示词或负面嵌入表现良好,若在负面提示中加入结构化描述(如风格方向、不期望的品质等),效果更佳。请注意避免与正面提示词冲突,但也不必过度复杂,尝试一切有效组合!

(bad quality:1.3), (worst quality:1.3)
EasyNegative, (bad_prompt_version2:0.8), (badhandv4:1.18), (bad quality:1.3), 
(worst quality:1.3), watermark, (blurry), (cropped), (nsfw:1.3), (cleavage:1.3)

更多示例请参考预览图。


高分辨率修复(Hires Fix)

  • 高分辨率去噪:我通常使用 ~0.3-0.6 的范围,尚未尝试其他数值,建议您自行实验以适配当前参数与提示词。

  • 高分辨率放大器:不同的放大器会产生略有差异的结果,但我发现它们普遍可用。我不确定业界常用哪些,不过我主要使用 R-ESRGAN 4x+ Anime6B4x-UltraSharp。请按您偏好选择。


采样步数

建议从 ~18-30 步开始,可尝试更低或更高数值,观察其与提示词、采样器及其他参数的配合效果。


采样器

我测试本模型主要使用以下采样器:

  • Euler a

  • DPM++ 2M Karras

  • DPM++ SDE Karras

  • DDIM

我也尝试过 DPM++ 2S a KarrasPLMS 采样器。
其他采样器我不太熟悉。每种采样器都有其独特的风格表现,会与您的提示词和其他参数产生不同交互。

建议您先尝试您常用的采样器,再逐一测试其他选项,观察其与您配置和提示词的配合效果。

请注意:不同采样器对提示词中某些术语或标记的解读方式不同。您可能发现,某种采样器配合“提示词A”效果更好,而另一种采样器配合“提示词B”更优。


缩放系数(CFG Scale)

缩放系数高度依赖于提示词、采样器等因素。我通常建议从默认值 7 开始,再调整至 ~6.5–10

例如,在 DDIM 采样器上,我曾用 ~13–16 的高缩放值获得良好效果,具体取决于提示词及其他变量。但这不代表较低值效果不佳,其他采样器和数值范围也同理。

请多加实验,找出最适合您和您的提示词的组合 👍


Clip Skip

  • Clip Skip 1 — 与多数采样器配合良好,尤其在 Euler a 上效果出色。

  • Clip Skip 2 — 同样优秀,对提示词中各类标记的解读更“字面化”,具体表现取决于采样器和其他参数。

两者皆表现优异,但会生成不同风格与结果——这也是我未采用其他测试变体的原因之一,因两者之间的质量差异过大。建议您同时尝试两者,甚至使用内置 X/Y/Z 图表脚本在同一次生成中并行对比。

您也可以尝试更高值,我见过 Clip Skip 3–6 的良好效果。


VAE

请使用您偏好的 VAE。我通常使用 vae-ft-ema-560000-ema

  • "SuperMix_A.vae"(重命名为 SD vae-ft-ema-560000-ema.vae)
    推荐:色彩鲜明、饱和度高

  • "SuperMix_B.vae"(重命名为 kl-f8-anime2.vae,见 Hugging Face 页面
    非常相似,但部分细节不同

  • "SuperMix_C.vae"(重命名为 Anything_v3.vae,见 Hugging Face 页面
    另一选择:色彩与饱和度较中性

vae-ft-mse-840000-emaClearVAE_V2.3 也是不错的选择。

注意:模型名称中含 "-bv" 或 "-bakedVAE" 的版本已内置 VAE,无需额外加载。


上采样

在生成后进行二次 img2img 上采样,可显著提升图像清晰度并修正细节。请注意,根据设置,部分纹理细节可能被柔化。此步骤非必需,但能极大提升部分生成效果。请使用您认为最合适的设置或扩展插件。

我通常使用内置 SD 上采样脚本,设置如下:

  • 使用相同的基础模型

  • 使用相同或类似的提示词

  • 采样器:DPM++ SDE Karras

  • 采样步数:20

  • CFG 缩放系数:7

  • 去噪强度:低值 ~0.08–0.3

  • 随机种子:-1

  • 块重叠:~176–208

  • 放大倍数:x2

  • 放大器:R-ESRGAN 4x+ Anime6B4x-UltraSharp

  • LoRA 通常关闭


ENSD 与 Eta

我仅使用 WebUI 默认值:

  • 0 Eta 噪声种子差值

  • 0 DDIM 的 Eta(噪声倍数)

  • 1 遗传采样器的 Eta(噪声倍数)


其他设置

在示例图像中,我使用了 -> settings/compatibility/use old karras scheduler sigmas (0.1 to 10) 兼容性设置,该设置影响 Karras 采样器。此为可选设置,通常无需启用。该设置可更贴近旧版 WebUI 的行为。我尚未在新版 WebUI 中充分测试关闭此设置的效果。


免责声明

根据所用参数,本模型可能无意中生成 NSFW 内容。请确保您的提示词经过适当调整,例如在负面提示中加入 "nsfw"。

分享本模型的目的并非在公共平台展示露骨内容。使用者可自由决定是否生成 SFW 或 NSFW 内容。是否接触 SFW 或 NSFW 内容,完全取决于用户个人偏好。AI 模型本身不包含易于访问的明确视觉内容。

所用示例图像参数

  • VAE:vae-ft-ema-560000-ema

  • 上采样器:4x-UltraSharpR-ESRGAN 4x+ Anime6B

  • 启用 高分辨率修复,部分图像再次使用 SD 上采样 处理

  • 启用 use old karras scheduler sigmas (0.1 to 10) 兼容性设置

  • 使用的任何 LoRA 请在图像元数据中注明

  • 负面嵌入 Bad_v2 应与 bad_prompt_version2 名称一致

  • 同时使用了 EasyNegativebadhandv4 负面嵌入

* 负面嵌入为可选


注意

SuperMix1 最初在旧版 Automatic1111 WebUI(https://github.com/AUTOMATIC1111/stable-diffusion-webui/tree/4b3c5bc24bffdf429c463a465763b3077fe55eb8)上合并与测试。因此,建议您在使用 Karras 采样器或试图复现示例图像时,启用 -> settings/compatibility/use old karras scheduler sigmas (0.1 to 10) 兼容性设置。此为可选,通常无需启用——我尚未在新版 WebUI 中充分测试关闭该设置的效果。

许可与使用

本模型为开放访问,采用 修改版的 CreativeML OpenRAIL-M 许可证(详情),进一步明确使用权利与限制。

1. 您不得使用本模型故意生成或分享非法或有害的内容。

2. 作者不对您生成的输出内容主张任何权利,您可自由使用,但需对其使用负责,且不得违反许可证规定。

3. 您可重新分发权重。若如此,请确保向所有用户包含与本许可证相同的使用限制,并提供修改版 CreativeML OpenRAIL-M 许可证副本(请完整仔细阅读许可证)。

请完整阅读以下许可证:

Stable Diffusion
Dreamlike Diffusion 1.0

RT 变体 不受 Dreamlike Diffusion 许可证约束)


使用限制

您同意不以任何形式使用本模型或其衍生品:

  • 违反任何适用的国家、联邦、州、地方或国际法律与法规;

  • 用于剥削、伤害或企图剥削、伤害未成年人;

  • 生成或传播可验证的虚假信息或内容以损害他人;

  • 生成或传播可用于伤害个体的个人身份信息;

  • 诽谤、贬低或骚扰他人;

  • 用于对个体法律权益产生不利影响的全自动决策,或创建/修改具有法律约束力的义务;

  • 用于任何意图或效果为基于线上/线下社会行为或已知/预测的个人/性格特征歧视或伤害个人或群体;

  • 利用特定群体因年龄、社会、身体或心理特征所存在的脆弱性,以实质性扭曲其行为,从而导致或可能造成该群体成员或其他人身体或心理伤害;

  • 用于任何意图或效果为基于受法律保护的特征或类别歧视个人或群体;

  • 提供医疗建议或医疗结果解读;

  • 生成或传播用于司法、执法、移民或庇护程序的信息,例如预测个人将实施欺诈/犯罪(如通过文本分析、在文件陈述间建立因果关系、无差别或任意目标使用);

  • 生成 NFT。

使用条款

- 您应对因不道德使用本模型所导致的任何法律责任负全责。
- 如果您将这些模型用于合并,请说明您所采取的步骤,并明确标示出哪些部分进行了修改。

备注

如果您发现任何冲突或需要修正之处,请告知我。

此模型生成的图像

未找到图像。