SDXL Sim UNET Experts [SFW/NSFW]

详情

模型描述

观察模型如何转变……成为你想要的描绘。

持续评估显示

BeatriXL 是一个 VPRED 模型。一个非常非常直接且强大的 vpred 模型,但其视角比前代模型要狭窄得多。它是高度直接且有力的字面变体,几乎相当于从实际特征转换进行的深度重制。它能实现你想要的效果,但你可能会得到大量你不想要的东西。

SimV4 epsilon 仍然比我在实践中执行的大多数 VPRED 重制模型强大得多。

SimV5 未发布的 epsilon 版本将进行深度微调,以使其性能与 SimV4 epsilon 保持一致,但在我完成 SD3.5 的微调之前不会进行——目前请先享受这些模型,因为 SD3 可能需要一些时间。

经过 12 次完整微调后,SimV4 似乎在整体上脱颖而出。虽然灵活性稍逊,但其结构最为强大且实用。

SimNoob 在面对过多纯英文提示时极其脆弱;但它确实表现不错,绝对是 A 级学生。然而,它失去了许多让 SimV3 优秀的特点,其行为变得更为激进而非有方向性。

它是一场“绝对”的交响曲,而非“可能性”的集合。它是一片强大而迷人的景观,而非混乱的盲目描绘。它具备可辨识的质量与保真度,而非纯粹噪声或绝对混乱的潜力。

VPRED 模型不错,但它们在极端方向上偏移太严重,无法作为独立模型使用。

在转换过程中,它们失去了大量使其成为独特模型的特性;从这个意义上说,它们已不再是之前的模型。尽管如此,对 Epsilon 进行微调也会产生同样的结果,但对 Epsilon 进行完整微调对这些模型来说未必是好事。

PonySim vpred V5 发布

人们不断提到真实感不够好,所以我稍后会专注于一个真实感微调。目前对我来说它还算不错。

手部问题正在修复,其他问题也在逐步消除,等等。

我有一整份图片清单要上传,所以请耐心等待,我会全部发到页面上。

目前,这些是一些成功和失败的案例。

PonySim vpred V5 即将发布;

在 HuggingFace 上关注我的人已经可以访问这个 safetensors 文件。

我将很快在这里上传张量,并附上对问题区域的全面分析;目前这些区域正在开发针对安全和中间步骤问题的潜在修复方案;许多图像在此处提前或延后结束训练。

使用 9 次重复的余弦训练足以使模型适配,因此我打算尝试仅聚焦中心而非整体时会发生什么。

PonySim vpred V43 发布;

一个有趣的发现:你不要使用评分标签。

将所有质量标签放在底部,直接使用即可。把它当作 SimNoob 来处理。

masterpiece, most aesthetic, very aesthetic, good aesthetic, 
high resolution, highres, absurdres, absurd res, 

有一组大量数据使用了不同种类的质量标签,我注意到质量明显下降;因此,如果你想获得最高质量的图像,务必同时使用所有这些质量标签。尽管它们占用很多 token,但只要你把它们放在底部的断行之后,就没问题。PonySim 非常稳健。

对于错误发布的版本,我深表歉意。这周工作异常繁忙,我甚至没时间测试正确版本。

它能运行,所以我发布了。

请务必仔细遵循标签指南。目前它并不是最易用的工具,但如果你能正确控制,它能创造出美。

看,这不是垃圾。 :'| 我为这些模型付出了大量努力,只求一句感谢。我不需要你的钱。

当前 HUGGINGFACE 的训练完全专注于提升 PonySim V43,使其达到与其他模型相当的水准;甚至可能超越 SimNoob 和 NoobSim,在玩具 omega 版本中表现更优。

https://huggingface.co/AbstractPhil/PONY-SIM-V4/tree/main/VPRED-SOLIDIFIER

我已更新标签指南,以更好地协助使用 PonySim。




PonySim vpred V38 问题;

又回炉重炼了。

到目前为止,只要我使用 ComfyUI 或标准 Forge,它运行良好。但在 A1111 和 ReForge 上运行会出问题;尤其是当使用 PonySim 和 vpred 时,超过 75 个 token 就会出现问题。

我会在下一次微调中解决这个问题,以确保 Pony 的深度训练能正确适配 vpred;但目前,如果你想使用 EPRED,可以尝试构建更长的提示。

玩得开心。


PonySim vpred V38 计划发布;

计划发布时间:2025 年 3 月 21 日,美西时间下午 5 点。

经过半成功的重构后,该模型开始逐步适配。它比其他模型需要更多的修复,但已开始适应训练。

它绝对是一个 vpred Pony 模型。

Pony 已被重构为 V-PRED,以正确支持暗场景、光影及其他需要进一步训练的元素。

我一直关注光影和美学细节图包及其方法,试图利用我的 clips 识别它们;我们拭目以待。

上下文的强度不如其他模型……但它支持许多 epred Pony LoRAs。

大家玩得开心。


惊喜星期三发布!

又回炉了!

长期待望的纯 epred SIMV4 终于稳定了。

纯英文提示力量的回归。

为找到正确的公式,我花了很长时间。

该模型在上下文潜力上优于 SimNoob,但尚未实现

未发布且不稳定的 Sim 纯 VPRED v5 在许多方面仍远超竞争对手,但极其不稳定。SimV4 将成为连接 EPRED 和 VPRED 所需数据的粘合剂,但它尚未准备好。


对于 SimNoob 完整发布

你的眼睛没有欺骗你。SimNoob 是一个 SDXL VPRED 模型。它可以处理 Noob LoRas、Illustrious LoRas 以及大量 SDXL LoRas。这不是一个普通模型。

在正向提示中加入 “safe” 和 “censored”,你目前必须使用它们。censored 标签经过深度训练,用于识别所有可能涉及不当内容的网格点。

在负向提示中加入 “nsfw”, “explicit”, “questionable”, “uncensored”

由于早期训练阶段使用了空体娃娃模型,模型默认会生成 NSFW 内容,即使仅使用极少标签;这将在下一次微调中解决。

这是一个持续进行的实验,旨在提升对图像生成的控制力。


Sim V4 - 持续中 - 每次迭代后训练 T5 特征。

NoobSim 完整 V-Pred 预备版 - 已发布

-> 收集了 440 万特征 -> 4XX GB 插值数据。

SimNoob 完整 V-Pred 预备版 - 已发布

-> 收集了 440 万特征 -> 4XX GB 插值数据。

PonySim 完整 V-Pred 预备版 - 正在训练

-> 收集了 310 万特征 -> 2XX~ GB 插值数据。

SimPony Epsilon/V-Pred 融合预备版 - 下一个待处理的 vpred 准备模型。

NoobPony Epsilon 预备版

PonyNoob Epsilon 预备版


T5 适配尚未完成;需要更多特征以实现完全收敛。

总特征数据:1190 万特征


V2 简单工作流

V2 上下文工作流

V3 简单工作流

V3 上下文工作流

V4 简单工作流

V4 上下文工作流


毫无疑问是一个基于 SDXL 的模型集;但请使用 SD3 风格的负向提示:将负向提示前 10% 的时间步归零。这能显著提升整体质量。

我训练得越多,它就越接近 Flux。我认为它在许多方面目前的能力已超越 Flux。


似乎 vpred noobs 与其它模型在工作流中表现不同,因此我也将为它们开发专门的工作流。

当前的上下文工作流使用了 IPADAPTER 和 CLIP_VISION 以保持兼容性;T5 版本将不再需要它们。


我们的候选基础模型包括:

SDXL Base -> Sim SDXL

  • CLIP_L

    • CLIP_24_L_OMEGA,使用 Flux、SDXL、Flux 再次、最后回归 SDXL 进行深度微调。它已被重新调校,以适应多种高复杂度和困难的固定元素,如深度关联、网格、区域控制、偏移、糟糕的手部、糟糕的解剖结构等。它经历了与 noob、pony、noob、illustrious、sdxl、noob 等多次对抗训练,训练样本超过一亿。
  • CLIP_G

    • CLIP_24_G_OMEGA,深度微调程度低于 CLIP_L。长期作为 CLIP_L 的学生;二者在 SDXL 训练期间长期竞争,如今已实现 UNET 内部的联合兼容。
  • 这场竞争堪称传奇。

Illustrious Base -> NoobXL v-Pred V10

  • CLIP_L -> [NOOB_CLIP_L + CLIP_24_L_OMEGA] 72 / 28

    • 使用 ComfyUI 的 SIMPLE MERGE 进行合并;因为我对 clip 插值训练了解不足。但它确实完成了任务。
  • CLIP_G -> [NOOB_CLIP_G + CLIP_24_G_OMEGA] 72 / 28

    • 与 CLIP_L 以相同方式合并。

Pony Base -> Ebara

  • 尚未最终确定。

V5 Sim 准备

纯 EPRED SimV4 实际上是我用过最强的模型之一;但它尚未完成。必须谨慎地将其提炼为 V5,以保留至少 80% 应用于 SDXL 的大规模训练成果。

NoobSim 和 SimNoob 引入了有趣特性,但大量信息缺失或被破坏。SimNoobV5 更接近 Sim EPRED,但仍不完整。我需要进行一次完整的插值蒸馏微调——这是我从未从头到尾在模型上执行过的工作。

这将花费一些时间,并需要开发一种新的训练流程,将 V4 EPRED Sim 转换为正确的 VPRED 形式,同时不破坏一切。

在设计这一新训练流程并从其他专家收集特征的同时,我会继续训练其他姐妹模型。

即将推出的 PonySim 正在酝酿中,表现相当锐利,但与 NoobSim 和 SimNoob 相比,其年龄痕迹明显;而这两者都是高度稳健且强大的动漫模型。

纯 SimV5 将具备迄今为止最强大、最稳健的上下文能力;可能只有 SD3、Flux 或其他专门设计的高上下文模型才能匹敌。

然而,随着你深入这个“兔子洞”,质量可能会下降;但随着训练继续深入 VPRED 领域,这些问题将逐渐清除。这是一个持续过程,旨在将 Sim Pure 精炼成最终形态——我们真正无拘无束的 Flux/SD3 对手的上下文专家。它还需要抓住更多要点;它必须成为插值混合中所有专家的专家和主宰,才能成为领导者;否则,它将是一个糟糕的领导者。

V5 SimNoob 发布

SimNoob 基于 SDXL epsilon 预测噪声,经过多个世代重构为 vprediction,并融合了 28% 的 NoobXL 插值特征。

这是 NoobSimVPRED 的相反组成部分;NoobSim 基于 Noob,而 SimNoob 则深度基于 SimV4——它是那个相当不顺从且顽固的 SimV3 的继任者。

主要基于 SDXL,Noob 的融合显著提升了人类形象的生成能力,使原本变形的身体能更可靠地转化为可用且合理的形态。

  • 结构仍以惊人方式运作。完整内置的过渡结构集、手部控制、网格控制——这些都是 SimV3 应该拥有的全部功能。

  • 人类形态大幅提升,以至于不再需要任何 ipadapter 或 solidifier 即可将其塑造成任意姿势,或置于其他模型无法实现的情境中。

  • 对文字描述的控制力远超大多数已测试的 SDXL 模型,在构图、偏移、角度、旋转、姿势、风格、着色等众多方面表现卓越,甚至包括许多无法量化的元素。

  • 对纯英文提示响应极其出色,在众多方面远超 NoobSim。

  • 成果足以被命名为 V5。

  • 从 V2 损坏但部分恢复的描述关联与风格分层组合系统。

  • 时间步控制比 V3 更贴近原始 V2。

V46 NoobSim 发布

V46 NoobSim 是正在训练的六个 1216x1216 vpred 模型之一,专为合并而设计。这是以人类形态描绘为目标的模型,使用我的特定人类形态数据集进行深度微调,排除了大部分风景数据。

V46 满足了超级模型的所有关键要求,因此下个版本将是 SIM SDXL V4;它是 SIM SDXL V3 FULL 与约 30% NoobXL VPRED 强度合并后的 VPRED 变体。

V46 NoobSim 带来了更多新特性:

  • 动漫和人类形态都极为稳健。

  • 可在 2D、动漫、3D 和现实主义之间快速切换,同时保持相似形态。

  • 现实风格更真实,动漫风格更动漫,3D 风格更 3D。

  • 更多艺术家,更多电视剧,更多电影镜头,更多视频片段,更多,更多,再更多。

  • 对角度的控制更加精准。

  • 使用 grid_b3、grid_c3 和 grid_d3;它们是所有网格区域中训练最多的,会产生最佳效果。

  • 安全/可疑/明确/NFSW 在此版本中均有效,可控性极高。

  • 更准确的角度、偏移量、屏幕位置、深度等。

V4 NoobSim Prime 为模型带来了许多新元素:

  • 数据库包含超过90万张经过自动化标注的图像,用于描绘偏移;目前暂未包含无脑混合(noob mix)中的文字说明,因为V3 FULL(合并基础)的结果显示,文字说明在达到一定数量后会严重损害效果。

  • 美国风格的各类卡通:卡通频道、喜剧中心、尼克频道,以及其他多个频道的系列,如《恶搞之家》、《瑞克和莫蒂》等等。老实说,我只是把所有能找的东西都搜集进来了。

  • 动作电影:包含一些动作电影的镜头,但数量非常有限。基础SDXL模型原本不需要它们,但Noob模型中几乎没有,因此需要补充一些。

  • 女演员、男演员、喜剧演员等并未包含在内,或因Sim强度较低而无法有效呈现(它们在基础SDXL中均存在,且经过我的精细训练,许多仍得以保留)。然而,更强的LAION训练和公众人物应能产生较为合理的动漫形象,这还挺酷的。在测试中,部分人物会偶尔浮现,因为存在一系列人脸包和模糊人脸身体,但绝大多数时候很难分辨出具体是谁。

  • 水印偶尔会出现。这些面孔通常不会与你看到的水印完全吻合,但有时在写实风格中出现频率更高。

  • 动漫包含大量内置系列,Noob几乎能直接生成你想要的任何内容。

  • 3D部分训练了大量游戏、剧集、电影和系列内容。

  • 随着Noob的引入,也一并引入了E621数据集——这表明我尽量避免破坏英文表达,因为这套标签体系对我来说是陌生的。

V3的效果不如我预期,这让我非常失望;但失败往往带来新的进步方向。

V3 - FULL 被证明是其中最强大的版本;其可能性远超其他替代版本。

请注意:NSFW内容似乎已渗透到所有方面。

它并未完全符合必要的信息要求,但依然生成了一个极其强大的模型,因此我已开始基于V-PRED而非E-PRED噪声训练一系列全新变体。这些变体在早期步骤中更具一致性,请持续关注。

上采样和分桶图像未能正确达到预期效果;因此,无论你输入什么内容,输出结果都可能时好时坏。V2-FULL 目前仍是更优模型;但两者都非常强大,只要使用恰当的提示词,都极具实用性。

它们尚未来到预期的高度。

英文并未生效。 我尝试了多种变体,但纯英文无论选哪一种都会破坏元素。

本次发布基于标签而非英文,这是我迄今为止最大的失望。

除此之外,Sim V3 在处理高分辨率、高复杂度单角色和复杂场景控制图像时表现极佳。它支持大量文字说明、分层单角色控制器,比原版拥有更先进的姿势控制,可访问大量LAION数据,并已有效训练了大量新信息和路径,以使其符合所需提示。

它达到我期望的V4 Sim SDXL水平了吗?没有。

它好吗?是的,非常好。我已经一并发布了原型版NoobSim,它正在训练中,旨在为即将到来的超级模型补充必要细节。

V4 建议:
分辨率:1216x1216、1472x1472、1600x1600、2048x2048,以及其他变体
步数 -> 20-50;
* 20 步用于 Noob,30-50 步以利用 Sim 的时间步训练。

CFG -> 3.5 - 7;
* 3.5 用于简单动漫和3D
* 5-6 用于写实或拟真风格
* 7 用于高保真、高复杂度的景观和多角色互动。

DPM 2M SDE ->
* BETA 更擅长处理 Sim 相关元素而非 Noob
* SIMPLE 更适合 Noob

EULER A ->
* BETA 非常快,但上下文较差
* NORMAL 非常快,上下文尚可,适合动漫
* SIMPLE 对处理 Noob 相关元素表现极佳。

DPM 2S ->
* BETA 高保真写实
* 同时处理 SIM 和 NOOB 表现良好,但动漫用途有限。

IMG2IMG:
>>> 未测试。

使用网格辅助LoRA可在低迭代次数下增强屏幕与描绘控制,并启用一系列不同的网格与精灵表功能。在高迭代时,能实现更强的屏幕控制,但会牺牲质量和上下文。

可使用来自众多模型的大量LoRA——包括Pony、SDXL,甚至一些Illustrious LoRA。该模型可直接与Felldude所有基于SDXL Simv4的模型合并。

遗憾的是,VPRED NOOBXL LoRA效果参差不齐,但我已想到一种整合它们的方法,请持续关注该谱系的完整V3发布。

SDXL-Simulacrum V3 βγE 发布于 2025年2月26日

  • α版本大致以完整的V2为基础

  • β版本基于约90万张图像,训练样本从1000万至1180万

    • 这是“标签”部分 → 文字说明部分仍在训练中,因此这个版本与纯英文配合效果不如V2。

    • 时间步 32-920 → 绝对专家级img2img

  • γ版本使用gamma正则化与时间步500-1000

    • 该版本将在每个β迭代中运行一次gamma迭代

    • 实验显示其具备处理高复杂关联及重构原始英文的能力

    • 完整迭代将决定我是否继续此路线

使用1216x1216尺寸分桶训练,范围512至2048。

下一轮迭代将使用纯英文而非标签。

V3 B 推荐设置:

txt2img:
分辨率:1216x1216、1472x1472、1600x1600、2048x2048,及其他变体
步数:50
CFG:4-7 → 高保真复杂景观或20+角色场景时用15-25
DPM 2M SDE ->
* BETA 更快且上下文丰富
* UNIFORM 快速,上下文尚可
* SGM UNIFORM 较慢但形态更优
* EXPONENTIAL 快速,上下文一般
* NORMAL 快速,多角色风格上下文良好

EULER A ->
* BETA 非常快,但上下文较差
* NORMAL 非常快,上下文尚可,适合动漫

DPM 2S ->
* BETA 高保真写实
* NORMAL 存在扭曲或变形

IMG2IMG:
任意分辨率
步数:50
去噪强度:0.7 > 1.0(实际会形成形态)

DPM 2M SDE ->
* DDIM UNIFORM 在img2img中表现绝佳
* SIMPLE 不错,但不如前者
* BETA 适合引入/移除元素和上色

DDIM ->
* DDIM UNIFORM 画质一般,但不破坏上下文

Euler 出人意料地表现不佳。它通常还不错。

负向提示词起始值应设为0.05或更高,低于此值为0。

正向提示词中的CLIP_G建议从0.08或更高开始,否则在高复杂交互中可能出现变形。

应要求,我将按版本发布所有结果,并进行红蓝对比测试。

这些片段大体相似。学习率极低,如需提取,尽请自便。此版本主要为UNet训练,因为CLIP已非常先进。

SDXL-Simulacrum Full V2 αβγδ 发布于 2025年1月31日 下午5:00

我称此模型为“低智商SDXL FLUX”。

  • α版本:约5万张图像,训练0-2百万样本

  • β版本:约7.5万张图像,训练2-5百万样本

  • γ版本:约15万张图像,训练5-7.5百万样本

  • δ版本:约30万张图像,训练7.5-10百万样本

以下是我更精确的训练列表:

结果明显更倾向于高分辨率,而非低分辨率,因此请不要吝啬分辨率。

Full V2版本极其复杂,难以用简单方式描述其工作原理;但我将用一句话概括整个模型

使用合乎逻辑的纯英文表达。

该模型按句子顺序和半逻辑的Booru流程图构建你想要的内容。

纯英文文字说明基于 sentencepiece。大多数LLM(包括T5)均在无监督训练下使用sentencepiece。本模型在文字说明方面的基础与方法论,完全源于LLM及其结构。这些结构与视觉分类器、边界框识别器结合,并通过深度分析在各类识别形式间进行插值。若文字说明非由sentencepiece模型生成,则其生成基于概念意图。

对于版本3,我将把数据集扩展至超过200万张图像;所有图像均同时标注纯英文文字说明和描绘偏移标签。

它们不会一起训练;而是作为两个独立的克隆数据集分别训练。一个称为“标签文件”,一个称为“文字说明文件”。

一个基于Booru标签和短文字说明(<30个文字标记),另一个基于纯英文(<10个Booru标签);互为镜像与姊妹数据集,交替时间步训练。

Booru标签将被打乱,英文文字说明将保持顺序。

生成图像

  • ComfyUI 是唯一具备足够精细时间步控制能力的生成器,适用于IMG2IMG与TXT2IMG。

    • 讽刺的是,时间步并不完美,但已非常接近。

    • 我已发布两个启动时间步上下文调节的ComfyUI工作流,包含启动时间步用法和双重提示,专为CLIP_L和CLIP_G设计。

    • 这不是普通的SDXL,你不会得到相同结果,如果偏离时间步指南太远,尤其是要求扭曲内容时,输出可能令人不适甚至可怕。

  • 若要获得该模型的完整体验,你必须使用ComfyUI并调整时间步

    • 我在下方列出了基于训练时间步的半准确训练列表。我用于确定这些时间步的数学方法与Flux原始微调时CLIP_L的Flux Shift相似,但不完全匹配——但在紧急情况下足够用。
  • Forge 可用,但效果不佳。

  • 我特意确保它在Forge上看起来不错,因此你可以使用Forge;但上下文会受损,因为CLIP_L与CLIP_G被刻意设计为行为不同。

TLDR 生成设置:

DPM++SDE 2M -> Beta / Karras

CFG 6.5 - 7.5 -> 6.5 是我最喜欢的

步数 -> 12-100 -> 我主要用50,低步数也能工作

分辨率 -> 太多。
“三法则”是本模型的基础原则。 所有文字说明均基于此概念,因此三法则将类似Flux般运作。坚持三法则,你就能顺利;若偏离太远,你将遭遇麻烦。你可通过补充网格、区域、描绘、尺寸和相关标识符来强化它。

用纯英文描述你想要看到的内容,赋予风格、艺术家、角色、服装,然后交给机器。它会输出融合风格、叠加艺术风格并植入角色的图像。你还可以提供网格、偏移、角度等,它很可能理解你的意图。
负向提示词按重要性从高到低,按顺序列出你不想看到的一切。

请查阅标签文档,获取特别训练和关键注意力转移标签。

请谨慎,极其小心你输入的内容。

它本质上是个笨拙的Flux。它会给你你想要的,但有时你也会得到“猴爪”的代价。

它按顺序构建。

  • 你提示词中所有前面的内容,都对后面的内容拥有优先权。有些标签自带包袱,有些则没有。

  • 使用纯英文效果极其强大,专门设计为便于使用。

  • 此功能尚未完全稳定,因为这是版本3的指导目标之一未达成的部分;但它确实具有极强的效果。

  • 在时间步4到8之间有极轻微的打乱训练,其余全部基于顺序访问。我将在下个版本中加入更多专门设计的时间步训练,使用打乱训练来转移注意力,通过更多图像提升细节。

  • 我已标记以下时间步:

    • 12-16

    • 22-24

    • 30-36

    • 41-50

    这些时间步专为下个版本设计,用于注意力转移、上下文微调,以及按顺序精确引入补充细节。也就是打乱训练和质量增强训练步骤。任何重叠部分都不会受影响,因为数据会相互补充。

  • 在使用时间步控制时,此模型在 COMFYUI 中具有极高的效力;尤其是在使用 CLIP_L 和 CLIP_G 提示时。

  • 这个蛋糕的配方并不简单。事实上,我认为这是我做过的最复杂、最精心策划的模型。它既展现了伟大的成就——包括成功的实验和为社区提供的新证明;也呈现了某些最严重的失败、最痛苦的错误假设,以及我见过的最令人痛苦的画面。

  • 对于此版本

    • 0-1000 全微调基线 -> 全微调,LoCoN 全量,LOHA 全量,Dreambooth 和 LORA 均使用。

      • CLIP_L 训练,CLIP_G 冻结。

      • 5,000,000 个样本,

      • 57k 张图像;1/3 动漫,1/3 写实,1/3 3D

        • grid -> 未采用

        • hagrid -> 未采用

        • 姿势 -> 表现极好

        • 人体形态 -> 表现极好

        • AI 生成 -> 表现极好

    • 1-999 第一轮 img2img 训练 -> 注意力训练占一半,Dreambooth 占一半

      • 启用 CLIP_G 训练。

      • 200,000 个样本,

      • 51k 张图像;精简了第一组数据,移除了大量恋物癖和不良图像

        • 移除了大量因手部模糊的 hagrid 图像

          • 许多分类被完全移除,需重新标注
        • 移除了所有被标记为“非常不悦”的 AI 生成图像

    • 10-20 第一轮洗牌 -> 仅注意力训练 -> 仅 LOKR 训练,5 个不同设置版本

      • 提高 CLIP_L 和 CLIP_G 的学习率

      • 1,000,000 个样本,无英文标注

      • 75k 张图像 ->

        • 增加了混合安全/可疑/明确的 3D 数据集

          • 完整姿势角度集、完整艺术家集、完整恋物癖集
        • 完全移除 AI 生成图像

    • 10-990 第二轮洗牌 -> 全微调,使用 LOHA、LoCoN

      • 降低 CLIP_L 和 CLIP_G 的学习率

      • 150,000 个样本,无英文标注

      • 115k 张图像

        • 增加了混合安全/可疑/明确/NSFW 动漫数据集

        • 完全移除 hagrid,为第 3 版本重新规划

    • 2-8 第二轮英文一致性 > 仅注意力训练,高度倾向目标

      • CLIP_L 和 CLIP_G 使用高学习率

      • 800,000 个样本

      • 8k 张图像,专门针对英文描述及网格/偏移/深度优化

        • 禁用分桶和裁剪;尺寸为 1024x1024、768x768、1216x1216、832x1216、1216x832、512x512

        • 网格训练旨在作为绑定剂

    • 8-992 第三轮英文一致性,低学习率 -> 全微调

      • CLIP_L 和 CLIP_G 使用正常学习率 -> 已趋于稳定

      • 800,000 个样本

      • 140k 张图像,专门针对英文描述和上下文优化

      • 重新启用分桶

    • 1-999 最终轮次“烧制”-> 全微调,学习率极低(原始的 1/10)

      • CLIP_L 和 CLIP_G 现在协同工作,而非相互冲突

      • 200 万样本,极低学习率,所有标注和标签

      • 所有图像(包括之前排除的)均被纳入,唯独排除 hagrid

      • 以完整周期训练整个数据集,而非课程学习

      • 我估计大约使用了 30 万张图像左右

在使用“安全”提示时,你可能会看到一些 NSFW 元素

  • 即使使用可疑/明确/NSFW 的负向提示,这种情况目前仍较罕见。若看到这类内容,无需担心它会对下一版本产生负面影响——我已为下一版本准备了整整一百万张安全图像,以确保此类情况绝不再发生,除非提示者主动要求

  • 许多女性形态是专门以裸体方式训练的,服装是基于序列学习模式和时间步进行后置叠加的。这可能导致你的预览采样器在图像清洁前显示裸体、扭曲、畸形等现象。

  • 请注意,图像可能不会完全清理干净,但如果你使用单次通过的 ComfyUI,它生成速度极快;若某次结果不理想,只需切换下一个种子。有可能只是你尚未命中正确的种子。

观察图像生成过程常像幻灯片放映

  • 这是完全有意为之。部分图像可能令人不安,若你在幻灯片中看到任何不适内容,我深表歉意。最终轮次对它们造成了一些损伤,但尚未完全融合,因此在提示 NSFW 元素时请务必谨慎。

  • 下一版本将对“安全”标签进行全微调,以确保这些元素只有在被明确提示时才会叠加;但目前请继续使用负向提示。

谨慎筛选 NSFW 提示

  • 常出现生殖器、扭曲、物体、多余肢体等。若你开始看到此类特征固化,可在正向提示中使用“censored”(已审查),这是一个专为此目的设计的偏移标签。

  • 它将审查生殖器和乳头。若仍出现,可明确指定你希望审查的位置:

    • grid_a3 censored nipple —— 它会理解,若不配合尺寸标签,概念仍会渗透至图像中;请将此写入正向提示

    • nipple, nudity, nude 写入负向提示

    • 会消失

  • SDXL 的训练中内置了许多恐怖片元素。你可以明显看出它接受了 IMDB 数据集的训练,这常损害图像质量,甚至引入恐怖元素。最令人头疼的是试图消除“年龄”标签。我不知道他们用了什么标注方式,但我至今未能成功处理。

  • 若看到恐怖或年龄相关元素,可使用负向提示:futanari, femboy, loli, shota, horror, monster, gross, blood, gore, saw, ghost, paranormal,大多数由 IMDB 恐怖数据及 SDXL 内置训练造成的伪影将随之消失。

    • 本版本对此我无能为力,我已尝试数种“烧除”方法,结果反而损害整体效果,因此我需要另寻解决方案。

    • 我曾尝试在这些标签中加入虚假图像,结果却导致我训练的所有内容都与恐怖标签关联,生成出一个极度恐怖的版本——我绝不会发布它。

      • 不过我现在知道如何制作更酷的万圣节 LoRA 了,这倒不错。
    • 对此我深表歉意——我通常对这类响应非常谨慎,但此次我尚无法完全控制 SDXL 的每个元素。我需要更多研究与测试。

  • 若出现生殖器,直接负向提示即可。阴茎是最常出现的,只需负向提示,它就会消失。它也清楚大多数安全套、性玩具等事物;若“可疑、明确、NSFW”负向提示无效,你可以直接负向提示所有相关项。

    • 可将 "penis, vagina, penetration, sex toy, dildo" 等关键词加入负向提示,几乎可确保它们不会出现;但若在正向提示中同时出现,它们仍可能生成,尤其在某些艺术家风格中图像数量极多,需谨慎。

NSFW 元素可能极其恐怖。

  • 此版本的 NSFW 提示尚不能很好地处理复杂的纯英文场景,但能工作。

  • 请保持纯英文提示简短,并坚持使用 Booru 和 Sim 标签。若目标是获得尚可的 NSFW 上下文,这是可行的,但尚无足够连贯性和保真度值得炫耀。

  • 可尝试添加一两种风格、一些艺术家等,适度引导模型朝你希望的方向发展。若艺术家在数据集中,效果通常不错;否则可尝试列表中更强的几位。

  • 若你希望获得一个简易的色情生成器,简单提示或许可行,但越复杂或越依赖纯英文描述,结果就越可能变成怪诞的怪物。

精简版:

  • ComfyUI 指南与工作流

  • 完整标签列表及数量

  • 过度处理部分

  • 处理不足部分

  • 缓存损坏耗时

误提前发布。已获取者请勿传播;若必须分享,请自行承担。

正式发布时间为下午5点。→ 预计剩余 11 小时

由于本版本未能达标 V3 的各项标准,我决定将其定为完整版 V2 发布。它已尽可能达到当前数据集的能力极限,因此我需要将数据集扩大至近 3 到 4 倍,以填补必要的缺失信息——这意味着我们需要 150 万到 300 万张图像,大约相当于一个大型 Booru 的三分之一。

要获取如此大量的、可识别和可分割的数据,我必须采样我能找到的所有数据库,包括 Fashion、IMDB 以及其他任何我能获取的数据。若想让这个模型变得“聪明”,它必须知道万物及其位置,因为它目前仍极度缺乏数据。

我将开始在 Hugging Face 上以 tar parquet 格式托管这些完全标注和准备好的数据集,以便我的自定义工具 Cheesechaser 能为你抓取。

我会像往常一样对真人进行“模糊面部”处理,这也是为什么有些人会变成动漫角色。SDXL 已内置大量此类处理,显然它接受过 IMDB 数据集的训练,所以我清楚哪些内容可通过负向提示“削弱”。

SDXL-SimulacrumV25β

当前处于第 65 轮训练 →

约 750 万样本。

预览图展示了有意为之的风格与系列渗透,完全符合预期。

有多少模型因“某物压倒另一物”而难以微调?本模型不会。所有部分均被设计为易于微调。

目前已达成 85/100 项标准。预计明天或后天完成。

生成建议:
DPM-2M-SDE
-> BETA / KARRAS
-> 步数 14-50 -> 50
-> CFG 4.5-8.5 -> 6.5

DPM-2S-Ancestral
-> BETA / KARRAS
-> 步数 32
-> CFG 5 - 8 -> 6

DPM-2M
-> BETA / KARRAS
-> 步数 20-40 -> 40
-> CFG 7 -> 7

Euler 效果不佳。

提示基础如下:

<CAPTIONS HERE>

good aesthetic, very aesthetic, most aesthetic, masterpiece,
anime, 
<CHARACTERS HERE>

<ACTION CAPTIONS HERE>

<OFFSETS AND GRID GO HERE>

<CHARACTER TRAITS HERE>

highres, absurdres, newest, 2010s

本版本请勿超过 75 个 token。CLIP_L 虽训练过 225,但其智能程度仍不足。

这有助于提升多数图像质量。

good aesthetic, very aesthetic, most aesthetic, masterpiece,

简要提示:请使用以下负向提示作为起点。

lowres,
nsfw, explicit, questionable, 
displeasing, very displeasing, disgusting, 

text, size_f text, size_h text, size_q text,
censored, censor bar,
monochrome, greyscale, 
bad anatomy, ai-generated, ai generated, jewelry,

watermark, 
hand, 
blurry hand,
bad hands, missing digit, extra digit, 
extra arm, missing arm, 
convenient arm, convenient leg, 
arm over shoulder, 
synthetic_woman,

精简负向提示:自行承担风险。

lowres, 
displeasing, very displeasing, disgusting, 

text, 
monochrome, greyscale, comic, 
synthetic_woman,

致谢与链接:

  • 特别感谢 DeepGHS 的所有人,感谢他们在工具、AI 和数据集整理与组织方面的辛勤工作。

  • Flux1D / Flux1S 链接

  • SDXL 1.0 链接

  • OpenClip 训练器 链接

  • Kohya SS GUI /// SD-Scripts

  • 图像来源或由以下工具生成:

    • Cheesechaser 链接

      • Safebooru

      • Gelbooru

      • R34xxx/R34us

      • 3dBooru

      • Realbooru -> 模糊面部

    • ImageGrabber 链接

  • 使用的超出范围数据集:

  • 部分使用以下标注软件准备:

    • ImgUtils 链接

      • 使用了本包内所有可用 AI 及更多工具

      • 边界框:

        • BooruS11

        • BooruPP

        • People

        • Faces

        • Eyes

        • Heads

        • HalfBody

  • 裸体

  • 文本

  • TextOCR

  • Hagrid

  • 审查

  • DepthMidas

  • SegmentAnything YoloV8

  • 分类

    • 美学

    • AI检测

    • NSFW检测器

    • 单色检查器

    • 灰度检查器

    • 真实或动漫

    • 动漫风格或年龄 -> 基于年份

    • 截断

  • Hagrid 链接

  • MiDaS 链接

  • Wd14 链接

  • Wd14 Large 链接

  • MLBooru 链接

文本生成

此模型生成的图像

未找到图像。