Simulacrum V3-V38 [F1D/F1DD/F1D2] [SFW/NSFW]

详情

模型描述

安全版本提示:

  • steps: 50

  • cfg 1,蒸馏 cfg 3.5-5

  • euler < simple/normal

  • 使用三法则 提出朴素英语描述,然后在任何你觉得合适的地方添加 booru 标签。它们并不像自然语言那样运作。

  • 一个苹果放在房间的桌子上,一,二,三。

  • 一个苹果放在房间的桌子上。一个房子中的房间,一个城市中的房子。一个国家中的州,一个州中的城市。

  • 坚持这个方法,你在自然语言上应该就没什么问题了。

  • 示例提示 1:

safe, anime,

一个女孩坐在房间里的巨大苹果上

safe, anime,

一张贴纸,显示一个坐着的女孩贴在房间中巨大苹果的侧面

---

safe, anime,

一个穿着青蛙服装的女孩的贴纸,贴在桌子上三维苹果的侧面,苹果贴纸,紫色头发,贴纸上写着“wibbit!”

一个苹果被外星人入侵,放在房间的桌子上。一个房子中的房间,一个城市中的房子。一个国家中的州,一个州中的城市。

(一个被外星人入侵的苹果:1.2) 放在房间的桌子上。(一个果冻做的房间:1.3) 位于羊毛房子里的城市。(一个羊毛城市:1.3) 在一个州,一个国家中。

safe,

一个穿着青蛙服装的女孩的贴纸,贴在桌子上三维苹果的侧面,苹果贴纸,紫色头发,贴纸上写着“wibbit!”,

(一个被外星人入侵的苹果:1.2) 放在房间的桌子上。(一个果冻做的房间:1.3) 位于羊毛房子里的城市。(一个羊毛城市:1.3) 在一个州,一个国家中。

如你所见,“三法则”适用于大约第五层的分离关系,之后就开始崩溃并混杂在一起。这是标准的 AI 表现。

不要对 NSFW 版本太执着~!

  • 我正启动一次完整的 NSFW 重新训练,使用 50,000 张高质量、高保真、写实、3D 和动漫图像;每类约 5,000 张。这两组数据如同油和水,我需要它们在没有催化剂的情况下也能混合。

  • 从最终阶段的版本 4 开始,所有未来的训练都将使用一种新的标签风格,与旧风格结合,包含针对单个标签的偏移检测:

    • 左上、中上、右上,

    • 左中、中中、右中

    • 左下、中下、右下

      • 这些标签专门选择,以避免标准的 booru 概念,并在 T5 中实现场景内偏移关联的重叠。
  • 尺寸标签

    • 全画面

    • 中等

    • 最小

      • 这三个标签将与偏移标签结合使用,以确保图像的稳定性;其中一些带有 booru 标签,故意与当前训练混杂。
  • 美学标签

    • 厌恶 < 5%

    • 非常不悦 < 20%

    • 不悦 < 35%

    • < 50%

    • 美学 < 65%

    • 非常美学 < 85%

  • 剪枝

    • 单色

    • 灰度

    • 无效图像

  • 移除的标签

    "tagme",
    "bad pixiv id",
    "bad source",
    "bad id",
    "bad tag",
    "bad translation",
    "untranslated*",
    "translation*",
    "larger resolution available",
    "source request",
    "*commentary*",
    "video",
    "animated",
    "animated gif",
    "animated webm",
    "protected link",
    "paid reward available",
    "audible music",
    "sound",
    "60+fps",
    "artist request",
    "collaboration request",
    "original",
    "girl on top",
    "boy on top",
    
    • 这些标签毫无用处。我的标签系统具备通配符功能,可用于标签的移除或包含/排除。
  • 模板:

    "{rating}",
    "{core}",
    "{artist}",
    "{characters}",
    "{character_count}",
    "{gender}",
    "{species}",
    "{series}",
    "{photograph}",
    "{substitute}",
    "{general}",
    "{unknown}",
    "{metadata}",
    "{aesthetic}"
    
    • 此模板基于以下网站的完整合并标签列表:

      • safebooru, gelbooru, danbooru, e621, rule34xxx, rule34paheal, rule34us
    • 所有非匹配别名被标准化为单一标签。

    • 所有未出现在这些列表中的标签将自动移至“unknown”。

    • 所有文字说明将自动置于所有这些标签之上。

  • 我将使用 SafeFixers Epoch40 作为此次新训练的基础。

  • Safe Fixers 展示了卓越的上下文感知能力和系统控制力,在两块 4090 上慢煮近两周,更接近于朝向 Flux 基础方向的真正演进。

  • 性爱包则表现出相反的特点:高破坏性、差混合、差 LoRA 关联,以及较弱的上下文控制。由于目标是保持上下文,结果必须转向基础的“SAFE”方向,这意味着我将使用 NSFW 图像对安全版本进行微调。

  • 关键差异:

    • 性爱包使用 A100 在快速训练中以 15,000 张平均源图像训练至 epoch 5,审查结果显示图像质量参差不齐。出现了单色、灰度、线稿、真正的 AI 毒素、长篇漫画,以及一些需要花时间剔除的缺陷图像。

    • Safe Fixers 使用 15,000 张高保真、高评分的人工创作(主要为)动漫图像训练至 epoch 40。其质量展现出卓越的上下文感知与控制力,这在混合概念时不可忽视。

    • 即使在 epoch 5,性爱包已经过于破坏性,无法继续训练;而 Safe Fixers 却稳定地坚持到了 epoch 40。

  • 学习经验:

    • 在处理这两组数据包的过程中,我学到了一个至关重要的要素:

      1. 图像尺寸无法在每个设备上都可靠地进行分桶。

        • 我开发了一款软件用于调整尺寸

        • 剪裁过高或过宽的图像

        • 进行损坏、有效性与合理性检查,以识别图像炸弹和隐藏的损坏下载,否则直到训练程序花费了 $100 的沉没成本时才会被发现。

      2. 标签顺序至关重要。系统在标签按特定顺序排列以构建特定场景时,更能理解它们。

        • 我已定制了内部标签软件,确保从今往后标签顺序符合特定范式。

        • 我已开始为所有内容打上美学和质量标签。

          • 非常美学 - 0.9^

          • 美学 - 0.6 ^

          • 不悦

          • 非常不悦

        • 自动化 NSFW 检测。

即将到来的前 10,000 张最高质量微调 - 学习率 0.000033:

  • 这标志着版本 4 的核心训练正式开始,0.000033 将成为版本 4 的标准,直至版本 5。我将使用当前 TE 学习率的三分之一用于 CLIP_L,即 0.000000333。

  • 我获得了一批极高质的图像包,大部分为 AI 生成,是我见过的图像基线质量最高的之一。

  • 目前,存在大量可提升的信息,当我看到几乎空洞的角色、单色、灰度等在特定 token 阈值出现时,我就能察觉到。

  • 由于修复、解剖修正与内容增补已足够坚实,是时候将姿势和核心模型提升至专业级质量了,这是我最初在模型启动时就计划引入的,但 Flux 在这一方面进行了顽强抵抗,因此花了很长时间才突破我期望的上下文点。

  • 此版本已达到大多数期望的上下文标志,因此从今天起,LoRA 堆栈已被合并为一个整体——混合版本。

  • 此模型的鲁棒性非常高,因为它已经经历了相当于小学的教育。现在是时候进入真正的学术阶段,送它去高中学习“大男孩”关联与“大男孩”数字了。

三模型重磅发布 - 2024 年 11 月 2 日上午 9:54(GMT-7):

  • 三种新模型现可使用;

    • 每个模型主要针对 Flux1D,而非 Flux1D-DeDistilled。在我达到某种分歧点后,DeDistilled 的结果看起来非常糟糕。主模型已回归 Flux1D,直到核心发展到 Flux1D 实际上会损害它时,我们才需要改名。

    • 不要对这些模型进行训练。我尚未确定一致的核心,因此目前仅用于体验。

  • safe - 深度训练的安全标签

    • 更多展示图见此处:https://civitai.com/articles/8401/simulacrum-v38-safe-e30-teaser-2-electric-boogaloo

    • 深度训练的安全包正在全力运行,功率为 80%,性爱包被排除在外。

    • 我对结果非常满意。它已经训练了一周。

    • 整个安全包基于艺术风格、艺术家和大量预期且有趣的元素,绝非为性内容设计。

    • 你仍可控制角色姿势、移动角色等。

    • 适用于创作艺术、漫画、报纸剪报、图像修复等。

  • explicit - 深度训练的明确标签

    • 包含极低强度的安全包内容,专用于性姿势与性行为。目标是引入性核心元素,尽管可能效果不佳,未来仍需重新训练。

    • 但目前玩起来应该很有趣。

    • 如果你仔细观察我生成的图像,会发现它们与 Simulacrum 核心非常相似,这表明它依然存在、依然强大,并持续改进基础姿势与模型本身。

    • 这是坚实核心的标志。

  • mix

    • 两个包以高功率混合并合并。预期结果不确定,但乐趣十足。

将《爱经》喂给 Simulacrum - 2024 年 10 月 28 日晚 7 点(GMT-7):

  • 我已开始将第一批 15,000 张性姿势图像输入模型,包含来自多种角度、多种原型与角色的姿势序列。

  • 标签混合了 danbooru、gelbooru、rule34xxx 和 rule34us。我已标准化许多,但决定不标准化 rule34us 和 rule34xxx 带来的大量冷门标签。我认为这种方式能产生更多有趣的产出。

  • 这是性爱包 2 的五个阶段中的第一阶段:第一阶段为教育,第二阶段为填充,第三阶段为修复与微调,第四阶段为公开测试,第五阶段为完全集成至核心模型。

  • 性爱包 1 主要聚焦于狗爬式(功率约 0.7,即将提升至满功率),并已直接集成进 Simv3,我相信很多人已经注意到了。很快将发布一个超级 NSFW 版本,以及一个因“安全”包训练而发布的安全版本。

  • 我秘密发布了它,因为它只是 35 个姿势中的一个,但它是一个成功测试,需要扩展。

  • “安全”版本是一个完全独立的模型,更注重艺术与风格化,主要用于 SFW 身体整合,而非其对应版本,但仍支持与它大胆的 NSFW 对应版本相同的元素与部件。

  • 当前版本是一个混合体,将成为未来版本的核心模型,最终将包含所有性姿势,并为对应版本提供安全优化。

  • 獸人部分的数据训练即将开始。我目前已收集约 200 种物种,每种超过 1000 张图像。标签差异较大,只要确保某些标签不交叉污染,交叉污染风险极低,同时仍赋予其生成 1girl、1boy、2girls 等标签的能力。合适的标签公式对正常运行至关重要。

构建毛茸茸的核心有点令人生畏,因为我对这些标签整体上了解不多,但我愿意接受这个挑战并快速学习。

比赛即将结束,请提交你的最终作品。

我悬赏了5万热度,邀请有人为我制作一个吉祥物。

https://civitai.com/bounties/5177

如果你想要那笔热度,就赶紧动手吧。

主要图像集是 ANIME<<<

Dev1 = 极佳上下文 + 更快

Dev1Distilled = 疯狂高上下文 + 更高质量

它在迁移到其他内容时表现得非常好。核心真实感模型在额外训练后仍保持完好,这证明了训练方法的可行性。如需了解如何自行制作,请查阅我发布的50份分散指南之一。


/model/803213

我最近已将最重要的关键信息映射到动态流顶部。


正如你所见,使用相同提示词和种子时,1dev 生成的结果远不如 DeDistilled 那样上下文控制稳定;但生成速度更快,因此请根据你的需求权衡取舍。

今晚我也发布了压缩版的 Flux1D。我已经没有精力再做更多了。另外,目前还没有提供 LORA,抱歉。我正在为如何将一个庞大的 64 维 128 alpha 模型,与我合并成此模型的两个较小模型(32 维 64 alpha 和 16 维 32 alpha)安全融合而头疼。我会持续向大家通报我在安全融合方面的研究进展。

目前,我正在两台租用的 4090 显卡上运行一个包含一万个图像的安全训练任务,预计耗时超过一周。现在我已经考虑干脆自己买几台了。

我重新生成了下方 DeDistilled 的部分低质量真实图像。请在较低的 CFG 下使用“放大修复”功能,以生成相似质量的图像。这并非每次都成功,但确实能很好地保持上下文。

运行 DeBlurr LORA。它能消除人们一直称之为“褪色”的效果,但实际上这只是 T5 干扰了 Flux 的景深所致,我称之为“固定干扰”。

在 UNET + CLIP_L 上训练 LORA,T5 可从任何地方获取。

你还记得那个旧版 Consistency Version 3 吗?现在它才真正呈现出应有的样子。大家尽情享受吧,下方是生成设置。

NSFW 控制器现在表现相当出色。下一批将使用一万张 safebooru 图像,以巩固“safe”标签的使用;但目前系统只是简单地“给画面贴上安全标签”。

你可以直接提示 NSFW 元素,或使用“explicit”标签强制触发它们。

目前有三种主要训练类型:写实、动漫和 3D。你可以在提示词的任意位置随时指定其中一种,强制让图像呈现该风格,或将其扩散到整张画面。截至目前,已使用超过 35,000 张图像和超过 850,000 步进行训练。我大致数了数。

这是四个独立 LORA 的堆叠,它们均直接基于 Simulacrum Flux1D2 V23 合并模型,使用 Flux1D2 训练而成;

我今天早上发布了一篇关于如何制作它的文章。https://civitai.com/articles/8311/flux1d2-training-guide-making-base-models-and-merging-loras-hurts 所有 LORA 均设计为直接与 DeDistilled 推理配合使用。结果……几乎能生成我想象出的一切。某些部分仍需手动调优,但大部分功能都能正常运行。构建世界,打破世界,用汉堡做成的屁股和胸脯,用奶酪做的鸡巴,都没人在乎。这是你的世界,你来创造它。

设置:

这些设置专属于此 DeDistilled 模型;

若你看到“重叠层”,请增加步数。两个系统中存在相互矛盾的训练内容,因此在完成两百万图像微调前,请预期出现一些奇怪的现象。

DeDistilled 设置:

  • 对于写实风格:

    • 步数:35–50

    • CFG:6.5–9

  • 对于动漫风格:

    • 步数:20–30

    • CFG:4–7

  • flux CFG 0 << 可调整至约 1.5,再高会出现严重退化。

  • euler < simple/normal 是我最喜欢的。经过大量训练后,可能还有其他未测试过的采样器可用。

  • <<< 无关紧要。可任意设置尺寸。分桶训练已处理好一切。256 至 2048,使用来自各处的 35,000 张图像。尺寸过大时会生成多张图像,过小可能无法生成任何内容。

1D 基础设置:

  • 对于写实风格:

    • 步数:20–40

    • CFG:1

    • flux CFG:3–5(推荐 3.5)

  • 动漫风格同理,步数可自行增减。

  • 使用 euler < simple/normal

  • <<< 无关紧要。可任意设置尺寸。分桶训练已处理好一切。256 至 2048,使用来自各处的 35,000 张图像。尺寸过大时会生成多张图像,过小可能无法生成任何内容。

实验表明,无论使用哪个模型,在 25 步、euler simple/normal 采样器下,将 768x768 图像放大至 1024x1024 均能获得良好效果。

/model/803213

更多生成技巧,包括标签列表,请参见此链接。LORA 组合将很快上传,包括单个 LORA 及将其压缩为此精确模型的配方。

此模型生成的图像

未找到图像。