Simulacrum V3-V38 [F1D/F1DD/F1D2] [SFW/NSFW]
详情
下载文件
关于此版本
模型描述
安全版本提示:
steps: 50
cfg 1,蒸馏 cfg 3.5-5
euler < simple/normal
使用三法则 提出朴素英语描述,然后在任何你觉得合适的地方添加 booru 标签。它们并不像自然语言那样运作。
一个苹果放在房间的桌子上,一,二,三。
一个苹果放在房间的桌子上。一个房子中的房间,一个城市中的房子。一个国家中的州,一个州中的城市。
坚持这个方法,你在自然语言上应该就没什么问题了。
示例提示 1:
safe, anime,
一个女孩坐在房间里的巨大苹果上

safe, anime,
一张贴纸,显示一个坐着的女孩贴在房间中巨大苹果的侧面
---
safe, anime,
一个穿着青蛙服装的女孩的贴纸,贴在桌子上三维苹果的侧面,苹果贴纸,紫色头发,贴纸上写着“wibbit!”

一个苹果被外星人入侵,放在房间的桌子上。一个房子中的房间,一个城市中的房子。一个国家中的州,一个州中的城市。

(一个被外星人入侵的苹果:1.2) 放在房间的桌子上。(一个果冻做的房间:1.3) 位于羊毛房子里的城市。(一个羊毛城市:1.3) 在一个州,一个国家中。

safe,
一个穿着青蛙服装的女孩的贴纸,贴在桌子上三维苹果的侧面,苹果贴纸,紫色头发,贴纸上写着“wibbit!”,
(一个被外星人入侵的苹果:1.2) 放在房间的桌子上。(一个果冻做的房间:1.3) 位于羊毛房子里的城市。(一个羊毛城市:1.3) 在一个州,一个国家中。

如你所见,“三法则”适用于大约第五层的分离关系,之后就开始崩溃并混杂在一起。这是标准的 AI 表现。
不要对 NSFW 版本太执着~!
我正启动一次完整的 NSFW 重新训练,使用 50,000 张高质量、高保真、写实、3D 和动漫图像;每类约 5,000 张。这两组数据如同油和水,我需要它们在没有催化剂的情况下也能混合。
从最终阶段的版本 4 开始,所有未来的训练都将使用一种新的标签风格,与旧风格结合,包含针对单个标签的偏移检测:
左上、中上、右上,
左中、中中、右中
左下、中下、右下
- 这些标签专门选择,以避免标准的 booru 概念,并在 T5 中实现场景内偏移关联的重叠。
尺寸标签
全画面
中等
最小
- 这三个标签将与偏移标签结合使用,以确保图像的稳定性;其中一些带有 booru 标签,故意与当前训练混杂。
美学标签
厌恶 < 5%
非常不悦 < 20%
不悦 < 35%
< 50%
美学 < 65%
非常美学 < 85%
剪枝
单色
灰度
无效图像
移除的标签
"tagme", "bad pixiv id", "bad source", "bad id", "bad tag", "bad translation", "untranslated*", "translation*", "larger resolution available", "source request", "*commentary*", "video", "animated", "animated gif", "animated webm", "protected link", "paid reward available", "audible music", "sound", "60+fps", "artist request", "collaboration request", "original", "girl on top", "boy on top",- 这些标签毫无用处。我的标签系统具备通配符功能,可用于标签的移除或包含/排除。
模板:
"{rating}", "{core}", "{artist}", "{characters}", "{character_count}", "{gender}", "{species}", "{series}", "{photograph}", "{substitute}", "{general}", "{unknown}", "{metadata}", "{aesthetic}"此模板基于以下网站的完整合并标签列表:
- safebooru, gelbooru, danbooru, e621, rule34xxx, rule34paheal, rule34us
所有非匹配别名被标准化为单一标签。
所有未出现在这些列表中的标签将自动移至“unknown”。
所有文字说明将自动置于所有这些标签之上。
我将使用 SafeFixers Epoch40 作为此次新训练的基础。
Safe Fixers 展示了卓越的上下文感知能力和系统控制力,在两块 4090 上慢煮近两周,更接近于朝向 Flux 基础方向的真正演进。
性爱包则表现出相反的特点:高破坏性、差混合、差 LoRA 关联,以及较弱的上下文控制。由于目标是保持上下文,结果必须转向基础的“SAFE”方向,这意味着我将使用 NSFW 图像对安全版本进行微调。
关键差异:
性爱包使用 A100 在快速训练中以 15,000 张平均源图像训练至 epoch 5,审查结果显示图像质量参差不齐。出现了单色、灰度、线稿、真正的 AI 毒素、长篇漫画,以及一些需要花时间剔除的缺陷图像。
Safe Fixers 使用 15,000 张高保真、高评分的人工创作(主要为)动漫图像训练至 epoch 40。其质量展现出卓越的上下文感知与控制力,这在混合概念时不可忽视。
即使在 epoch 5,性爱包已经过于破坏性,无法继续训练;而 Safe Fixers 却稳定地坚持到了 epoch 40。
学习经验:
在处理这两组数据包的过程中,我学到了一个至关重要的要素:
图像尺寸无法在每个设备上都可靠地进行分桶。
我开发了一款软件用于调整尺寸
剪裁过高或过宽的图像
进行损坏、有效性与合理性检查,以识别图像炸弹和隐藏的损坏下载,否则直到训练程序花费了 $100 的沉没成本时才会被发现。
标签顺序至关重要。系统在标签按特定顺序排列以构建特定场景时,更能理解它们。
我已定制了内部标签软件,确保从今往后标签顺序符合特定范式。
我已开始为所有内容打上美学和质量标签。
非常美学 - 0.9^
美学 - 0.6 ^
不悦
非常不悦
自动化 NSFW 检测。
即将到来的前 10,000 张最高质量微调 - 学习率 0.000033:
这标志着版本 4 的核心训练正式开始,0.000033 将成为版本 4 的标准,直至版本 5。我将使用当前 TE 学习率的三分之一用于 CLIP_L,即 0.000000333。
我获得了一批极高质的图像包,大部分为 AI 生成,是我见过的图像基线质量最高的之一。
目前,存在大量可提升的信息,当我看到几乎空洞的角色、单色、灰度等在特定 token 阈值出现时,我就能察觉到。
由于修复、解剖修正与内容增补已足够坚实,是时候将姿势和核心模型提升至专业级质量了,这是我最初在模型启动时就计划引入的,但 Flux 在这一方面进行了顽强抵抗,因此花了很长时间才突破我期望的上下文点。
此版本已达到大多数期望的上下文标志,因此从今天起,LoRA 堆栈已被合并为一个整体——混合版本。
此模型的鲁棒性非常高,因为它已经经历了相当于小学的教育。现在是时候进入真正的学术阶段,送它去高中学习“大男孩”关联与“大男孩”数字了。
三模型重磅发布 - 2024 年 11 月 2 日上午 9:54(GMT-7):
三种新模型现可使用;
每个模型主要针对 Flux1D,而非 Flux1D-DeDistilled。在我达到某种分歧点后,DeDistilled 的结果看起来非常糟糕。主模型已回归 Flux1D,直到核心发展到 Flux1D 实际上会损害它时,我们才需要改名。
不要对这些模型进行训练。我尚未确定一致的核心,因此目前仅用于体验。
safe - 深度训练的安全标签
更多展示图见此处:https://civitai.com/articles/8401/simulacrum-v38-safe-e30-teaser-2-electric-boogaloo
深度训练的安全包正在全力运行,功率为 80%,性爱包被排除在外。
我对结果非常满意。它已经训练了一周。
整个安全包基于艺术风格、艺术家和大量预期且有趣的元素,绝非为性内容设计。
你仍可控制角色姿势、移动角色等。
适用于创作艺术、漫画、报纸剪报、图像修复等。
explicit - 深度训练的明确标签
包含极低强度的安全包内容,专用于性姿势与性行为。目标是引入性核心元素,尽管可能效果不佳,未来仍需重新训练。
但目前玩起来应该很有趣。
如果你仔细观察我生成的图像,会发现它们与 Simulacrum 核心非常相似,这表明它依然存在、依然强大,并持续改进基础姿势与模型本身。
这是坚实核心的标志。
mix
- 两个包以高功率混合并合并。预期结果不确定,但乐趣十足。
将《爱经》喂给 Simulacrum - 2024 年 10 月 28 日晚 7 点(GMT-7):
我已开始将第一批 15,000 张性姿势图像输入模型,包含来自多种角度、多种原型与角色的姿势序列。
标签混合了 danbooru、gelbooru、rule34xxx 和 rule34us。我已标准化许多,但决定不标准化 rule34us 和 rule34xxx 带来的大量冷门标签。我认为这种方式能产生更多有趣的产出。
这是性爱包 2 的五个阶段中的第一阶段:第一阶段为教育,第二阶段为填充,第三阶段为修复与微调,第四阶段为公开测试,第五阶段为完全集成至核心模型。
性爱包 1 主要聚焦于狗爬式(功率约 0.7,即将提升至满功率),并已直接集成进 Simv3,我相信很多人已经注意到了。很快将发布一个超级 NSFW 版本,以及一个因“安全”包训练而发布的安全版本。
我秘密发布了它,因为它只是 35 个姿势中的一个,但它是一个成功测试,需要扩展。

“安全”版本是一个完全独立的模型,更注重艺术与风格化,主要用于 SFW 身体整合,而非其对应版本,但仍支持与它大胆的 NSFW 对应版本相同的元素与部件。
当前版本是一个混合体,将成为未来版本的核心模型,最终将包含所有性姿势,并为对应版本提供安全优化。
獸人部分的数据训练即将开始。我目前已收集约 200 种物种,每种超过 1000 张图像。标签差异较大,只要确保某些标签不交叉污染,交叉污染风险极低,同时仍赋予其生成 1girl、1boy、2girls 等标签的能力。合适的标签公式对正常运行至关重要。
构建毛茸茸的核心有点令人生畏,因为我对这些标签整体上了解不多,但我愿意接受这个挑战并快速学习。
比赛即将结束,请提交你的最终作品。
我悬赏了5万热度,邀请有人为我制作一个吉祥物。
https://civitai.com/bounties/5177
如果你想要那笔热度,就赶紧动手吧。
主要图像集是 ANIME<<<
Dev1 = 极佳上下文 + 更快
Dev1Distilled = 疯狂高上下文 + 更高质量
它在迁移到其他内容时表现得非常好。核心真实感模型在额外训练后仍保持完好,这证明了训练方法的可行性。如需了解如何自行制作,请查阅我发布的50份分散指南之一。
我最近已将最重要的关键信息映射到动态流顶部。
正如你所见,使用相同提示词和种子时,1dev 生成的结果远不如 DeDistilled 那样上下文控制稳定;但生成速度更快,因此请根据你的需求权衡取舍。
今晚我也发布了压缩版的 Flux1D。我已经没有精力再做更多了。另外,目前还没有提供 LORA,抱歉。我正在为如何将一个庞大的 64 维 128 alpha 模型,与我合并成此模型的两个较小模型(32 维 64 alpha 和 16 维 32 alpha)安全融合而头疼。我会持续向大家通报我在安全融合方面的研究进展。
目前,我正在两台租用的 4090 显卡上运行一个包含一万个图像的安全训练任务,预计耗时超过一周。现在我已经考虑干脆自己买几台了。
我重新生成了下方 DeDistilled 的部分低质量真实图像。请在较低的 CFG 下使用“放大修复”功能,以生成相似质量的图像。这并非每次都成功,但确实能很好地保持上下文。
运行 DeBlurr LORA。它能消除人们一直称之为“褪色”的效果,但实际上这只是 T5 干扰了 Flux 的景深所致,我称之为“固定干扰”。
在 UNET + CLIP_L 上训练 LORA,T5 可从任何地方获取。
你还记得那个旧版 Consistency Version 3 吗?现在它才真正呈现出应有的样子。大家尽情享受吧,下方是生成设置。
NSFW 控制器现在表现相当出色。下一批将使用一万张 safebooru 图像,以巩固“safe”标签的使用;但目前系统只是简单地“给画面贴上安全标签”。
你可以直接提示 NSFW 元素,或使用“explicit”标签强制触发它们。
目前有三种主要训练类型:写实、动漫和 3D。你可以在提示词的任意位置随时指定其中一种,强制让图像呈现该风格,或将其扩散到整张画面。截至目前,已使用超过 35,000 张图像和超过 850,000 步进行训练。我大致数了数。
这是四个独立 LORA 的堆叠,它们均直接基于 Simulacrum Flux1D2 V23 合并模型,使用 Flux1D2 训练而成;
我今天早上发布了一篇关于如何制作它的文章。https://civitai.com/articles/8311/flux1d2-training-guide-making-base-models-and-merging-loras-hurts 所有 LORA 均设计为直接与 DeDistilled 推理配合使用。结果……几乎能生成我想象出的一切。某些部分仍需手动调优,但大部分功能都能正常运行。构建世界,打破世界,用汉堡做成的屁股和胸脯,用奶酪做的鸡巴,都没人在乎。这是你的世界,你来创造它。
设置:
这些设置专属于此 DeDistilled 模型;
若你看到“重叠层”,请增加步数。两个系统中存在相互矛盾的训练内容,因此在完成两百万图像微调前,请预期出现一些奇怪的现象。
DeDistilled 设置:
对于写实风格:
步数:35–50
CFG:6.5–9
对于动漫风格:
步数:20–30
CFG:4–7
flux CFG 0 << 可调整至约 1.5,再高会出现严重退化。
euler < simple/normal 是我最喜欢的。经过大量训练后,可能还有其他未测试过的采样器可用。
<<< 无关紧要。可任意设置尺寸。分桶训练已处理好一切。256 至 2048,使用来自各处的 35,000 张图像。尺寸过大时会生成多张图像,过小可能无法生成任何内容。
1D 基础设置:
对于写实风格:
步数:20–40
CFG:1
flux CFG:3–5(推荐 3.5)
动漫风格同理,步数可自行增减。
使用 euler < simple/normal
<<< 无关紧要。可任意设置尺寸。分桶训练已处理好一切。256 至 2048,使用来自各处的 35,000 张图像。尺寸过大时会生成多张图像,过小可能无法生成任何内容。
实验表明,无论使用哪个模型,在 25 步、euler simple/normal 采样器下,将 768x768 图像放大至 1024x1024 均能获得良好效果。
更多生成技巧,包括标签列表,请参见此链接。LORA 组合将很快上传,包括单个 LORA 及将其压缩为此精确模型的配方。

