LORA - Consistency Simulacrum v2.3 - Flux1D [SFW/NSFW]
详情
下载文件
关于此版本
模型描述
版本3不错,但我仍需弄清楚如何制作一个合适的LoRA 2024年10月25日 5:29 am GMT-7;
在下一轮微调后,我可能需要将Simulacrum LoRA恢复到早期状态,这将破坏大量基础Flux上下文。这不是我愿意做的,但由于身体已经开始不遵循核心,因此我必须这样做;我将尝试几种方法来看看能否修复:具体而言,给实际的身体和姿势本身以较低的学习率进行微调,以恢复其能力。
作为临时版本3的增强:尝试使用Simulacrum v2.1 epoch 1的LoRA与当前的v3 1d或1d-dd检查点一起运行,你会发现更优质的物理身体质量、角色上下文、服装质量和控制力,但代价是大量Flux世界背景和风格的缺失。
我正在修复问题,直到不可避免的完整微调训练开始,届时将产生LoRA差异提取。
即将发布:版本3 战役首领模型 2024年10月21日 5:12 pm GMT-7;
我仍不敢相信在8步中的第3步就这么出色了。等完全训练好后,它一定会更惊人。
我正在将核心模型从Flux1D切换为Flux DeDistilled用于推理,因为其对Simulacrum和核心系统的响应性极佳,而这些系统与我当前用于训练LoRA的Flux1D2 LoRA合并检查点配合得非常好。
我正使用Flux1D2作为基础训练模型,并已将Simulacrum v23合并到UNet和Flux所使用的基础CLIP_L中。这种组合允许快速创建Simulacrum LoRA,这意味着我可以在任何时刻将它们合并,再合并到Flux1D DeDistilled中。
从Flux1D切换到Flux1D DeDistilled实质上让我跳过了版本2的其余部分。
我将发布:
Flux1D2 与独立CLIP_L合并的版本,用于:
Simulacrum V23 epoch 10 -> 当前正在训练的版本
Simulacrum V3 -> 大合并后的下一个版本
每个LoRA都将作为独立LoRA发布,并附上训练指南,说明如何在少于400步内创建可无限合并入Simulacrum v23的LoRA。
所有这些概念均使用2000张图像在UNLR 0.0001、TE 0.000001下训练,角色则每个少于200张,UNLR 0.0003、TELR 0。
由于我正在修复它,因此需要开发者进行适当的训练修复,使角色正常工作。结果表明,引入的概念信息越多,角色就越有用。
每个LoRA均使用基础Simulacrum V23合并的Flux1D2模型训练,这意味着它们均可与Simulacrum完美协同作为独立LoRA使用。
已完成:
角色:
mizuki_shiranui_v1
android_18_v1
loona_(helluva_boss)_v1
reina_mishima_v2
delia_ketchum_v1
概念:
doggystyle_v1
female_fixes_v1
male_fixes_v1
tomboy_fixes_v1
tomgirl_fixes_v1
genital_fixes_v1
待办:
交配压
传教士式
futa修复
年龄修复与标准化
服装修复与标准化
额外修复工作
可选风格LoRA:
赛博朋克未来风格
电影导演风格
写实减弱与动漫风格
1990年代动漫风格
锐利半写实动漫风格
柔和半写实动漫风格
写实动漫风格
Bible Black风格
Taimanin风格
美式卡通风格
日式卡通风格
实验表明,LoRA可在仅100步内训练并产生结果,这在4090上大约只需5分钟(目前Kohya启动和准备训练需要较长时间)。
大约10张图片就足够了,这是标准LoRA图片数量,且足以生成角色在高度复杂姿势和位置中的表现。
我目前正在开发一系列微调,以解决缺失和缺陷特征。它们将以性姿势、基础姿势和用于更直接明确微调体型的若干角色的组合包形式发布。
- 直接解决性别混淆问题。
- 直接解决Simulacrum中嵌入的基底姿势和服装故障问题(这些在初始阶段已受损)。
- 引入一系列新姿势和概念,例如:
doggystyle、交配压、阴道、肛门等,作为单个标签,应产生除问号以外的内容。
2koma、前后、横截面、精液,以及大量其他常见生成标签。
女性生殖器产生错误的形状和尺寸。
男性生殖器方向错误、尺寸或形状异常。
肛门不存在,或肚脐被误认为肛门。
忽略的标签处理:
弯腰——目前改用“前倾”、“弯身”等。
四肢着地——由于T5影响过于强大而无法正常工作,改用“四肢着地”、“四肢爬行”等。
从背后——过于强大且无法按预期工作。
从正面——无法正常工作,需要更多微调。
当达到必要标记(包括第一轮测试后的另一系列测试和标记)时,我将发布版本3.0,并长舒一口气——它终于正常工作了。
版本2.3 Epoch 突现行为;
我能做和看到的奇怪事情清单还在不断增长,从合并肢体,到将人合并入物体,再到将墙与墙合并,等等。
1DEV 设置:
CLIP_L - 150 tokens
步骤 25-50
CFG 1
DCFG 3.2-5.5(我常用3.5)
Euler < Simple / Normal
该模型似乎也能与Schnell良好工作,这相当棒。我没预料到,但我欣然接受。我用fp8在8步Schnell生成中获得了相当不错的效果。
SCHNELL 设置:
CLIP_L - 150 tokens?
步骤 4-12
CFG 1
DCFG = 0
Euler < Simple / Normal 效果最佳,与1D相同。
在Flux DeDistilled上表现极佳,但速度慢。我需要想办法提速。
DE-DISTILLED 设置:
CLIP_L - 150 tokens???
- 负向提示足够有效,可用于排除danbooru标签。
步骤 20-50
CFG 6-8
DCFG = 0
DPM++ 2M 可用,其他许多我尚未测试的也可用。
我稍后需要制作一系列支持Q_2至Q_8的合并,但不是今天。
版本2.3 Epoch 10 发布 2024年10月16日 5:24 pm GMT-7;
万圣节到了……我至少得做几张万圣节图片。
它已经失控了,必须加载CLIP_L LoRA模块才能获得接近正确的效果。在Forge中会自动加载,但在ComfyUI中,你需要使用基础LoRA加载器并正确运行CLIP。
在下一轮训练时,合并这两个模型可能是明智之举。它们各自展现出对方不具备的优势,意味着它们可以互相学习很多。
这将是暂时的最后一个基础模型升级。我已经筋疲力尽了。希望你们喜欢。这玩意儿花了我将近1700美元。
如前所述,epoch 5和epoch 10已发布,此外还有在v2.2首次训练灾难性bleed caption训练基础上额外训练的一个epoch。
此版本稳定。
它能处理danbooru标签、gelbooru标签、部分rule34 us标签、部分rule34 xxx标签、部分Sankaku Complex标签、海量Flux说明文字,只要你不超出可能存在的事物,或不超过5级组合的不可能事物,它基本不会崩塌。超过复杂度5后,它会开始分解,类似大多数LLM AI。
数百个重复标签已被标准化为danbooru或gelbooru常用标签,取决于数据集中哪一类更多。
futa和femboy泛滥问题目前已被遏制,但它们确实仍存在。角色特征的这种渗漏往往是模型崩溃的迹象。角色出现新特征就像矿井里的鸟,它仍会持续产生,且现在更一致,如果你对此感兴趣,不妨大胆尝试。
我在最初就谨慎确保futa和femboy已包含在内,我不希望它们在未被提示时随机出现,这是我制作此模型时最担心的事。基础Simulacrum 2.1已将futa和femboy固化,以应对这种可能性,但当时它产生了相反效果——阴茎树、阴茎灯、阴茎墙、阴茎海报。我相信我已渡过最糟阶段。这个模型现在稳定了,老板,我累了。
人们绝不能忽视“真实存在”的东西,整个模型正是基于这一原则。所有东西都纳入其中。
总共引入了超过10,000个新标签。我基本上用danbooru四分之一的标签作为基础。结果如你所料:若不遵循我嵌入核心的Simulacrum主题控制器,就会呈现半混乱状态。它仍需大量训练,分词器大小也需再次扩大,但目前勉强可用。
使用句点(.)进行硬断裂。CLIP_L仅支持225个token,若断裂,之后可能不再有区别。请使用。
T5支持525个token,因此你仍可通过T5超越225个token限制,但若使用不当,效果将不稳定。
写实、动漫、3D
安全、暧昧、明确
从正面、正面视角
从侧面、侧面视角
从背后、背面视角
从上方、俯视
从下方、仰视
混合方向,如“从侧面,从上方,侧面视角”
可处理多种动物、生物、类人、机器人等,更不用说人类。
男性、女性、futanari、femboy、trap、otoko no ko
1boy、1boys、1girl、1girls、1futa、1futas、1trap、1traps是编号单位,因为rule34等网站的标签体系非常混乱。我保留了它们,而非试图在当时理清这种混乱。
把它们视为带有基础特征的不准确人类计数器。
T5主要使用“1girl”、“one female”或“1boy”、“one male”进行推理,若你想利用T5的强大能力,请坚持使用这些。
因此,“1boy otoko no ko”在T5看来是有效的,而CLIP_L则响应完全不同。
苗条、高挑、窄腰、瘦、娇小、胖、丰满、厚实、小、大、巨大、巨人
面部及表情
发色、发型、发质、发量
眼色、眼型、眼风格、眼大小
胸围、乳房大小、肩宽、腰围、臀围
各部位间的相对体型
手臂角度、腿部角度、头部角度、脚部角度、手部角度
全身姿势、半身姿势、上半身、下半身、上臂、下臂、手指、颈部、大腿、小腿、膝盖、左膝、右膝、左臂、右臂等
并腿、开腿、脚并拢腿分开、双腿张开、左腿、左腿弯曲、右腿、右腿弯曲、右腿上抬、右腿下垂、劈叉、站立劈叉、坐姿劈叉、大开双腿、脚并拢腿张开、蹲姿、跪姿、四肢着地,以及另外约20种我记不清的核心姿势。
数千种服装类型
数千种鞋类
数千种发型
许多种类的乳胶 <- 我喜欢乳胶。
连体衣、紧身衣、紧身胸衣、过膝袜、紧身裤、裤子、瑜伽服、连衣裙、比基尼、弹力泳衣、裙子、休闲装、鞋子,等等
T5能处理CLIP_L无法应对的大部分抽象复杂性,因此别害怕使用“每个”、“多个”、“它们”、“一起”等词。将描述语融合进booru提示中以获得更好效果,大胆尝试。
使用25步-Euler -> NORMAL效果最佳,Euler -> Simple也可用。请自行实验。
我通常将分辨率设为某个值,然后以0.72-0.80的降噪系数放大至1.1倍。
我已经切换到 Forge,因为 ComfyUI 几乎把自己修补到死掉了,所以目前我建议使用 Forge。
我现在在危险的路上设置了一些鹅卵石台阶。希望那些跟随并从中学到东西的人,能用上这些台阶,而不是像我一样跌跌撞撞。不过,每个人都要走自己的路,所以你们随意吧。
版本 2.2 迭代 10 替代品 2024年10月16日 上午10:34(GMT-7);
- 重新训练即将发布。我会同时发布迭代 5 和 10。迭代 5 非常出色,迭代 8 也很棒。我只是希望迭代 10 能达到迭代 8 的标准。
版本 2.2 迭代 8 发布版 2024年10月16日 上午6:36(GMT-7);
我拒绝让这个模型以悲剧收场。
我已经决定,无法简单地销毁这个美丽的模型。它花费了太多,而且确实能产出一些非常有趣的内容。不建议继续训练它,因为它已进入无法挽救的不稳定阶段。我将它称为“futa 模型”,并会在一个完全不同的模型页面上发布它,因为它在使用复杂描述时,主要生成 futa、femboy 和性别模糊的内容,完全忽略了 NSFW 标记。
将大量生成 NSFW 内容,并经常忽略提示。不会总是生成 NSFW 元素,因为系统原本并非默认设计用于生成这些内容,而是由无 T5 的复杂描述引发了这一悖论问题。虽然令人遗憾。
我无法销毁我的孩子。它已经如此努力,走了这么远,至少在它默默无闻地死去之前,应该被看见、被玩弄——就像我们所有人,无论多么出名或有趣,最终都难逃此命运。
版本 2.2 迭代 8 崩溃;
自 迭代 8 起,模型由于过拟合而开始走向崩溃。不得不说令人失望,但我确信已经找到了原因。下一次测试将决定是仅训练 CLIP_L 而未训练 T5 导致的,还是复杂描述造成的。我相当确定是复杂描述。
所有标准描述开始忽略 flux 基础模型,这意味着基于部分图像所选的双描述训练系统存在严重问题。
我几乎可以肯定,失败是因为我没有训练 T5。这导致了因复杂描述训练而不可避免的崩溃。我想尝试这个方法,因为这正是他们最初制作 flux 的方式,但目前由于 成本已然极高,我没有意愿进行这项实验。
唉……昂贵的失败学习经历。
迭代 5 依然不错,但我不会将其作为基础模型使用,因为它已经嵌入了过多复杂描述训练。一个迭代的复杂描述就足以永久性地关联描述信息,为未来进一步训练提供足够信息。
复杂详尽的描述并未教给 T5,因此 CLIP_L 和训练过程开始缓慢地将它们融合。等我注意到时,已经太晚了。系统已自我坍塌。所有内容都混杂了阴茎、乳房、眼睛、阴道——所有本该被区分开的东西。
说实话,情况没听起来那么糟,但就像目睹一场火车相撞事故。你可以眼睁睁看着它以近乎慢动作发生,但地球上没有任何力量能阻止它。最终它会达到沉没成本点,你不得不切断它——虽然痛苦,但这就是现实。
我已从数据中剔除所有复杂描述,并从第一个完成的版本 2.2 迭代开始训练另一个 Pack25 版本。新系列目前已完成迭代 2,正在训练迭代 3。
此系列表现出与之前类似的特征,但由于移除了复杂描述,进展稍慢。我目前不打算训练 T5,也不愿冒险训练 T5,成本持续攀升,今天我无法再赌这一把。
为你们祈祷,boys n grills。迭代 2 看起来比之前的更好,我会让它运行到迭代 10,然后从该数据集中终止。
到目前为止,仅训练这个模型我就已花费近 1400 美元,我必须尽快降低成本。
我将尝试将训练 1 的迭代 5 与训练 2 的迭代 5 合并,然后逐步向上,直到获得一个可靠的迭代 8。之后,我将在比六块 A100 更廉价的硬件上,使用小得多的批量(1k)训练 10 个迭代,因此更新将仅以较小增量引入数据和信息。
我很快就能知道,问题是否出在 T5 未训练,还是另有原因。无论如何,我将在不久后发布一份完整的评估文章,分享我的发现。
版本 2.2 迭代 5 第二部分 - 性征浮现...??;
显然,在某个时刻,性征开始起作用了。我确信在 v2.1 中几乎无效,但在 v2.2 迭代 5 中,它肯定有效了。
为生成性姿势,只需识别角色的基本特征:
一位金发女性四肢着地,一名男性从后方跪着与之交合,狗爬式性行为,女性着装,男性裸体。1boy, 1girl, male, female。
这类描述应能生成性姿势,我原以为要很久之后才会出现。如果通用标签有效,主题固定标签应该也能起效。
你可以通过添加更多性标签来强化,比如阴道插入、阴道、肛交等。但小心,否则你可能会生成 futa。这个迭代里 futa 似乎特别“开心”。
另外,使用狗爬式时,你偶尔会得到一张狗脸的人类,因此请固定面部特征,避免交叉污染,直到训练自动清除错误特征。
- 除非你喜欢那样,那就加上 humanoid 标签。
我上传了一些图片。其实并不难生成。目前如果出现异常或错误生成,就用强化标签。
使用的标签越多,越容易生成动漫风格,除非你一开始就固定 anime 标签,那样几乎会默认为动漫。
由于我像折磨霍默·辛普森一样不断喂它甜甜圈,它很可能会在稍加努力后生成所有姿势。这甚至不是姿势粘合微调数据,只是基于 Simulacrum 2.1 核心的链接数据,因此结果出乎意料。训练进度超前。
如果性行为表现得过于露骨且以写实方式出现,我可能会考虑撤回迭代 5 模型。这个模型本不应主打写实,但它能用于生成写实内容。其理念是默认动漫风格,再生成更写实的动漫,而非先生成写实角色再叠加动漫。
我正大量喂入动漫数据,但它却生成写实内容。我真有点困惑,flux 到底在做什么。
模拟体 1.7 训练并固化于 2.1 的大部分性姿势都使用大胸女性,但似乎现在允许任何女性体型,这让我感到不安。结果出乎意料且非我所愿。
从模拟体 1.7 到 2.1 遗留下来的性姿势线索,确实正在被捕捉并训练。用于链接特定特征的核心节点正在激活,就像反复掌握一项新技能一样。这完全出乎意料。
块热图和模式看起来与我之前尝试生成时极其相似,只不过那时响应很少,而现在链条呈指数级延长,且在各模块间运行得更加清晰。
我生成的所有合成人类面孔似乎都融合成了一张脸,这与 flux 基础女性的脸不同。这些女性应具有中等至巨大的乳房,年龄在 25 岁以上,其中三位几乎可视为 50 岁以上。
这一结果可能是我预期中模型最终崩溃的表现,也可能是新概念汇聚成一个统一潜力的全面涌现。我现在有点理解为什么人们不敢发布这些模型了。
到目前为止,模型的凝聚力尚未受影响,它仍能生成绝大多数默认标签的动漫内容,且不会立刻出现肮脏的内容。
目前一切正常。多数姿势不会立即生成,说明大部分仍按轨道运行。我很快需要根据新权重进行调整。
版本 2.2 迭代 5;
与昨日相同的数据,只是继续训练。复杂度已足够高,可以分享了,尽情享用吧。
即使尚未进行正式系列和角色微调(第七阶段),它已能生成它们。
双描述 + booru 标签训练正在如热刀切黄油般顺利推进。这个模型明显在大幅偏离,但仍保持完整。
尝试使用更长的描述,并包含多个标签序列。
版本 2.2 2万图像包 迭代 3;偏离显现 - 2024年10月14日 - 晚上7:21;
由于该模型与基础 flux 持续偏离,我决定将其宣布为一个“偏离基础模型”。青蛙已经正式被煮熟了。我正式将 Simulacrum v2.1 作为基础训练模型,直到我能弄清楚如何将 v2.2 合并进 flux1d2。在此期间,2.1 将作为偏离训练助手,体积小巧,专为使用 booru 标签的 flux-based LoRA 提供便捷。
Simulacrum v2.1 的全部目的,是作为持续训练的占位符。只需使用 flux1d2 模型作为基础,配合 t5xxl_fp16 和基础 CLIP_L 继续训练该 LoRA,完成后在 Flux1D 上运行结果。Simulacrum v2.1 体积非常小(71MB),因此快速输出训练好的 flux LoRA 应该相当轻松。在 0.001 的 Unet 学习率下训练,除非你训练超过 1000 步或批次/图像,或者引入系统不认识的全新标签,否则不要训练 TE。但无论如何,在推理时务必使用 LoRA 的 CLIP_L(TE)部分。不知不觉,你的图像就会准备好了。0.001 的 Unet 会逐渐消除大部分 Simulacrum 的影响。
如果你训练 v2.2,将生成一个比 v2.1 基础核心大得多的 LoRA。2.2 绝对可以训练,且很可能比 2.1 更高效,但 600MB 的体积将成为任何大规模生产流程的阻碍。
我目前无法将 2.2 合并到基础模型中用于直接推理。以我当前的训练模型,尚无简便方法实现,而我今天也没有时间编写所需的 Python 代码。
当核心模型直接合并进 flux1d2pro 时,用它训练 LoRA 将会方便得多,因为它天生对 booru LoRA 响应更好,结果也能直接在基础 flux1d 上运行。但这还不是今天的事。
就 v2.1 而言,图像已显示出足够的偏离,足以遵循大多数 LoRA 和学习所需的模式,同时仍提供基础信息,便于角色和数据微调。
如 v2.2 所示,2.1 的额外训练在训练子模型和分支方面表现出指数级更高的实用性,尤其在训练 3D、动漫和游戏角色的引入与细节时,速度更快。
大多数测试结果表明,引入服装、情境化场景和性相关场景变得更容易训练,且更可能在较少标签下出现。
在核心训练完成后,2 万图像包产生的结果远超我基于图表和数学潜力的预期,远远超出我的预测。
我预计吸收率将超过 80%,而描述信息保留率甚至会更高,基于数学推算。
版本 2.2 迭代 1;2万图像包首次迭代 - 2024年10月14日 - 下午3:36
尺寸大幅增加 - 64 维 = 600MB 下载,相比之前大得多。为植物根系提供了更大的生长空间。
令牌限制从 75 提高到 225。
Alpha 128
维度 64
使用六块 A100 训练。
大多数使用 NSFW 标签:明确、可疑、安全。
最常标注为动漫/3D/写实风格。
大多数都使用了 1girls /AND/ 1girl 来强化,以及 1boys 和 1boy,但似乎有些已经偏离了标签规范。由于目前混合训练的原因,你应当能够从两者中获得不同的结果,建议在使用时优先采用 1girls 和 1boys。
多尝试一下。它已被注入了海量的新数据。
主要是动漫风格(占四分之三以上),但也包含相当多的 3D 和写实内容。
使用了额外的 19,000 张图像进行训练,结果似乎有些不稳定。我可能需要降低学习率并开始随机丢弃一些模块,但目前还不确定。
重新调整大小和继续训练可能破坏了太多数据,可能需要从调整大小的节点重新开始训练。不妨试一试。
我看到这张图时真的笑出了声。显然其中包含大量与性相关的内容。即便经过如此大量的“精液”学习,它也不是简单地到处乱涂,而是相当准确地判断了该在哪里出现、不该在哪里出现。
使用 FLUX SHIFT 时间步采样进行训练,这应能产生比上一批更独特的效果。
归一化启发式算法判定这些是所需图像,因此就使用了这些图像。其实只是简单的数学运算。
用这个模型你绝对能生成一些相当扭曲的东西。第 3 轮训练似乎会更加扭曲,这会很有趣。
前 2500 次训练结束 - 2024年10月13日 - 上午11:10 - 总计已花费 $500:
下一次迭代我将增加维度,但尚不清楚它会如何响应。
结果绝对出色。大部分标记都成功命中,引入了大量期望的新信息。仍存在一些问题组合,例如仰卧姿势,但可通过一些措辞技巧绕过,比如:“躺卧”、“面向观者”等。随着训练的深入,这些问题将自动修正。该过程包括对常见标签用法的强化,如上述内容。
第二阶段(共八阶段)已启动,预期产出高质量结果。提示词与之前相同,但效果更好。引入数百万种新标签组合,数亿种新可能性。各方面均有显著提升。这是直接在 Flux.1D2pro 核心模型基础上,从原始合并的 Simulacrum v1.7 继续训练的结果。
所有当前训练数据均来源于一个大型数据池,依据启发式方法,以最少的加权时间引入其他图像所需的必要数据。本批次数据基于第一批次结果的对比潜在变量来源。
额外数据已被证明仅能引入更多数据,并为下一组加权标签建立基础,因此新一轮 15,000 张图像的训练已开始。
我们应已达到五万以上经过训练和微调的标记,甚至更多。Flux 模型依然稳定,这意味着我正在逐步构建一个完全发散的微调模型。
下一批是 Pack 2 —— 19k。
简要总结:第1阶段(共8阶段)https://civitai.com/articles/7196/training-flux-to-behave-like-pony
Flux 指南:
使用 Flux.1 dev 生成图像
加载此 LoRA 的模型和 CLIP。CLIP 非必需,但强烈推荐,因为它是实验的重要组成部分。
我注意到它在某些 LoRA 堆叠中无法加载,因此您在使用某些 ComfyUI 扩展时可能遇到加载其 CLIP 的问题。如遇问题,请直接使用 ComfyUI 内置的 LoRA 加载器。
该模型几乎肯定能与其他 LoRA 兼容(100%)。我已测试过多个改变姿势和情境的 LoRA,效果参差不齐,因此需留意姿势。基于风格、主题、角色、细节、效果、色彩等的 LoRA 效果极佳。并非每次都能完美,但大多数时候表现良好。
若 Simulacrum 表现顽固,可降低 UNET(模型)强度,以便其他 LoRA 能更好地介入。它本意是慢火微调(UN-0.0001,TE-0.000005),而非强力模型。在未经测试前,不建议大幅降低 CLIP 强度。
提示词模板:
v1.7
v2.1
一位女性坐在咖啡店的桌旁。
1girl,长黑发,发尾编辫,红眼睛,手持咖啡杯,浓妆,哥特风,双腿交叉,黑色连衣裙。
清晨的阳光透过窗户,在昏暗的咖啡店内投下层层叠叠的阴影。
窗外城市才刚刚开始喧闹,已有不少汽车和行人匆匆赶往工作地点。
v1.7
v2.1
一位动漫风格女性坐在咖啡店的桌旁。
1girl,长黑发,发尾编辫,红眼睛,手持咖啡杯,浓妆,哥特风,双腿交叉,黑色连衣裙。
清晨的阳光透过窗户,在昏暗的咖啡店内投下层层叠叠的阴影。
窗外城市才刚刚开始喧闹,已有不少汽车和行人匆匆赶往工作地点。
简易提示模板:
<场景>
<主体标签与标识>
<环境与效果>
<其他背景与情境效果>
Booru 标签可置于任意位置,但我建议将它们放在已识别的主体部分。
我推荐使用 50 步 Euler 算法(简单或正常模式),但并非必需。使用其他调度器时,即使步数更少,也能获得高质量输出。
前 2500 次训练开始 - 2024年10月9日 - 晚上7:50:
首批 2500 张图像正在使用 4 块 A100 进行训练。
1D 原版已发布。请自由尝试,并务必结合 D2 版本进行混合使用。这很有趣。
我认为 D2 版本明显更强,但两者搭配使用效果极佳,如同一对孪生模型。
两个模型均基于相同的图像、相同的参数、相同的随机种子和相同的硬件训练,使用 Runpod 的 4 块 4090 显卡。
唯一核心差异在于基础模型不同,训练结果以有趣的方式出现分歧。
第二阶段初步启动:
预计耗时:60 小时。在此语境中,“Simulacrum”是拉丁语,意为模拟、图像、肖像或雕像。此处指 Flux 模拟我们渴望看到的事物。https://en.wikipedia.org/wiki/Simulacrum
此为基于我在此发布的文章训练的 Flux1D2-pro 模型权重。
Flux Simulacrum v1.7 Flux1D-2Pro 微调版 - SFW/NSFW - 2024年10月9日 - 上午7:42(GMT-7):
经过一次重启,我带着一些有趣的发现回来了。在 D1 训练达到第 35 轮前,我无法进行完整布局测试,因此先发布这个版本供你试用。
它能处理 Booru 标签与 Flux 标签的混合。你可以随意组合它们。
我很想说是我做对了,但目前尚不能将全部功劳归于我的数据集或训练选择。我需要等到完全匹配的 Flux1D 基础版本完成,才能确定是 Flux D2 导致了最终结果,还是训练参数和图像本身的影响。
在第 35 轮时,网络存储空间耗尽,我原以为能直接加载训练状态的假设是错误的,因此我不会从第 35 轮继续训练。不过结果还不错,所以我暂时保留此版本。
D1 训练在第 25 轮时因类似原因失败,我将使用更大的网络存储空间重新训练 D1 至第 35 轮。
该 LoRA 可与标准 Flux1D 配合,在 fp8 模式下使用 bf16 模型运行。
我对 Flux1D2 的初步训练显示,其整体效果更一致地契合了我们所期望的 LoRA 目标。尽管我曾不断泼冷水、反复抱怨(抱歉让各位忍受了这些),但我现在可以明确指出,这次训练确实产生了因果性效果。
这些是 Text Encoder 微调版本,请确保在使用 ComfyUI 时,真正将 CLIP 传入模型。
UN LR - 0.0001
TE LR - 0.000005
目前我将展示一些该版本生成的出色图像。
我还需要设计一个更好的命名方案。这些模型版本名称正变得越来越长,令人厌烦。
Illustrious Simulacrum v1.2 SFW/NSFW - 2024年9月28日:
PDXL 版本也已发布。PDXL 版本应能与多数 Pony 模型兼容,而 Illustrious 版本可能仅适用于 Illustrious 模型。
标签与训练数据应生成大致相似的图像,原理相同。
对“安全/存疑/明确”内容的理解更好,但对安全内容仍存在困难,直到我完成原本计划教给 FLUX-1D 的全部标注信息。我已删除了那些导致内容混杂的提示词,因为它们没有帮助反而造成干扰。
使用正确的数据集进行完整重新训练后,我们得到了一个显著更优的模型。它能灵活适应多种艺术风格,准确区分动漫、写实和 3D 等内置风格,并拥有指数级增长的图像数量,以巩固各种视角下的姿势表现,所有这些都极为擅长将主体叠加到 Illustrious-XL 角色上。
已包含全部 7 个真实感合成人类。它们并非真实人物,且本版本中无法通过代码名触发,因此它们本质上只是完整角色的详细标注部分。
乳胶与乳胶紧身衣效果极强,常因 NAI 重着色而产生非常有趣的视觉效果。
输出质量与效果大幅提升。
我一直使用 ComfyUI 进行测试,此处每张图像均附带了对应的 ComfyUI 配置。
大家尽情玩吧,这个版本非常棒。
Illustrious-XL 模型原生生成数百个角色,多加尝试吧,你最爱的角色很可能就在其中。
标签列表:
正面视角,前视图
侧面视角,侧视图
背面视角,后视图
俯视视角,上方视角
仰视视角,下方视角
正面、侧面、上方 <<< 可组合标签
- 若未获得正确的深度或角度,可尝试添加参考物,如地板、墙壁或天花板。
色彩谱系;几乎所有可上色的标签均可纳入色彩谱系。
蓝色、红色、绿色、白色、黑色、金色、棕色、金色、银色、紫色、粉色、ギャル(gyaru)
1girl、1boy、2girls、2boys
短发、中发、长发(涵盖完整色彩谱系)
眼睛(完整色彩谱系)
脚趾甲、指甲、妆容颜色
平胸、小胸、中胸、大胸、巨乳
瘦腿、大腿、粗腿
苗条、健美、丰满、匀称、紧致
连衣裙、侧开衩连衣裙、乳胶连衣裙(完整色彩谱系)
比基尼、吊带泳装、泳装、连体泳装
瑜伽裤、运动文胸
脚、赤脚
还有更多、更多、更多的标签。
Illustrious Simulacrum v1 SFW/NSFW - 2024年9月27日:
看来我使用了错误的训练数据,仅约 60% 的数据。我今晚将重新训练并测试。
Illustrious 不是我的模型,这个 Simulacrum 才是我的,请勿与 Civitai 上其他地方列出的 sd1.5 Simulacrum 混淆。请支持 Illustrious 的官方作者。Illustrious 不是 PDXL 的衍生,而是源自 Kotaku v5,专注于动画与插画。
展示图仅为样例。Illustrious 是我近期玩过最有趣的模型之一。它响应迅速、准确,能精准构建你想要的内容。通常无需负面提示,但偶尔仍需使用。Simulacrum 的数据集进一步强化了更精准和高质量的任务,提升了整体效果,但你仍需偶尔使用一两个负面提示。
此 LOHA 模型完全基于主体固定与控制。从颜色、服装、尺寸、形状、真实感再到质量,所有这些都有滑块控制,并可通过各种标签进行调节。
我很快会准备一份完整的标签列表。简而言之,Illustrious 几乎能表现任何小马能做的动作,甚至更多你意想不到的内容,因为 Illustrious 是在 Danbooru 2023 数据集上训练的。与我迄今为止采样的任何模型相比,Illustrious 更类似于 NaiV3。
此 LOHA 是在原名为“Consistency”的数据集上训练的。经过重新设计的版本、标注和详细数据集,使其成为一个更强大的迭代版本;我过去曾将其称为 Simulacrum。
数据经过特别重新整理,以同时训练 PDXL 和 Illustrious。
增强与实用标签与之前类似:
从正面
正面视角
从侧面
侧面视角
从背面
背面视角
从上方
上方视角
从下方
下方视角
与早期的 PDXL 版本一样,本模型对女性形态有扎实的还原与结构强化。同时,与早期版本不同,此版本没有伪影。此版本清晰干净,甚至能将 Illustrious 的底线从卡通提升至半写实动漫风格,不过你用几个标签基本也能做到这一点。
本版本引入了男性形态,以及真实、3D 和动漫风格作为辅助标签。
当前版本应能处理大量姿势、动作、角色颜色、渐变、角度、偏移、视角、景深、旋转、叠加位置,以及一些在 PDXL 中表现顽固但在此版本中同样表现良好的特定服装。
支持以下体型:
苗条
高挑
纤细腰身
瘦弱
迷你
肥胖
曲线丰满
厚实
小型
巨型
直接支持:
多种偏移与角度
安全、可疑、明确内容
真实、3D、动漫风格
7 种真实合成模型
面部特征
头发颜色
眼睛颜色
胸部尺寸
相对体型比例
手臂角度
腿部角度
多种完整姿势
多种手臂位置
多种腿部位置
多种服装类型
多种鞋类类型
多种发型类型
多种乳胶材质 <- 我喜欢乳胶
连体衣、紧身衣、紧身胸衣、过膝袜、紧身裤、裤子、瑜伽服、连衣裙、比基尼、弹力泳衣、短裙、休闲装、鞋子,以及其他更多




















