Simulacrum V4 <|DELTA|> [F1D/DD/F1D2/UNET/CLIP_L]
详情
下载文件
模型描述
!!! SIMV4 CLIP_L 是 FP16 UNET 所必需的 !!!
没有 CLIP_L,FP16 UNET 将无法正常工作!
F1FP16 UNET 启动需要 CLIP_L。
F1FP16 UNET 需要 CLIP_L
CLIP_L 使用了五百万个样本进行训练。
预计发布日期:2024年11月15日,下午5:00-6:00(GMT-7)
坦白说,我认为3.8版本可能更好。
SimV4 配置:
Simulacrum V4 的核心系统完全基于主体聚焦构建。
人类、类人生物、兽人、毛茸茸角色、机器人、机器、汽车、自动售货机,以及你能想象或找到对应 LoRA 的任何事物。
大量图像使用以下标签格式进行训练:
定义:
注意力偏移与描绘标签:
为 V4 引入,许多标签被识别,其图像位置偏移在核心的再确认训练中被训练。
描绘标签目前有点不稳定,但有时有效,使用需自负风险。
depicted-middle-left(中间左侧描绘)
depicted-middle-right(中间右侧描绘)
depicted-middle-center(中间居中描绘)
depicted-upper-left(左上角描绘)
depicted-upper-center(上居中描绘)
depicted-upper-right(右上角描绘)
depicted-lower-left(左下角描绘)
depicted-lower-center(下居中描绘)
depicted-lower-right(右下角描绘)
full-frame(占图像70%以上)
half-frame(占图像40%至70%)
quarter-frame(占图像25%至40%)
depicted-middle-left full-frame 1girl
- 一张完整图像,描绘一位女孩,面部位于画面中心偏左,系统会据此补全周围大量细节。
depicted-upper-center half-frame face
- 面部位于画面顶部中央,其余部分不确定。
depicted-lower-right quarter-frame shoes
- 一双鞋子占据图像右下角约四分之一区域。
标题:
- 所有与标题相关的内容优先放置。系统训练使用255个标记,所有标题均少于80个标记,每张图像配有两条完整标题用于训练 CLIP_L。
评级标签:
- safe(安全)、questionable(可疑)、explicit(明确)、nsfw(不宜公开)、sex(性)
核心标签:
"b@s3_s1mul@cr7m", "anime", "3d", "3d model", '3d (artwork)', "blender (medium)", "source filmmaker (medium)", "sfm", "source film maker (medium)", "source filmmaker", "realistic", "real", "photo", "photorealistic", "illustration", "drawing", "painting", "digital", "traditional", "sketch", "render", "rendered", "model", "greyscale", "monochrome", "black and white", "color", "colour",角色:
- 角色名称,它们往往并不存在,但有时确实存在。
角色数量:
相当可靠,但在低步数时有时计数不准确。
1girl, 1boy, 2girls, 2boys, a woman, two women 等等
- 请根据你的期望填入。
性别:
- 性别强化词,如 female(女性)、male(男性)、male and female(男女)、male/female(男/女)、female/male(女/男)等。
物种:
- 你的种族,如人类、动物等。若未特别说明,大多数场景默认为人类。
系列:
- 使用系列/版权标签为图像添加风格,目前经常导致图像过度加载。系列/版权标签正在为 V5 训练。
场景照片类型:
"photo","photorealistic","photography","photo-realistic","photo-realism","close-up","portrait","cowboy shot","dutch angle","three-quarter view","profile","headshot","full body","fullbody","half body","halfbody","close up","above view","below view","front view","rear view","side view","back view","overhead view","aerial view","aerial shot","aerial perspective","aerial photography","aerial photograph","aerial image","side shot","side perspective","front shot","front perspective","rear shot","rear perspective","back shot","back perspective",替代标签:
核心系统认为比其他内容更重要、防止因标签文件超过255个标记而被省略的标签。
包括姿势、体型分组、身体部位、环境互动等。
couple(情侣)、arms(手臂)、legs(腿部)、lying on side(侧躺)、hugging(拥抱)、kissing(亲吻)
midsection(躯干)、navel(肚脐)、muscular abdomen(肌肉腹)、cleft of venus(维纳斯裂)
美学与质量标签:
very aesthetic(非常美观)、aesthetic(美观)、displeasing(令人不悦)、very displeasing(非常不悦)、disgusting(令人作呕)
highres(高分辨率)、absurdres(荒谬高分辨率)、lowres(低分辨率)
年份标签:
"1970s", "1980s", "1985s", "1990s", "1995s", "2000s", "2005s", "2010s", "2015s", "2020s", "2025s", "1980","1981", "1982", "1983", "1984", "1985", "1986", "1987", "1988","1989", "1990", "1991", "1992", "1993", "1994", "1995", "1996","1997", "1998", "1999", "2000", "2001", "2002", "2003", "2004","2005", "2006", "2007", "2008", "2009", "2010", "2011", "2012","2013", "2014", "2015", "2016", "2017", "2018", "2019", "2020","2021", "2022", "2023", "2024", "2025",已移除标签 - 完全从后续训练中省略:
"tagme","bad pixiv id","bad source","bad id","bad tag","bad translation","untranslated*","translation*","larger resolution available","source request","*commentary*","video","animated","animated gif","animated webm","protected link","paid reward available","audible music","sound","60+fps","artist request","collaboration request","original","girl on top","boy on top","character request","original","original character"
使用步数搭配美学标签:
10 步:
disgusting(令人作呕)
生成基础的 Simulacrum NovelAI V3 合成姿势图像集,常出现糟糕的手、眼睛、解剖结构。
非常适合极简轮廓和快速姿势测试。
very displeasing(非常不悦)
适用于简约的动漫/卡通/漫画。
略微增加细节,10步内不要期望太多。
displeasing(不悦)
- 能产出一些尚可结果,对卡通和简约动漫来说不算差。
aesthetic / very aesthetic(美观 / 非常美观)
- 不要使用,步数不足。
20 步:
disgusting(令人作呕)
- 应能生成与 NovelAI 角色身体匹配、颜色正确且接近正确解剖结构的图像。
displeasing / very displeasing(不悦 / 非常不悦)
- 将生成大量漫画、轮廓、卡通等。并非糟糕选择。
aesthetic(美观)
- 生成带白色背景的简约卡通/动漫人物。
very aesthetic(非常美观)
- 生成低质量写实风格,解剖结构有时不佳,但偶尔效果不错。
30 步:
disgusting(令人作呕)
- 生成中等质量的 NovelAI 动漫轮廓,配合其他美学标签时系统可进一步填充细节;在低步数时效果不佳。
aesthetic(美观)
- 带背景的卡通/动漫/半写实人物。
very aesthetic(非常美观)
- 生成的解剖结构尚可,但手、脚、眼睛、面部和配色效果不稳定。
40 步:
aesthetic(美观)
- 更接近动漫风格,但仍生成半写实效果。
very aesthetic(非常美观)
- 生成中等质量的卡通/动漫/半写实/写实人物,背景模糊,大多转化为半写实风格。
= 50 步:
disgusting - anime(动漫)
- 生成明确的 NovelAI v3 身体,效果不稳定,与10步非常相似。
displeasing(不悦)
aesthetic(美观)
aesthetic, very aesthetic - realistic/photorealistic, realistic background(写实/超写实,写实背景)
生成系统目前最佳的图像,直到你增加步数。我尚未测试超过50步。
将生成多种风格的高梯度变化,包括3D、动漫、Blender、SFM,以及大量较弱的艺术家影响。
使用分辨率:
1218x832, 1338x768
- 横版、建筑、多人物、横向漫画
832x1338, 832x1216, 768x1024, 832x1024 ...
- 竖版、高图、纵向漫画
1216x1216, 1024x1024, 832x832, 768x768, 512x512
1:1 比例
效果不一
从图像顶部到底部构建角色,将屏幕视为3x3网格。
演化历程
V38 与 V4 的主要区别:
使用5000张 HAGRID 手部姿势图像进行手部强化训练。
约80,000个样本
从我所能找到的最佳质量图像中精选1000张,以区分三种核心风格。
- 总计约50,000个样本
基于核心图像和数据集的强化训练。
- 约80,000个样本
强化色彩与身体姿势训练。
- 约50,000个样本
微调并优化的 CLIP_L,更擅长识别动漫、3D 和人类互动;在识别更复杂场景和情境方面远超以往。
5,000,000 个样本
感谢 cheesechaser 和 wildcard。我不知道我教了它什么。
主要数据来源为 Danbooru、Gelbooru、R34。
这是从 Simulacrum V32 发展而来的权威且强大的半稳定模型演进。从其初始到如今,共使用近两百万个样本训练,并配以全新定制的、由五百万样本喂养的 raidboss 级 CLIP_L,完全专注于 simulacrum 核心、主体聚焦、姿势和屏幕相对位置。
每个 LoRA 均以 BF16 格式训练,再以加法和有序方式合并,使用 COMFYUI 将所有核心块精心挑选后串联合并至主模型,包括这个完全集成的烧录合并 LoRA。我创建了多个自定义节点并重构了检查点保存系统,以专门支持 FP 缩放。
V4 因 CLIP_L 增强的灵活性而继承了更多基础 Flux 的特性,同时比以往任何时候都赋予核心系统更多行为。在卡通、动画、3D 和写实之间实现了高保真区分。
CLIP_L 已取代了大部分 FLUX DeDistilled 带来的增益,提供了一个与 DeDistilled 相当但不同的 F1D 核心。
该模型兼容我尝试过的所有 LoRA。它能提升标签生成结果的一致性,远超其他版本的 Consistency 或 Simulacrum;并在所有变体中实现更高保真度、更高上下文感知、更高训练强度、更多标记数和更完善的验证系统。
这是将一系列缓慢烹制、经过充分测试、高图像数量的 LoRA 组合而成的第四代模型,专精于单个角色。
本版本中,多角色及角色互动能力较弱,但能生成更稳固的个体角色,特别是在复杂场景中,并提供更一致的基础模型以供增强。
本版本的初始 LoRA 训练表明:可在保持稳定性的前提下使用更高的学习率(UNET LR 0.0009,CLIP_L TE 0.000001),在更短的时间内,使用更少的样本和重复次数(仅300个样本)即可完成训练。这正是该模型的终极目标——让个人几乎无需训练,即可生成任何想要的角色,将此 UNET 和 CLIP_L 视为快速训练的基础模型。
初步测试显示,甚至可能无需使用 Simulacrum V4 模型即可从 LoRA 生成图像,意味着你可能仅用5分钟或更短时间,在3080显卡上训练30张图像的 LoRA,就能在基础 Flux 上运行——因为你使用的是 Simv4 F1D2pro UNET 和 CLIP_L 进行训练。




