Realistic 3D Style v1 [NOOB vPred V0.65S / ePred v1.1]
详情
下载文件
关于此版本
模型描述
更新 1:GMT-7 2024年12月5日 下午1:51
我发现了一个标签错误;已检测到人为错误。我将大部分 3D 和 3D 艺术标签自动添加到了图像顶部,而非图像末尾,这导致最终效果远弱于预期。
新推荐的正向提示如下:
3d, 3d \(artwork\), realistic, artist1, artist2, artist3, ... artist99, noob tags here, very aesthetic, aesthetic, masterpiece, highres, absurdres, newest, 3d, 3d \(artwork\), realistic,在多种分辨率下,此提示的效果优于其他替代方案,且艺术风格更加鲜明。
显然我的流程还需要改进,但这没关系。我们接受宇宙给我们的一切。
为什么这么 严肃,蝙蝠侠?
即使没有使用任何特殊描绘标签,这种风格也取得了极高的成功。
推荐配置:
强度:
0.8 ePred
0.92 vPred
步数:50
采样器:Euler - SGM Uniform
CFG:5-6.5
分辨率:1024x1024、1216x1216、1216x832、832x1216、832x832、768x768、512x768、768x512、512x512
正向提示:
3d, 3d \(artwork\), realistic,
normal tags here,
masterpiece, highres, absurdres, newest, 3d, 3d \(artwork\), realistic,
负向提示:
nsfw, worst quality, old, early, low quality, lowres, signature, username, logo, bad hands, mutated hands, mammal, anthro, furry, ambiguous form, feral, semi-anthro, bad anatomy, extra digits
可随意删除负向或正向内容。
在处理完数据后,我发现许多高质量的 3D 图像被标记为“令人反感”、“不愉快”和“非常不愉快”,因此请注意,当你使用低于 1024x1024 的低分辨率时,使用这三个标签反而可能获得不错的效果。
此风格 LoRA 将生成多种艺术家风格和系列风格。它能增强许多角色,并顺带修正部分基础服装。它引入了一些新角色,但强度不足以产生显著影响,因此不要对此抱有太高期望。
此模型被专门训练为“轻推型”LoRA(Nudge LoRA),其目的是微调模型,而非摧毁它。它旨在通过条件化与优化,提升模型性能,但不引入任何重大新信息。
这意味着它包含来自多种风格和众多艺术家的图像;强化了核心标签“3d”、“3d (artwork)”和“realistic”,但并未彻底摧毁它们。
当然,仍存在一些深度缺陷:当图像复杂度达到某一阈值时,重叠和问题会开始产生伪影,这很可能源于我在采集图像时采用的上采样与锐化方法中故意引入的插值。
下一个版本很可能是基于 10 万张图像、至少运行 20 个 epoch 的版本,敬请期待未来几周的更新。
在接下来几天,我将研究 AI 优化、图像插值与运动 AI 技术,并设计一种称为“RE-LORA”的过渡阶段 LoRA —— 这是一种基于“烧入”条件化与图像优化的 LoRA 概念,完全依赖于在冻结模型的特定位置上以更高学习率、更少步骤进行训练,而非破坏或修改核心模型,或等待完整 epoch。
它既像 LoRA,也像 text_encoder,但又不是其中任何一种。其目标是像“烙印”一样在模型中留下痕迹,让模型识别自身数据的分布位置,使用一种紧凑的高维存储张量。这更接近于将 img2img、草图,甚至掩码修复功能直接注入现有模型,而无需大量训练周期和极少的图像与掩码数据。
未分类想法:
看起来它在 ePred V1.1 上也能工作,只是尺度衡量方式不同。
它在 ePred v1.1 上的表现出人意料地好,但训练时使用的是 vPred v0.65S 作为基础模型。
如果使用 2m SDE Heun 采样器并额外上采样,似乎能支持 1300x1300 分辨率,效果非常好。
请尝试一下。
四分之一帧还不够小,实际效果远超我的预期。
我需要重新进行识别,并确保添加更小的标签,例如“small-frame”表示图像的 1/9。
第 30 轮 epoch 的描绘控制更佳,现实感和 3D 效果的保真度更高,远优于第 20 轮,但仍不完整。
第 37 轮 epoch 时,我会创建一个完整的图像展示轮盘和各种标签使用案例。
大约 4000 张从视频中截取的图像,以及 6000 张来自最近的 r34xxx 和 r34us 上传的图像。
大约 1 万张图像,在 2 张 A100 上以批次大小 64 训练了 20 个 epoch。
第 37 轮 epoch 的预计训练完成时间约为 7 小时,因此预计未来还会有几次上传。
这是一个实验性模型,结合了来自动态 GIF 和视频的图像,以及从非 AI 生成的高分辨率图像中采集的数据。
涵盖了许多不太常见的 3D 艺术家,也包括许多我确信非常受欢迎的 3D 艺术家。
每张图像都被识别为至少包含一个人物。
我目前正在整理一份完整的艺术家名单。老实说,我几乎没有手动挑选,基本是自动化完成的。详情请参阅近期文章。
我受到启发,计划训练一个完整的 10 万张图像版本。
我将捕获每个视频的每一帧,记录帧间插值归一化差异以优化锐化、存档与实用价值;同时建立逐帧标签计数系统。
这将使全插值视频生成以一种更稳定、更可靠的方式实现。
目前,它只是一个带有些许描绘偏移标签的风格化玩具。请享受吧!
描绘标签:
depicted-upper-left
depicted-upper-center
depicted-upper-right
depicted-middle-left
depicted-middle-center
depicted-middle-right
depicted-lower-left
depicted-lower-center
depicted-lower-right
比例标签:
full-frame
half-frame
quarter-frame
美学标签:

使用方式示例:
depicted-upper-left half-frame face
depicted-lower-center full-frame legs
由于模型本身能根据源图像的焦点自动识别偏移与描绘,你甚至可以使用我未专门训练过的标签,获得许多有趣的结果。




















