NatViS: Natural Vision
详情
下载文件
关于此版本
模型描述
请阅读说明
NatViS(自然视觉)是 SDXL 的一个写实风格全参数微调模型,通过自然语言提示生成高质量的 SFW/NSFW 图像。该模型在超过一年时间里不断扩充和优化的数据集上,使用超过 100 万组图像-文本对进行训练。
v3.0 正在从零开始重建,以扩展知识领域并提升不同提示风格下的文本-图像对齐效果。
当前 v3.0 状态:数据收集
目前我只能在空余时间处理此更新,因此尚无确定的发布日期。
请通过 Ko-Fi(下方)给我留言,提供反馈和建议。邮箱和公开 Discord 将很快开放!
请我喝杯咖啡 ❤
https://ko-fi.com/ndimensional
我从不习惯网络乞讨,但如此规模的 SDXL 微调成本正变得越来越高。因此,我不得不勉强开口:如果你喜欢我的工作,并希望支持我的模型,请考虑在 Ko-Fi 上捐赠 💗
我将开始发布更新、回答问题、收集反馈,并向支持者提供早期访问(非独家)模型。
所有捐款将用于资助全新 Stable Diffusion 微调模型和开源 AI 工具的开发。
更新日志
============
11-24-24 NatViS v2.7 Hyper 4步版 及 4步 Lightning 链接 (🤗)
上传了 NatViS v2.7 的 4 步 Hyper 版本。详情请参阅“关于此版本”。
Lightning:v2.7 的 4 步 Lightning 版本目前可在 此处 获取。8 步 Lightning 版本将在发布后一天内上传。
注意:由于时间限制,示例图像数量有限。
============
11-21-24 NatViS v2.7 Hyper 8步版
- 发布了具有稳定 CFG 的 NatViS v2.7 的 8 步 Hyper 版本。详情请参阅“关于此版本”。
11-18-24 NatViS v2.7
因时间有限,预发布更新日志暂可在此查看:HERE
注意:我厌倦了反复生成相同的示例图像,因此尝试使用一些新提示来丰富内容。旧版本的提示仍可在 v2.7 中使用。等我有空时,会单独上传一个使用旧提示生成的图像图库。
============
10-26-24 NatViS v2.5 Lightning 4步版(不推荐!):
上传了 NatViS 2.5 的 4 步 Lightning 版本
仅在必要时使用
============
10-25-24 NatViS v2.5 Lightning 8步版
发布了 NatViS v2.5 的 8 步 Lightning 版本。请阅读“关于此版本”
注意:与我之前的 8 步 Lightning 版本不同,此版本是直接与 SDXL Lightning LoRA 合并而成。此举是应用户对低 CFG 的需求。
- 由于我对 Lightning 的特性尚未完全掌握,示例图像可能无法准确代表模型效果。
我还将发布完整 CFG 的 8 步 Lightning 版本,因为它能更好地保留微调模型中的精细特征。
============
10_23_24 NatViS v2.5
新增内容?
上传了 NatViS v2.5
更新了文本编码器,重新引入了在 v2.0 中失效的 tag/booru 风格提示能力。
引入了新(改进)数据集中的一部分数据,特别包含短促有力的图像-文本对。
- 关于新数据集的信息(用于未来模型/更新):包含更多样化的提示风格,所有自动化处理均由人工(即我)手动验证。
增加了更多模拟摄影和经典电影胶片图像数据,以进一步提升真实感。
下一步计划?
通用:审查 SD3.5 许可证,评估是否值得投入。
- 并非“糟糕”。将开始研究用于微调/LoRA 的模型架构。
通用:发布 Anti-Pony Alpha 模型(动漫、数字插画)。
提前说明:此模型远不如 Pony 强大。这是一次测试,用于判断是否值得通过众筹训练该模型。
在训练中注重角色知识与质量,采用新颖的 booru+ 标签系统及自然语言提示,支持多种风格/媒介、艺术家知识,不含荒谬的质量评分标签,兼容 SDXL(即_未过拟合且无损坏_)。
更多信息即将发布。
NatViS:发布 NatViS v2.5 的 Lightning 变体。
- 此次实现更高效。
NatViS:终于着手制作并发布 PDF 指南。
NatViS:继续 v3.0 的微调工作。
============
10_2_24 NatViS v2.0 Lightning 4步版
- 上传了 v2.0 的 4 步 Lightning 模型
============
10-1-24 NatViS v2.0 Lightning 8步版
- 上传了 v2.0 的 8 步 Lightning 模型
============
9-25-24 NatViS v2.0
新增内容?
提示:本次更新主要聚焦于文本编码器。自然语言提示能力得到提升,可适应更宽松的格式,减少对特定标记的依赖。
种族与族称:提升了不同种族与族称的表型准确性,不仅限于身体结构,还包括服饰、发型、风景等。详见 此处 的小样例。
相机 EXIF:可提示的流行现代与模拟相机的 EXIF 数据,包括相机型号、焦距、光圈、ISO、快门速度、镜头类型,以及 ND 滤镜、偏振镜等附件。
模拟摄影:改进了模拟与复古照片的生成效果。
光影:可提示光线(或其缺失)与场景中对象/主体的交互方式,以及其他通用光影修饰。更多信息即将发布。
皮肤纹理:在无需显式皮肤细节标记的前提下,小幅提升了皮肤纹理的细节表现。
实现伪指令系统:需另文详述。
男性解剖结构改善。
女同性恋主题增强。
下一步计划?
Lightning 模型将在未来几天内发布。
完整 PDF 指南与文档将在一周内发布。
v3.0 的相关信息将在下个月内公布。
8/4/24 NatViS v1.0 Lightning 4步版
- 上传了 v1.0 的 4 步 Lightning 版本(详情请参阅“关于此版本”)。
============
8/3/24 NatViS v1.0 Lightning 8步版
- 上传了 v1.0 的 8 步 Lightning 版本(详情请参阅“关于此版本”)
============
8/2/24 NatViS v1.0
- 首次发布
使用建议
注意:以下仅为建议,欢迎自行实验。
提示(Prompting)
NatViS 利用 SDXL 的 bigG 文本编码器 支持自然语言提示。
什么是自然语言提示?
自 Stable Diffusion v1.4 发布以来,用户已习惯使用逗号分隔的视觉描述标签/短语。这是早期 SD 模型因架构和文本编码器选择所必需的。而 SDXL 的双编码器/分词器架构使我们能更自然地编写提示。
只需像向人描述图像那样,描述你想要生成的画面即可。
例如:
逗号分隔标签列表:a woman, standing, outdoors, sun beams, dappled light, apple tree, wearing denim jeans, flannel shirt, brown hair, long hair, looking at viewer, highest quality, atmospheric, 35mm, masterpiece
自然语言提示:A masterpiece, 35mm-style photo of a woman with long brown hair, standing outdoors in dappled sunlight beneath an apple tree. She wears denim jeans and a flannel shirt, gazing directly at the viewer with an atmospheric quality.
注意:这只是说明如何撰写自然语言提示的示例。更多优秀范例,请参阅示例图像。
NatViS 能理解我说的每句话吗?
绝对不能。
由于架构限制及作为个人所能微调的数据规模有限,模型有时无法生成你想要的结果。通常你需要尝试不同的措辞、调整标记位置(如将句子或单个标记移至提示开头或结尾)、移除可能冲突的标记等。没有万能解决方案,每个提示都需要单独调试。很遗憾,有时即使尝试多种方法也无法成功。
我还能使用标签吗?
简短回答:可以
SDXL 的双编码器/分词器架构能并行处理两种编码器的标记序列,因此你无需一定使用自然语言提示。
注意:由于训练数据仅使用自然语言描述进行标注,模型可能无法理解所有常见的描述标签,特别是 Booru 或 Booru 风格的标签。
我发现混合系统效果良好,许多示例图像即采用此方式。
例如:
若你已尝试自然语言提示,但希望结果更具电影感,无需重写整个提示,只需在末尾追加 cinematic lighting, harmonious, film still, ... 即可。
质量标签/分类器?(score_up_x)
这是亵渎。
你当然可以使用质量分级/分类器,但它们不会出现在训练数据中。
反向提示(Negative Prompt)
与其他 SDXL 模型类似,使用逗号分隔的标签,并保持简短。根据需要增减反向提示中的标记。
生成参数
CFG:
推荐值:5-7
7+ 用于强制特定风格/媒介
采样器/采样步数:
这非常主观,我直接分享我通常使用的设置,而非给出明确建议。
采样器 - DPM++ 2M SDE
调度器 - Karras
步数 - 55
ADetailer:(扩展插件)
链接
再次强调主观,我直接提供我的设置。
模型 - mediapipe_face_full(为写实效果请使用 mediapipe)
置信度 - 0.45
其余均为默认值。
CFG 重缩放:(扩展插件)
链接
我忘了自己安装过这个插件,不确定它是否强制了零终端 SNR 到噪声调度。由于参数为 null,它本不应生效。
- Phi - 0
重要说明
如果你即使使用完全相同的种子和参数仍无法复现示例图像,很可能是因为噪声调度器。我在 WebUI 中启用了修复,但之后重装了 WebUI 并忘记重新开启。此问题仅影响 NatViS v1。
训练信息
待办事项
撰写完整说明需要较长时间。暂且:
TLDR; 使用超过 100 万张图像,通过我正在开发的个人数据集工具包处理与清洗,由多模态大语言模型(MLLM)结合统一特征空间(属于数据集工具包,非 GPT)进行标注。训练数据、配置与自定义脚本将在最终版本发布时开源。数据集工具包暂无发布时间。
查看我的其他模型
SDXL 检查点: https://civitai.com/collections/966964
SDXL LoRAs: https://civitai.com/collections/966969
40K 系列: https://civitai.com/collections/956187
SD1.5 检查点: https://civitai.com/collections/966974
SD1.5 LoRAs: https://civitai.com/collections/966972




















