NatViS: Natural Vision

详情

模型描述

请阅读说明

NatViS(自然视觉)是 SDXL 的一个写实风格全参数微调模型,通过自然语言提示生成高质量的 SFW/NSFW 图像。该模型在超过一年时间里不断扩充和优化的数据集上,使用超过 100 万组图像-文本对进行训练。

v3.0 正在从零开始重建,以扩展知识领域并提升不同提示风格下的文本-图像对齐效果。

当前 v3.0 状态:数据收集

目前我只能在空余时间处理此更新,因此尚无确定的发布日期。

请通过 Ko-Fi(下方)给我留言,提供反馈和建议。邮箱和公开 Discord 将很快开放!


请我喝杯咖啡 ❤

https://ko-fi.com/ndimensional

我从不习惯网络乞讨,但如此规模的 SDXL 微调成本正变得越来越高。因此,我不得不勉强开口:如果你喜欢我的工作,并希望支持我的模型,请考虑在 Ko-Fi 上捐赠 💗
我将开始发布更新、回答问题、收集反馈,并向支持者提供早期访问(非独家)模型。

所有捐款将用于资助全新 Stable Diffusion 微调模型和开源 AI 工具的开发。


更新日志

============

11-24-24 NatViS v2.7 Hyper 4步版 及 4步 Lightning 链接 (🤗)

  • 上传了 NatViS v2.7 的 4 步 Hyper 版本。详情请参阅“关于此版本”。

  • Lightning:v2.7 的 4 步 Lightning 版本目前可在 此处 获取。8 步 Lightning 版本将在发布后一天内上传。

  • 注意:由于时间限制,示例图像数量有限。

============

11-21-24 NatViS v2.7 Hyper 8步版

  • 发布了具有稳定 CFG 的 NatViS v2.7 的 8 步 Hyper 版本。详情请参阅“关于此版本”。

11-18-24 NatViS v2.7

  • 因时间有限,预发布更新日志暂可在此查看:HERE

  • 注意:我厌倦了反复生成相同的示例图像,因此尝试使用一些新提示来丰富内容。旧版本的提示仍可在 v2.7 中使用。等我有空时,会单独上传一个使用旧提示生成的图像图库。

============

10-26-24 NatViS v2.5 Lightning 4步版(不推荐!):

  • 上传了 NatViS 2.5 的 4 步 Lightning 版本

  • 仅在必要时使用

============

10-25-24 NatViS v2.5 Lightning 8步版

  • 发布了 NatViS v2.5 的 8 步 Lightning 版本。请阅读“关于此版本”

    • 注意:与我之前的 8 步 Lightning 版本不同,此版本是直接与 SDXL Lightning LoRA 合并而成。此举是应用户对低 CFG 的需求。

      • 由于我对 Lightning 的特性尚未完全掌握,示例图像可能无法准确代表模型效果。
    • 我还将发布完整 CFG 的 8 步 Lightning 版本,因为它能更好地保留微调模型中的精细特征。

============

10_23_24 NatViS v2.5

新增内容?

  • 上传了 NatViS v2.5

    • 更新了文本编码器,重新引入了在 v2.0 中失效的 tag/booru 风格提示能力。

    • 引入了新(改进)数据集中的一部分数据,特别包含短促有力的图像-文本对。

      • 关于新数据集的信息(用于未来模型/更新):包含更多样化的提示风格,所有自动化处理均由人工(即我)手动验证。
    • 增加了更多模拟摄影和经典电影胶片图像数据,以进一步提升真实感。

下一步计划?

  • 通用:审查 SD3.5 许可证,评估是否值得投入。

    • 并非“糟糕”。将开始研究用于微调/LoRA 的模型架构。
  • 通用:发布 Anti-Pony Alpha 模型(动漫、数字插画)。

    • 提前说明:此模型远不如 Pony 强大。这是一次测试,用于判断是否值得通过众筹训练该模型。

    • 在训练中注重角色知识与质量,采用新颖的 booru+ 标签系统及自然语言提示,支持多种风格/媒介、艺术家知识,不含荒谬的质量评分标签,兼容 SDXL(即_未过拟合且无损坏_)。

    • 更多信息即将发布。

  • NatViS:发布 NatViS v2.5 的 Lightning 变体。

    • 此次实现更高效。
  • NatViS:终于着手制作并发布 PDF 指南。

  • NatViS:继续 v3.0 的微调工作。

============

10_2_24 NatViS v2.0 Lightning 4步版

  • 上传了 v2.0 的 4 步 Lightning 模型

============

10-1-24 NatViS v2.0 Lightning 8步版

  • 上传了 v2.0 的 8 步 Lightning 模型

============

9-25-24 NatViS v2.0

新增内容?

  • 提示:本次更新主要聚焦于文本编码器。自然语言提示能力得到提升,可适应更宽松的格式,减少对特定标记的依赖。

  • 种族与族称:提升了不同种族与族称的表型准确性,不仅限于身体结构,还包括服饰、发型、风景等。详见 此处 的小样例。

  • 相机 EXIF:可提示的流行现代与模拟相机的 EXIF 数据,包括相机型号、焦距、光圈、ISO、快门速度、镜头类型,以及 ND 滤镜、偏振镜等附件。

  • 模拟摄影:改进了模拟与复古照片的生成效果。

  • 光影:可提示光线(或其缺失)与场景中对象/主体的交互方式,以及其他通用光影修饰。更多信息即将发布。

  • 皮肤纹理:在无需显式皮肤细节标记的前提下,小幅提升了皮肤纹理的细节表现。

  • 实现伪指令系统:需另文详述。

  • 男性解剖结构改善。

  • 女同性恋主题增强。

下一步计划?

  • Lightning 模型将在未来几天内发布。

  • 完整 PDF 指南与文档将在一周内发布。

  • v3.0 的相关信息将在下个月内公布。

8/4/24 NatViS v1.0 Lightning 4步版

  • 上传了 v1.0 的 4 步 Lightning 版本(详情请参阅“关于此版本”)。

============

8/3/24 NatViS v1.0 Lightning 8步版

  • 上传了 v1.0 的 8 步 Lightning 版本(详情请参阅“关于此版本”)

============

8/2/24 NatViS v1.0

  • 首次发布

使用建议

注意:以下仅为建议,欢迎自行实验。

提示(Prompting)

NatViS 利用 SDXL 的 bigG 文本编码器 支持自然语言提示。

什么是自然语言提示?
自 Stable Diffusion v1.4 发布以来,用户已习惯使用逗号分隔的视觉描述标签/短语。这是早期 SD 模型因架构和文本编码器选择所必需的。而 SDXL 的双编码器/分词器架构使我们能更自然地编写提示。

只需像向人描述图像那样,描述你想要生成的画面即可。

例如:
逗号分隔标签列表:a woman, standing, outdoors, sun beams, dappled light, apple tree, wearing denim jeans, flannel shirt, brown hair, long hair, looking at viewer, highest quality, atmospheric, 35mm, masterpiece

自然语言提示:A masterpiece, 35mm-style photo of a woman with long brown hair, standing outdoors in dappled sunlight beneath an apple tree. She wears denim jeans and a flannel shirt, gazing directly at the viewer with an atmospheric quality.

注意:这只是说明如何撰写自然语言提示的示例。更多优秀范例,请参阅示例图像。

NatViS 能理解我说的每句话吗?
绝对不能
由于架构限制及作为个人所能微调的数据规模有限,模型有时无法生成你想要的结果。通常你需要尝试不同的措辞、调整标记位置(如将句子或单个标记移至提示开头或结尾)、移除可能冲突的标记等。没有万能解决方案,每个提示都需要单独调试。很遗憾,有时即使尝试多种方法也无法成功。

我还能使用标签吗?
简短回答:可以
SDXL 的双编码器/分词器架构能并行处理两种编码器的标记序列,因此你无需一定使用自然语言提示。

注意:由于训练数据仅使用自然语言描述进行标注,模型可能无法理解所有常见的描述标签,特别是 Booru 或 Booru 风格的标签。

我发现混合系统效果良好,许多示例图像即采用此方式。

例如:
若你已尝试自然语言提示,但希望结果更具电影感,无需重写整个提示,只需在末尾追加 cinematic lighting, harmonious, film still, ... 即可。

质量标签/分类器?(score_up_x)
这是亵渎。
你当然可以使用质量分级/分类器,但它们不会出现在训练数据中。

反向提示(Negative Prompt)
与其他 SDXL 模型类似,使用逗号分隔的标签,并保持简短。根据需要增减反向提示中的标记。

生成参数

CFG:

  • 推荐值:5-7

  • 7+ 用于强制特定风格/媒介

采样器/采样步数:
这非常主观,我直接分享我通常使用的设置,而非给出明确建议。

  • 采样器 - DPM++ 2M SDE

  • 调度器 - Karras

  • 步数 - 55

ADetailer:(扩展插件)
链接
再次强调主观,我直接提供我的设置。

  • 模型 - mediapipe_face_full(为写实效果请使用 mediapipe)

  • 置信度 - 0.45

  • 其余均为默认值。

CFG 重缩放:(扩展插件)
链接
我忘了自己安装过这个插件,不确定它是否强制了零终端 SNR 到噪声调度。由于参数为 null,它本不应生效。

  • Phi - 0

重要说明

如果你即使使用完全相同的种子和参数仍无法复现示例图像,很可能是因为噪声调度器。我在 WebUI 中启用了修复,但之后重装了 WebUI 并忘记重新开启。此问题仅影响 NatViS v1。


训练信息

待办事项
撰写完整说明需要较长时间。暂且:
TLDR; 使用超过 100 万张图像,通过我正在开发的个人数据集工具包处理与清洗,由多模态大语言模型(MLLM)结合统一特征空间(属于数据集工具包,非 GPT)进行标注。训练数据、配置与自定义脚本将在最终版本发布时开源。数据集工具包暂无发布时间。


查看我的其他模型

SDXL 检查点: https://civitai.com/collections/966964

SDXL LoRAs: https://civitai.com/collections/966969

40K 系列: https://civitai.com/collections/956187

SD1.5 检查点: https://civitai.com/collections/966974

SD1.5 LoRAs: https://civitai.com/collections/966972


TensorArt (v1) 上运行


🤗Huggingface 仓库

🤗Huggingface 仓库 - Lightning

🤗Huggingface 仓库 - Hyper

此模型生成的图像

未找到图像。