Waifu Diffusion - Beta 03

详情

模型描述

Waifu Diffusion - Beta 03

从 Hugging Face 重新上传至 civitai 以供享受。

WD 1.5 Beta 3 直接基于 stable-diffusion-2-1 (768) 进行微调,使用 v-prediction 和可变宽高比分桶(最大像素面积 896x896),训练数据包含真实生活与动漫图像。鉴于 WD 1.5 涵盖了广泛的视觉概念,我们预计它将成为进一步微调、LoRA 及其他嵌入应用的理想起点。- [Notion.site]

作者说明

模型很棒。就像 NAI 刚推出时一样。这不正是启动大量微调的绝佳方式吗?你可以直接用 WD 1.5 B3 来实现。- KaraKaraWitch

审美模型?

待上传。

安装

  1. 下载三个文件。

  2. 按照安装 SD 2.1 的方式操作即可。

  3. 使用魔力瓦片 VAE。

如果你做不到这些……呃……我觉得你可以试着谷歌一下,自己想办法?我觉得这个可能有帮助。

使用方法

使用以下“精通”提示词以获得更佳效果:

正向提示词:

(exceptional, best aesthetic, new, newest, best quality, masterpiece, extremely detailed, anime, waifu:1.2)

负向提示词:

lowres, ((bad anatomy)), ((bad hands)), missing finger, extra digits, fewer digits, blurry, ((mutated hands and fingers)), (poorly drawn face), ((mutation)), ((deformed face)), (ugly), ((bad proportions)), ((extra limbs)), extra face, (double head), (extra head), ((extra feet)), monster, logo, cropped, worst quality, jpeg, humpbacked, long body, long neck, ((jpeg artifacts)), deleted, old, oldest, ((censored)), ((bad aesthetic)), (mosaic censoring, bar censor, blur censor)

它能做什么?

该模型可以实现以下功能:

- 真实感 (realistic, real life:1.2)(正向提示中)

- 色情向(典型的内容,可能配合微调后效果更好,哈哈)

- 你想用它调什么就调什么,哈哈。

- 调整起来也很简单。LoRA(Kohya 系列)可用,LyCORS 也已测试(已验证 LoCon 可用,所以肯定行!)

新增内容?

  • 修复了文本编码器训练问题,现在 TE 真正被训练了,如果你来自 Beta 2 版本,可以试试看!

许可证(License)

有点复杂。

简而言之:请遵循 Fair AI 公共许可证 1.0-SD(https://freedevproject.org/faipl-1.0-sd/)。如果基于此模型制作了衍生作品,请相应分享你的更改。特别感谢 ronsor/undeleted(https://undeleted.ronsor.com/)在许可证方面提供的帮助。

虽然这多少有点违背 civitai 的精神,但……嗯,随它去吧,哈哈。

如何训练 Drag-Waifu Diffusion

  1. 使用 BLIP/BLIP2 和 WD Tagger 为每张图像生成 booru 标签和自然语言描述。

  2. 应用日期梯度(date gradient)。

  3. 将审美度分为 例外、最佳、正常与差

  4. 为 Booru 图像添加星级评分并分类归档(Masterpiece, Best, High, Medium, Normal, Low & Worst)。

  5. 开始训练。

  6. ???

  7. 发财。

如何训练 Lycoris/LoCon/LoRA

KaraKaraWitch 附言:这里是我对 WD 1.5 B3 初步实验的一些经验与常见陷阱提醒。

  1. 请使用提供的 VAE,不要使用内置模型自带的 VAE。

  2. 启用 --v2--v_parameterization

  3. 按常规流程进行训练。

“等等,就这些?!”

是的。但请注意,最终损失值应维持在约 0.3 左右。若过低(如 0.29)可能表明存在过拟合问题。

“Amongus sus”

唉……我只试了几种风格,但效果确实还不错,所以嘛……

fp32 版本在哪里?!

据开发者称,在使用 fp16 或 fp32 时,质量上并无明显差异。(除非你使用了 xformers 等内存优化工具,这些反而可能导致比保存为 fp32 更严重的副作用。)

我想要它的 Diffusers 格式!

等 salt 把模型上传到 HF 之后看看吧,哈哈

那这模型到底有什么用?!

正如我开头所说:

> 把它想象成 NAI 刚推出时的样子。这不正是启动大量微调的绝佳方式吗?你完全可以用 WD 1.5 B3 来做到这一点。

强烈推荐并鼓励大家对它进行微调和/或 LoCon/LoRA 训练!

此模型生成的图像

未找到图像。