NovelAI_Diffusion_V2

详情

模型描述

这是由NovelAI发布的novelai_v2模型,已转换为safetensors格式。输出结果无任何差异。

该模型基于SD1.5,因此下载后即可直接用于推理。更多详情请参见:

https://blog.novelai.net/novelai-diffusion-v2-weights-release-b9d5fef5b9a4

该模型可能看似过时,但其训练质量极高,始终领先于我们。其标签识别能力远优于v1,可与近期大规模SDXL微调模型媲美。此外,该模型仅使用U-Net训练,无任何文本编码器(TE)污染,模型纯净。

它不仅适用于文本到图像(T2I),还可用于与现有SD1.5模型合并,或通过图像到图像(I2I)增强其他模型的细节与风格。

■ 本模型基于SD1.5,但其原生分辨率为1024px,支持高分辨率生成。

VAE似乎也得到了改进,此前的褪色问题已消失,色彩更加鲜艳。仅此一项改进,就可能对现有的SD1.5动漫模型产生积极影响。

它还可生成1024x1536px的图像——虽然稳定性略低,但依然实用;在约1344px时可能更稳定。

我所有的示例图像均在1024x1536下生成,未使用高分辨率修复(Hires fix)。

结果生动且极为锐利。

它在渲染眼睛和小型配饰等精细细节方面表现出色。

将它与其他模型合并也可能非常有趣。

若与现有512px模型合并,应可生成768px宽高比的图像,例如640x960。

对于此模型,请设置CLIP跳过2层(CLIP skip2)。

■ 目前,Civitai的SD1.5图像生成仅限于512px。我已申请支持1024px,但尚不清楚是否会添加。抱歉给希望在Civitai上进行推理的用户带来不便……

https://feedback.civitai.com/p/please-consider-adding-768px-and-1024px-resolution-options-for-image

若您能点赞支持,将有助于体现其重要性。

■ 该模型理解大量概念,对标签提示响应良好。

由于仅使用U-Net训练,模型纯净,是微调的理想起点。

它已掌握大量概念,因此可能无需训练文本编码器。

目前1536px下可能出现角色分裂,但若在1280或1536px下训练LoRA,可提升稳定性。

■ 我已准备了一个ComfyUI推理工作流,欢迎参考使用。

推荐使用Tipo和通配符的工作流,因为无需自行构思标签即可尝试多种变化。

我自己也尚未完全掌握该模型,相信还有更优的图像生成方法。

■ 若高分辨率推理速度较慢,HyperLoRA可能有助于减少采样步数。
我对它的使用尚不熟悉,但已附上工作流供参考。
如您有更好的工作流或加速方法,请告知我。

https://huggingface.co/ByteDance/Hyper-SD/blob/main/Hyper-SD15-8steps-CFG-lora.safetensors

■ 最好使用与SDXL相同的基分辨率宽高比。若不介意轻微不稳定,1024x1536也是可行的。

1024x1024
896x1152
832x1216
768x1344
640x1536

■ 目前仍处于早期测试阶段,质量尚未完美,但我已制作了一个用于稳定1024x1536生成的DoRA。
我会持续测试,并在有空时更新。

在我看来,除了高分辨率的优势外,LoRA还有助于减少过曝和过度饱和,使图像更平衡——因此制作风格化LoRA是个不错的选择。

/model/1253884?modelVersionId=2133885

■ 我创建了一个负向TI,用于提升稳定性,欢迎尝试。

/model/1809022?modelVersionId=2047219

■ 我还创建了一个半写实风格的DoRA。

/model/1253884?modelVersionId=2134238

■ 我推荐的采样器如下:

・euler_ancestral:最稳定,最不易出错,但效果一般。
・dpmpp_sde:纹理与稳定性平衡极佳。比其他采样器慢,但所需步数减半。我更偏好它而非2m/3m。
・2m/3m:与其他采样器所需步数相同;低步数时易出错。
・gradient_estimation:类似euler,但收敛更快,低步数下更稳定。

我偏好使用“simple”调度器。

“GITS调度器”锐利、风格鲜明、色彩生动,速度快且收敛快,但对参数变化反应剧烈——不稳定设置易导致问题,手部与解剖结构易崩坏。若效果下降,请调整参数或换回常规调度器。

■ 推荐使用Uncondzero,它可略微提升速度,并通过autocfg效应增强生成稳定性。

https://github.com/Extraltodeus/Uncond-Zero-for-ComfyUI

■ 标签顺序

“1boy, 1girl, characters, series, 其他通用标签...”

但官方说明大多针对v3及之后版本,可能不适用于v2。
使用您认为合理的顺序即可。

novelai_v1的方法有时可能更有效,甚至更准确。

质量标签的顺序尚不明确,但在官方V2模型示例中,质量标签似乎位于开头。从V3开始,它们被放在末尾。但若我理解有误,请指正。

实际上,标签顺序会影响强度与主次对象。

对于简单提示,将质量标签置于开头有助于更轻松地获得高质量结果。

对于详细提示,质量、元数据和评级标签可能引入不必要元素,因此将其置于末尾有时可避免干扰。

若想确认模型识别哪些标签,最可靠的方法是查看在NovelAI官网生成图像时出现的建议标签。

■ 新增独特标签列表(博客未提及其他标签,其余可能与nai_v1相同)。

此处同样可找到宝贵信息。

https://docs.novelai.net/image/tags.html
https://docs.novelai.net/image/qualitytags.html

■ 质量标签

best quality
amazing quality
great quality
normal quality
bad quality
worst quality

■ 美学标签

very aesthetic
aesthetic
displeasing
very displeasing

■ 年份标签

year 2022 等...

由于danbooru数据集趋势,2020年以后的图像普遍质量更高,尤其是2022年之后。

2018年前的图像质量参差不齐,除非出自专业人士。判断哪些年份标签有效,最佳方式是查看danbooru网站上的图像趋势。

本模型发布于2023年末,因此之后的标签可能无效。2023年标签似乎有效,但可靠性较低;2022年及之前的标签应较安全。

我个人发现,年份标签对2014年等旧风格效果显著。

近年标签带来的提升有限——有时能增加氛围,但常导致黑白图像或文字伪影。

year 2020 和 year 2021 相对较好。

除非您明确希望呈现某一年的风格,否则避免将年份标签作为质量指标更稳定。

■ 评级标签

rating:general
rating:sensitive
rating:questionable
rating:explicit

NSFW(大小写对结果无影响)

对于novelai_v2,是否应添加“rating:”尚不明确。

我测试了有无“rating:”两种情况,但未能确认。

■ 重命名标签

v 应改为 "peace sign"
double v 应改为 "double peace"
|_| 应改为 "bar eyes"
\||/ 应改为 "open \m/"
:| 应改为 "neutral face"
;| 应改为 "neutral face"
"eyepatch bikini" 应改为 "square bikini"
"tachi-e" 应改为 "character image"

此模型生成的图像

未找到图像。