NovelAI_Diffusion_V2

详情

模型描述

这是由NovelAI发布的novelai_v2模型,已转换为safetensors格式,输出结果无任何差异。

该模型基于SD1.5,下载后可直接用于推理。更多详情请参见:

https://blog.novelai.net/novelai-diffusion-v2-weights-release-b9d5fef5b9a4

此模型可能看起来过时,但其训练质量极高,始终领先于我们。其标签识别能力远优于v1,堪比近期大规模的SDXL微调。此外,该模型仅使用U-Net进行训练,无任何文本编码器(TE)污染,结构纯净。

它不仅适用于文生图(T2I),还可用于与现有SD1.5模型融合,或通过图生图(I2I)增强其他模型的细节与风格。

■ 本模型基于SD1.5,但其原生分辨率为1024px,可实现高分辨率生成。

VAE也似乎有所改进,此前的褪色问题已消除,色彩更加鲜艳。仅此一点,就可能对现有的SD1.5动漫模型产生显著益处。

它还能生成1024x1536px的图像——虽然稳定性稍弱,但仍实用,可能在1344px附近表现更稳定。

我所有的示例图像均在1024x1536px下生成,未使用Hires.fix。

结果生动且极其锐利。

该模型在渲染眼睛、小饰品等精细细节方面表现出色。

尝试将其与其他模型融合也可能非常有趣。

若与现有的512px模型融合,应可生成768px宽高比的图像,如640x960。

对于此模型,请设置CLIP skip为2。

■ 目前,Civitai的SD1.5图像生成仅限于512px。我已申请支持1024px,但尚不清楚是否会添加。给希望使用Civitai进行推理的用户致歉……

https://feedback.civitai.com/p/please-consider-adding-768px-and-1024px-resolution-options-for-image

如果您能点赞支持,将有助于凸显其重要性。

■ 该模型理解众多概念,对标签提示响应良好。

由于仅使用U-Net训练,模型纯净,是微调的理想起点。

它已掌握大量概念,因此可能无需训练文本编码器。

当前1536px可能引发角色分裂,但在1280或1536px下训练LoRA有望提升稳定性。

■ 我准备了一个ComfyUI推理工作流,欢迎作为参考使用。

推荐使用Tipo和通配符的工作流,因其允许您无需自行构思标签即可尝试多种变化。

我自己也尚未完全掌握此模型,因此肯定存在更优的图像生成方法。

■ 若高分辨率推理速度较慢,HyperLoRA或可减少推理步数。

我对它的使用尚不熟悉,但已附上工作流供参考。若您有更优的工作流或加速方法,请告知我。

https://huggingface.co/ByteDance/Hyper-SD/blob/main/Hyper-SD15-8steps-CFG-lora.safetensors

■ 最佳做法是使用与SDXL相同的基分辨率宽高比。若不介意轻微不稳定,1024x1536也是可行的。

1024x1024
896x1152
832x1216
768x1344
640x1536

■ 目前仍处于早期测试阶段,质量尚未完善,但我已制作了一个用于稳定1024x1536生成的DoRA。
我将持续测试,并在有空时更新。

依我之见,除高分辨率优势外,LoRA还能减少过曝与过度饱和,使图像更平衡——因此创建风格化LoRA是明智之选。

/model/1253884?modelVersionId=2133885

■ 我创建了一个负向TI,有助于稳定质量,欢迎试用。

/model/1809022?modelVersionId=2047219

■ 我还制作了一个半写实风格的DoRA。

/model/1253884?modelVersionId=2134238

■ 我推荐的采样器如下:

・euler_ancestral:最稳定,最不易出错,但效果中等。

・dpmpp_sde:纹理与稳定性平衡极佳。比其他采样器慢,但所需步数减半,我更偏好它而非2m/3m。

・2m/3m:与其他采样器需相同步数;低步数时易出错。

・gradient_estimation:类似euler,但收敛更快,低步数下更稳定。

我偏好使用“simple”调度器。

“GITS调度器”锐利、时尚、色彩鲜明,速度快且收敛快,但对参数变化反应剧烈——不稳定设置易导致问题,手部与解剖结构易出错。若效果劣化,请调整参数或切换回常规调度器。

■ 推荐使用Uncondzero,它能略微提升速度,并通过autocfg效应增强生成稳定性。

https://github.com/Extraltodeus/Uncond-Zero-for-ComfyUI

■ 标签顺序

“1boy, 1girl, characters, series, 其他通用标签...”

但官方说明大多针对v3及之后版本,可能不适用于v2。

按您认为合理的顺序使用大概即可。

novelai_v1的顺序有时可能更优,甚至更正确。

质量标签的顺序尚不明确,但在官方V2模型示例中,质量标签似乎位于开头。从V3开始,它们被置于末尾。若我有误,请指正。

实际上,标签顺序影响权重与主体焦点。

对于简单提示,将质量标签置于开头有助于更轻松地获得高质量结果。

对于详细提示,质量、元数据和评级标签可能引入不必要元素,将其置于末尾有时可避免干扰,或许如此。

如需确认模型识别哪些标签,最可靠的方法是查看在NovelAI官网实际生成图像时弹出的建议标签。

■ 新增独家标签列表(博客未提及其它标签,其余可能与nai_v1相同)。

此处也可找到宝贵信息:

https://docs.novelai.net/image/tags.html
https://docs.novelai.net/image/qualitytags.html

■ 质量标签

best quality
amazing quality
great quality
normal quality
bad quality
worst quality

■ 美学标签

very aesthetic
aesthetic
displeasing
very displeasing

■ 年份标签

year 2022 等...

受danbooru数据集趋势影响,2020年后的图像普遍质量更高,尤其2022年后。

2018年前图像质量参差不齐,除非来自专业人士。判断哪些年份标签效果良好的最佳方式,是查看danbooru网站上的图像趋势。

本模型发布于2023年末,因此之后的标签可能无效。2023标签似乎有效,但可靠性较低;2022及更早标签应较安全。

我个人发现,年份标签对2014等旧风格效果显著。

近年标签并未带来明显收益——有时增加氛围感,但常引发黑白图像或文字伪影。

year 2020 与 year 2021 相对效果较好。

除非您明确希望呈现特定年份风格,否则避免使用年份标签作为质量指示更为稳定。

■ 评级标签

rating:general
rating:sensitive
rating:questionable
rating:explicit

NSFW(大小写不影响结果)

对于novelai_v2,是否添加“rating:”尚不明确。

我测试了带与不带的情况,未能确认。

■ 重命名标签

v 应写作 peace sign
double v 应写作 double peace
|_| 应写作 bar eyes
\||/ 应写作 open \m/
:| 应写作 neutral face
;| 应写作 neutral face
eyepatch bikini 应写作 square bikini
tachi-e 应写作 character image

此模型生成的图像

未找到图像。