NovelAI_Diffusion_V2
详情
下载文件
关于此版本
模型描述
这是由NovelAI发布的novelai_v2模型,已转换为safetensors格式。输出结果无任何差异。
该模型基于SD1.5,因此下载后即可直接用于推理。更多详情请参见:
https://blog.novelai.net/novelai-diffusion-v2-weights-release-b9d5fef5b9a4
该模型可能看似过时,但其训练质量极高,始终领先于我们。其标签识别能力远优于v1,可与近期大规模SDXL微调模型媲美。此外,该模型仅使用U-Net训练,无任何文本编码器(TE)污染,模型纯净。
它不仅适用于文本到图像(T2I),还可用于与现有SD1.5模型合并,或通过图像到图像(I2I)增强其他模型的细节与风格。
■ 本模型基于SD1.5,但其原生分辨率为1024px,支持高分辨率生成。
VAE似乎也得到了改进,此前的褪色问题已消失,色彩更加鲜艳。仅此一项改进,就可能对现有的SD1.5动漫模型产生积极影响。
它还可生成1024x1536px的图像——虽然稳定性略低,但依然实用;在约1344px时可能更稳定。
我所有的示例图像均在1024x1536下生成,未使用高分辨率修复(Hires fix)。
结果生动且极为锐利。
它在渲染眼睛和小型配饰等精细细节方面表现出色。
将它与其他模型合并也可能非常有趣。
若与现有512px模型合并,应可生成768px宽高比的图像,例如640x960。
对于此模型,请设置CLIP跳过2层(CLIP skip2)。
■ 目前,Civitai的SD1.5图像生成仅限于512px。我已申请支持1024px,但尚不清楚是否会添加。抱歉给希望在Civitai上进行推理的用户带来不便……
https://feedback.civitai.com/p/please-consider-adding-768px-and-1024px-resolution-options-for-image
若您能点赞支持,将有助于体现其重要性。
■ 该模型理解大量概念,对标签提示响应良好。
由于仅使用U-Net训练,模型纯净,是微调的理想起点。
它已掌握大量概念,因此可能无需训练文本编码器。
目前1536px下可能出现角色分裂,但若在1280或1536px下训练LoRA,可提升稳定性。
■ 我已准备了一个ComfyUI推理工作流,欢迎参考使用。
推荐使用Tipo和通配符的工作流,因为无需自行构思标签即可尝试多种变化。
我自己也尚未完全掌握该模型,相信还有更优的图像生成方法。
■ 若高分辨率推理速度较慢,HyperLoRA可能有助于减少采样步数。
我对它的使用尚不熟悉,但已附上工作流供参考。
如您有更好的工作流或加速方法,请告知我。
https://huggingface.co/ByteDance/Hyper-SD/blob/main/Hyper-SD15-8steps-CFG-lora.safetensors
■ 最好使用与SDXL相同的基分辨率宽高比。若不介意轻微不稳定,1024x1536也是可行的。
1024x1024
896x1152
832x1216
768x1344
640x1536
■ 目前仍处于早期测试阶段,质量尚未完美,但我已制作了一个用于稳定1024x1536生成的DoRA。
我会持续测试,并在有空时更新。
在我看来,除了高分辨率的优势外,LoRA还有助于减少过曝和过度饱和,使图像更平衡——因此制作风格化LoRA是个不错的选择。
/model/1253884?modelVersionId=2133885
■ 我创建了一个负向TI,用于提升稳定性,欢迎尝试。
/model/1809022?modelVersionId=2047219
■ 我还创建了一个半写实风格的DoRA。
/model/1253884?modelVersionId=2134238
■ 我推荐的采样器如下:
・euler_ancestral:最稳定,最不易出错,但效果一般。
・dpmpp_sde:纹理与稳定性平衡极佳。比其他采样器慢,但所需步数减半。我更偏好它而非2m/3m。
・2m/3m:与其他采样器所需步数相同;低步数时易出错。
・gradient_estimation:类似euler,但收敛更快,低步数下更稳定。
我偏好使用“simple”调度器。
“GITS调度器”锐利、风格鲜明、色彩生动,速度快且收敛快,但对参数变化反应剧烈——不稳定设置易导致问题,手部与解剖结构易崩坏。若效果下降,请调整参数或换回常规调度器。
■ 推荐使用Uncondzero,它可略微提升速度,并通过autocfg效应增强生成稳定性。
https://github.com/Extraltodeus/Uncond-Zero-for-ComfyUI
■ 标签顺序
“1boy, 1girl, characters, series, 其他通用标签...”
但官方说明大多针对v3及之后版本,可能不适用于v2。
使用您认为合理的顺序即可。
novelai_v1的方法有时可能更有效,甚至更准确。
质量标签的顺序尚不明确,但在官方V2模型示例中,质量标签似乎位于开头。从V3开始,它们被放在末尾。但若我理解有误,请指正。
实际上,标签顺序会影响强度与主次对象。
对于简单提示,将质量标签置于开头有助于更轻松地获得高质量结果。
对于详细提示,质量、元数据和评级标签可能引入不必要元素,因此将其置于末尾有时可避免干扰。
若想确认模型识别哪些标签,最可靠的方法是查看在NovelAI官网生成图像时出现的建议标签。
■ 新增独特标签列表(博客未提及其他标签,其余可能与nai_v1相同)。
此处同样可找到宝贵信息。
https://docs.novelai.net/image/tags.html
https://docs.novelai.net/image/qualitytags.html
■ 质量标签
best quality
amazing quality
great quality
normal quality
bad quality
worst quality
■ 美学标签
very aesthetic
aesthetic
displeasing
very displeasing
■ 年份标签
year 2022 等...
由于danbooru数据集趋势,2020年以后的图像普遍质量更高,尤其是2022年之后。
2018年前的图像质量参差不齐,除非出自专业人士。判断哪些年份标签有效,最佳方式是查看danbooru网站上的图像趋势。
本模型发布于2023年末,因此之后的标签可能无效。2023年标签似乎有效,但可靠性较低;2022年及之前的标签应较安全。
我个人发现,年份标签对2014年等旧风格效果显著。
近年标签带来的提升有限——有时能增加氛围,但常导致黑白图像或文字伪影。
year 2020 和 year 2021 相对较好。
除非您明确希望呈现某一年的风格,否则避免将年份标签作为质量指标更稳定。
■ 评级标签
rating:general
rating:sensitive
rating:questionable
rating:explicit
NSFW(大小写对结果无影响)
对于novelai_v2,是否应添加“rating:”尚不明确。
我测试了有无“rating:”两种情况,但未能确认。
■ 重命名标签
v 应改为 "peace sign"
double v 应改为 "double peace"
|_| 应改为 "bar eyes"
\||/ 应改为 "open \m/"
:| 应改为 "neutral face"
;| 应改为 "neutral face"
"eyepatch bikini" 应改为 "square bikini"
"tachi-e" 应改为 "character image"




















