NovelAI_Diffusion_V2
详情
下载文件
关于此版本
模型描述
这是由NovelAI发布的novelai_v2模型,已转换为safetensors格式,输出结果无任何差异。
该模型基于SD1.5,下载后可直接用于推理。更多详情请参见:
https://blog.novelai.net/novelai-diffusion-v2-weights-release-b9d5fef5b9a4
此模型可能看起来过时,但其训练质量极高,始终领先于我们。其标签识别能力远优于v1,堪比近期大规模的SDXL微调。此外,该模型仅使用U-Net进行训练,无任何文本编码器(TE)污染,结构纯净。
它不仅适用于文生图(T2I),还可用于与现有SD1.5模型融合,或通过图生图(I2I)增强其他模型的细节与风格。
■ 本模型基于SD1.5,但其原生分辨率为1024px,可实现高分辨率生成。
VAE也似乎有所改进,此前的褪色问题已消除,色彩更加鲜艳。仅此一点,就可能对现有的SD1.5动漫模型产生显著益处。
它还能生成1024x1536px的图像——虽然稳定性稍弱,但仍实用,可能在1344px附近表现更稳定。
我所有的示例图像均在1024x1536px下生成,未使用Hires.fix。
结果生动且极其锐利。
该模型在渲染眼睛、小饰品等精细细节方面表现出色。
尝试将其与其他模型融合也可能非常有趣。
若与现有的512px模型融合,应可生成768px宽高比的图像,如640x960。
对于此模型,请设置CLIP skip为2。
■ 目前,Civitai的SD1.5图像生成仅限于512px。我已申请支持1024px,但尚不清楚是否会添加。给希望使用Civitai进行推理的用户致歉……
https://feedback.civitai.com/p/please-consider-adding-768px-and-1024px-resolution-options-for-image
如果您能点赞支持,将有助于凸显其重要性。
■ 该模型理解众多概念,对标签提示响应良好。
由于仅使用U-Net训练,模型纯净,是微调的理想起点。
它已掌握大量概念,因此可能无需训练文本编码器。
当前1536px可能引发角色分裂,但在1280或1536px下训练LoRA有望提升稳定性。
■ 我准备了一个ComfyUI推理工作流,欢迎作为参考使用。
推荐使用Tipo和通配符的工作流,因其允许您无需自行构思标签即可尝试多种变化。
我自己也尚未完全掌握此模型,因此肯定存在更优的图像生成方法。
■ 若高分辨率推理速度较慢,HyperLoRA或可减少推理步数。
我对它的使用尚不熟悉,但已附上工作流供参考。若您有更优的工作流或加速方法,请告知我。
https://huggingface.co/ByteDance/Hyper-SD/blob/main/Hyper-SD15-8steps-CFG-lora.safetensors
■ 最佳做法是使用与SDXL相同的基分辨率宽高比。若不介意轻微不稳定,1024x1536也是可行的。
1024x1024
896x1152
832x1216
768x1344
640x1536
■ 目前仍处于早期测试阶段,质量尚未完善,但我已制作了一个用于稳定1024x1536生成的DoRA。
我将持续测试,并在有空时更新。
依我之见,除高分辨率优势外,LoRA还能减少过曝与过度饱和,使图像更平衡——因此创建风格化LoRA是明智之选。
/model/1253884?modelVersionId=2133885
■ 我创建了一个负向TI,有助于稳定质量,欢迎试用。
/model/1809022?modelVersionId=2047219
■ 我还制作了一个半写实风格的DoRA。
/model/1253884?modelVersionId=2134238
■ 我推荐的采样器如下:
・euler_ancestral:最稳定,最不易出错,但效果中等。
・dpmpp_sde:纹理与稳定性平衡极佳。比其他采样器慢,但所需步数减半,我更偏好它而非2m/3m。
・2m/3m:与其他采样器需相同步数;低步数时易出错。
・gradient_estimation:类似euler,但收敛更快,低步数下更稳定。
我偏好使用“simple”调度器。
“GITS调度器”锐利、时尚、色彩鲜明,速度快且收敛快,但对参数变化反应剧烈——不稳定设置易导致问题,手部与解剖结构易出错。若效果劣化,请调整参数或切换回常规调度器。
■ 推荐使用Uncondzero,它能略微提升速度,并通过autocfg效应增强生成稳定性。
https://github.com/Extraltodeus/Uncond-Zero-for-ComfyUI
■ 标签顺序
“1boy, 1girl, characters, series, 其他通用标签...”
但官方说明大多针对v3及之后版本,可能不适用于v2。
按您认为合理的顺序使用大概即可。
novelai_v1的顺序有时可能更优,甚至更正确。
质量标签的顺序尚不明确,但在官方V2模型示例中,质量标签似乎位于开头。从V3开始,它们被置于末尾。若我有误,请指正。
实际上,标签顺序影响权重与主体焦点。
对于简单提示,将质量标签置于开头有助于更轻松地获得高质量结果。
对于详细提示,质量、元数据和评级标签可能引入不必要元素,将其置于末尾有时可避免干扰,或许如此。
如需确认模型识别哪些标签,最可靠的方法是查看在NovelAI官网实际生成图像时弹出的建议标签。
■ 新增独家标签列表(博客未提及其它标签,其余可能与nai_v1相同)。
此处也可找到宝贵信息:
https://docs.novelai.net/image/tags.html
https://docs.novelai.net/image/qualitytags.html
■ 质量标签
best quality
amazing quality
great quality
normal quality
bad quality
worst quality
■ 美学标签
very aesthetic
aesthetic
displeasing
very displeasing
■ 年份标签
year 2022 等...
受danbooru数据集趋势影响,2020年后的图像普遍质量更高,尤其2022年后。
2018年前图像质量参差不齐,除非来自专业人士。判断哪些年份标签效果良好的最佳方式,是查看danbooru网站上的图像趋势。
本模型发布于2023年末,因此之后的标签可能无效。2023标签似乎有效,但可靠性较低;2022及更早标签应较安全。
我个人发现,年份标签对2014等旧风格效果显著。
近年标签并未带来明显收益——有时增加氛围感,但常引发黑白图像或文字伪影。
year 2020 与 year 2021 相对效果较好。
除非您明确希望呈现特定年份风格,否则避免使用年份标签作为质量指示更为稳定。
■ 评级标签
rating:general
rating:sensitive
rating:questionable
rating:explicit
NSFW(大小写不影响结果)
对于novelai_v2,是否添加“rating:”尚不明确。
我测试了带与不带的情况,未能确认。
■ 重命名标签
v 应写作 peace sign
double v 应写作 double peace
|_| 应写作 bar eyes
\||/ 应写作 open \m/
:| 应写作 neutral face
;| 应写作 neutral face
eyepatch bikini 应写作 square bikini
tachi-e 应写作 character image




















