playground-v2-512px-base-anime-finetune

详情

模型描述

playground-v2-512px-base-anime-finetune

■这是一个实验性的微调模型。

我使用 onetrainer 进行了训练。

微调基于一个包含约 100,000 张图像的数据集,主要为动漫图像,也包含部分写实和 AI 生成图像。训练分辨率为 512px。

我想与大家分享 playground v2 512px 基础模型的可能性。

它与 SDXL 一致,因此您可以直接下载并立即使用。

该模型的优势在于 512px 分辨率,因此如果您希望使用 SDXL 架构,但面临显存不足等问题,我认为这将是理想选择。

对于那些希望使用 SDXL 架构,但觉得 1024px 生成尺寸过大,或希望以 512px 生成图像的人来说,这个模型可能是个不错的选择。

微调在 512px 下进行,优点是无需准备 1024px 数据集,您可以沿用之前 SD1.5 使用的数据集,负担更轻,训练时间也能缩短。

1024px 会消耗大量训练时间、缓存时间、缓存空间、显存、硬盘等资源……

它比 1024px 快 4 倍。如果我的计算有误,敬请谅解……但能在低分辨率下享受 SDXL 架构的优势,学习过程既快速又有趣。

这个模型可能具有巨大潜力。

我希望越来越多的人能发现具有潜力的基础模型,并进一步探索其可能性。如果我能为此贡献一份力量,我将非常高兴。

■请注意,该模型也可能生成成人内容。

有时会生成强烈写实或 AI 风格的图像。

建议在负面提示中加入 "realistic"。

"blush"(脸红)这个标签可能有效,因为它能强制输出动漫风格。

这是一个非常强烈的标签,若置于提示开头,效果可能过强。

另一方面,尝试非动漫风格的内容或许也有趣。

意想不到的发现往往出现在原本未设想的领域。

无需对结果要求完美,这个模型仍不成熟,那些“失败”的结果可能更有趣!

尝试使用能自动生成标签的工具,生成各种标签组合,可能会很有趣。

■本模型的标准尺寸为 512px

推荐使用类似 SD1.5 的长宽比,例如 512x768。

768px 或 1024px 未经过训练,结果会非常糟糕。

若在 i2i 中设置过大尺寸,将导致失败。

上限建议为 1.5 倍放大,去噪强度为 0.5。

我喜欢使用 dpmpp_sde,步数:12,CFG:3-5。Euler a 也很稳定且效果良好,生成速度也会更快。

i2i 中可自由提高 CFG 值,当 CFG 达到约 15 时,对比度和细节会更加突出。

■已添加 LoRA 以强化动漫风格。

更多详情请参见 LoRA 标签页。

我的近期测试结果也记录在那里。

我已经越来越熟悉推理过程了!

ComfyUI 工作流也已更新。

■已添加一个合并了 0.4 文本编码器(来自 Animagine-xl-3.1)至 v0.0_aesthetic 的模型。

详细说明请见 v0.0_aesthetic_TE 标签页。

这非常实验性,我无法自信推荐,但如果您感兴趣,请务必尝试!

若深入探索,您可能会生成略微像动漫角色的真人图像。样本图中的人物像谁?我可是费了很大劲才做到的!LOL!

我没有对角色进行微调,因此请不要期望太高!

没想到还能生成手持吉他或剑的人物图像……

也许还能生成其他意想不到的内容。

也许 Animagine 标签规则也会有效?……

■已添加一个稳定质量的合并模型。

我提取了 playground-v2-1024px-aesthetic 与预训练模型之间的差异,并以 +0.5 比例合并。

除 512px 外,其他分辨率在 i2i 放大时的稳定性也得到提升。

尽管风格和标签识别率会变化,但审美质量也增强,若您觉得原始模型难以使用,我们推荐此版本。

CFG 值在 3 左右即可稳定运行。若颜色偏暗,请调低数值。

实际效果远超我的预期。

涉及成人内容时,原始模型响应更明显。

您可以自行探索理想的组合,这会很有趣。

图像可能略显模糊,您可能需要通过超分或其他方式锐化。

样本图中有一张持剑的图像,我本以为无法生成,结果意外成功……

有时甚至能无错误生成 786x1152px 的图像。

↓ 可尝试将推理过程分阶段进行:

  1. 在 512x768px 下尝试提示,明确您的构想;
  2. 在 768x1152px 下生成更优的构图和人体结构;
  3. 利用 i2i 提升细节。

■风格缺乏一致性,质量较差,无固定设置或提示。

相比现有模型无明显优势,数据集也更窄。

唯一优点是模型轻量。

若您发现其他优势,请告知我!

■我使用 danbooru 标签进行训练。

少量标签可能导致灾难性结果。本模型的高质量标签主要来自 danbooru 和 SD 中常用标签。

我们仅学习通用标签如 "1girl",并未训练艺术家或动漫作品标签。

若您未来继续训练,希望您能告诉我您希望拥有哪些数据集,我将非常感激。

标签顺序很重要,每个标签都对应独特的图像。

热门标签可能带来更高品质,但图像特征也会更强烈,因此可通过添加其他标签或调整顺序来稀释效果。

若效果过强,可尝试降低权重。

如 "looking at viewer"(注视观众)、"upper body"(上半身)、"shiny skin"(闪亮皮肤" 等,很容易生成高质量图像。

我未添加 "nsfw" 标签进行训练,但不知为何,它似乎仍有效……

■这是一个不完善且较难使用的模型,但如果您感兴趣,请务必尝试!我对提示词不擅长,若您能生成有趣的结果,请分享给我,让我能进一步强化这个模型。

您的反馈将激励我尝试更广泛的数据集训练。

仍有大量标签尚未被学习,未来将能实现更多样化的表达。

■我已添加用于生成测试的 ComfyUI 工作流。

无论您使用何种软件,都请尝试多种工具进行生成!

■与 SDXL U-Net 合并失败。若您知道合并方法,请告知我,将不胜感激。

一旦能实现合并,您便能受益于其他优秀的 SDXL 模型!

它的权重与 SDXL 不同,基本无兼容性,但若能找到合并方法,会非常有趣。

我认为它可能与其他 playground 模型合并,也可能很有趣。

若您发现不同模型合并后产生奇妙化学反应,请分享出来!

无论是写实或动漫风格都无妨。

■为与其他 playground_v2 进行差分合并,我已添加训练源模型:playground-v2-512px-base。

我已将其上传至 "v0.0_base" 模型标签页,请前往查看。

现在,您可通过差分提取,获取其他 playground_v2 1024px 的审美训练 + 微调权重。若以 +1.0 比例添加合并,512px 基础模型将匹配 1024px;+0.5 能获得中间效果,适用范围更广。另一方面,若对我的模型进行差分提取,您将仅获得我的微调结果,并可将其添加合并至其他 playground_v2 1024px 模型。组合方式多样,非常有趣。

我认为 LoRA 也可像 SDXL 一样进行训练。

仍有许多未明之处,我暂不详细说明,但若您有正面反馈,我愿尽可能分享更多信息。

■已添加 float32 检查点和 diffuser 模型用于微调。训练配置为 diffuser 模型附带的 onetrainer_config。

我已将其上传至 "v0.0_base" 模型标签页,请前往查看。

U-Net 和文本编码器均已微调。

若您的训练工具支持 SDXL,便可无问题训练。若您仍有顾虑,我使用的 onetrainer 会更让您安心。

在 512px 分辨率下,该模型训练效果极佳,训练过程非常有趣。

playground-v2-512px-base 是在审美微调之前的 SDXL 模型,正处于训练中期。

这是一个非常罕见的资源,通常我们无法获得。它拥有无限可能性。

以它为起点,您可以按需创建专属的专用模型。

我仅画了一张略显不满意但却精美的校园图像。

只要加以完善,它将成为一幅绝佳的作品。

我的梦想是看到更多能在低分辨率(如 512px)下生成的 SDXL 模型!

若能在低训练成本下加入 512px 训练,进一步丰富概念,会很有趣;或者,通过加入 384px + 768px 并进行多分辨率训练,既可灵活支持低、高分辨率,又能维持 512px 的优势,减少超分失败,更容易记住细腻的细节和概念。

即便训练期间的样本图像质量不佳,也无妨。当我实际进行推理并自动生标签时,效果出乎意料地好。只要训练不失败、不产生噪声,就可以。

即使训练结果不佳,若与其他模型合并,512px_base 或之后训练的缺失审美元素会被补足,高分辨率表现将更强,从而生成超越您想象的图像!

在训练前,或许可以先用 "animagine" 或 "pony" 等 SDXL 文本编码器替换,再进行训练。

文本编码器已包含已知的字符和 danbooru 标签,您只需训练 U-Net 即可!

将文本编码器以 0.5 比例合并,保留两种特性并进一步训练,可能也不失为一个好方法。

我是 Civitai 的新手,若您有任何意见,欢迎告诉我!

您的反馈是我前进的动力。m(_ _)m

总下载量已超过 300 次!感谢您对我这个不成熟模型的关注!非常感谢您的众多点赞。m(_ _)m

■用于微调的优秀预训练模型:

https://huggingface.co/playgroundai/playground-v2-512px-base

如有任何问题,欢迎随时提问!

也欢迎您用日语提问~

此模型生成的图像

未找到图像。