Retro 90's Anime / Golden Boy Style Lora Wan 2.2 14B

详情

模型描述

Wan 2.2 14B V1 新增内容:

- 此版本数据集与 2.1 的 LoRA 相同,但已同时在高、低两种 WAN 2.2 14B 模型上进行训练。

- 你将获得从 2.1 升级到 2.2 的所有好处,尤其是运动和摄像机控制效果非常出色。

- 警告:我觉得在风格上已偏离原始数据集较远,我稍后会尝试继续训练,但目前我认为已足够好,可以发布。接下来我想转向新项目,这次更新主要目的是学习如何训练 2.2。请阅读下方关于我新训练流程的说明。

这个 LoRA 是什么?

这是一个用于重现 1995 年动画系列《Golden Boy》风格的风格 LoRA。该系列拥有精美的 90 年代中期哑光绘画风格背景,在 LoRA 中表现得非常出色;而其对女性角色的绘制方式也极具时代特色,完美体现了当时夸张喜剧动画的艺术风格。即使你只是想在 Wan 中获得 90 年代中期的复古动画风格,也可以使用这个 LoRA,它在表现老式动画风格方面非常出色,尤其擅长精细的环境镜头。其标注内容不仅包括人物,还涵盖自行车、汽车、诱人的食物、垃圾等。该 LoRA 基于 T2V 模型训练,因此也适用于 I2V。

触发词:Goldenboystyle

(你无需在提示中额外添加任何关于动画或动漫风格的描述,它会自动呈现该风格。事实上,我建议避免在提示中加入任何动画关键词,因为当前基础模型对动画风格的掌握已远超以往,添加关键词反而会造成偏差。触发词甚至可能并非必需,但我仍保留它。)

训练数据中包含了该动画的所有角色。如果你提及“金发女性”,“总统夫人”就会非常准确地生成;若描述剧中任何角色,通常都能准确生成;主角大江健太郎也会在描述中出现,但仅通过文字描述,而非直接使用名字。角色们夸张滑稽的表情也在训练数据中。训练数据包含裸露的乳房,但不包含下体。

推荐设置

该 LoRA 可直接在默认 Wan 工作流中运行,保留原始的怀旧复古动画风格。但我建议将此 LoRA 与以下优化 LoRA 混合使用。我推荐三种设置,各有优劣。

目前尚难判断哪种设置最优,除默认设置外,我更倾向于使用 2.1 Light LoRA,因为 2.2 会严重削弱运动效果,且使风格偏离原作,但仍保留不错的复古感。

我计划未来为我的 LoRA 创建专用工作流,并在此后提供链接。请直接下载我提供的示例工作流并自行尝试。

参见下方图像以观察其对画面的影响;关于运动效果,请参考我提供的生成示例,评论区中标注了我使用的设置。

示例工作流链接:

/model/1868641

1.) 默认设置

仅使用该 LoRA,不加载其他 LoRA,即可正常运行,并最贴近原始素材的视觉效果。在 3090 显卡上生成一段 720p 视频需超过 20 分钟。

20 步(10/10),CFG 3.5,无 NAG

优点:更贴近训练数据。可获得 2.2 的全部优势,如运动、画质、摄像机控制等。

缺点:速度较慢,资源消耗较高。

2.) Lightx2V Wan 2.1 LoRA 优化

1.) 此 LoRA(Golden Boy 风格)(高、低模型强度均为 1.0)

2.) Wan21_T2V_14B_lightx2V_cfg_step_destill_lora_rank32(高、低模型强度均为 1.0,使用同一文件)

7 步(3/4),可尝试 4/4 或 2/2,CFG 1,启用 NAG

优点:可使用更少步骤生成高分辨率画面;运动效果保留良好,风格比 Lightning LoRA 更接近默认效果。

缺点:Lightx2V 是 Wan 2.1 LoRA,因此输出会更偏向 2.1 风格,而非 2.2;颜色偏暗;有时会引入奇怪的“雪花”效果,可通过提高 Lightx2V LoRA 强度缓解。

3.) Lightning 1.1 Wan 2.2 LoRA 优化

7 步(3/4),可尝试 4/4 或 2/2,CFG 1,启用 NAG

1.) 此 LoRA(Golden Boy 风格)(高、低模型强度均为 1.0)

2.) Wan 2.2 Lightning v1.1 LoRA(高、低模型强度均为 1.0)

优点:可使用更少步骤生成高分辨率画面;颜色更明亮、饱和度更低,适合偏好该美学风格的用户;作为 2.2 LoRA,理论上应享有 2.2 的优势,但目前其功能存在异常参见讨论

缺点:风格影响显著;虽仍具动画复古感,但色彩比原作更亮;运动效果严重削弱

4.) 其他 2.1 LoRA

上述两个 LoRA 在 2.1 版本中表现极佳,但我已不再使用,因为我认为使用的 2.1 LoRA 越多,输出就越偏离 2.2,而更接近 2.1。若未来发布这些 LoRA 的 2.2 版本,我会更新此处。

请参考下方示例,观察每种设置对输出与原作的差异。

最终,我认为没有绝对最佳的选择,因为每种方案都有其缺点,目前尚难确定最优配置。若我未来有新发现,我会更新此部分。由于方案 #3 过度削弱运动,我最常使用方案 #2;而我对方案 #1 的速度实在缺乏耐心。如果你有不错的设置建议,请告诉我。

训练信息

低模型 LoRA:

[model]

type = 'wan'

ckpt_path = '/data/trainingstuff/wan2.2_base_checkpoint/low_noise_model'

transformer_path = '/data/trainingstuff/wan2.2_base_checkpoint/low_noise_model'

dtype = 'bfloat16'

transformer_dtype = 'float8'

timestep_sample_method = 'logit_normal'

blocks_to_swap = 8

min_t = 0

max_t = 0.875

[adapter]

type = 'lora'

rank = 32

dtype = 'bfloat16'

[optimizer]

type = 'adamw_optimi'

lr = 2e-5

betas = [0.9, 0.99]

weight_decay = 0.01

eps = 1e-8

高模型 LoRA:

设置基本与低模型相同,仅将 max_t/min_t 从 0.875 改为 1.0 范围。

type = 'automagic'

lr = 2e-5

weight_decay = 0.00195

lr_bump = 5e-6

eps = 1e-8

让我们看看图表:

这是低 LoRA 的训练曲线:

Image

可以看到波动剧烈,整体呈缓慢下降趋势。第 65 轮时效果尚可,但我继续训练了。实际上,65 和 106 轮之间差异不大。我始终无法将损失降至 0.8 以下,或许换一套训练参数能实现。

这是高 LoRA 的训练曲线:

Image

(我暂时找不到原始训练数据,但此截图已足够说明问题。曲线趋势如此,后期趋于平稳。高模型的损失下降效果显著更好,所需步骤也少得多。)

抱歉,我无法找到原始训练数据(可能是被删除了),但我仍保留了各轮次模型。这并不重要,因为高模型训练速度快,能快速达到理想状态,与低模型的缓慢、波动剧烈形成鲜明对比。

我的观点是:在预览时,应由高模型负责捕捉整体动态构图,因为它是为运动设计的;低模型则负责补充细节。若高模型构图偏差较大,低模型的细节将失真。

注意:

我曾对低模型尝试使用 automagic 进行初始训练,结果惨不忍睹,没有 Lightx LoRA 辅助时会出现鬼影和运动模糊。于是我改用上述设置,采用 adamw_optimi 重新训练低模型,所有问题均彻底解决。我虽不能完全确定,但我推测:低模型在默认设置下使用 adamw_optimi 训练效果更佳。高模型则两种均可,且训练速度极快,所需步数远少于低模型。

此外,我在第 65 轮后恢复训练低 LoRA 时出现失误,不知为何后续训练仅使用图像进行了 30 轮。虽未观察到负面效果,但仍提供最新轮次模型。你也可以尝试我附带的其他低模型轮次(含标注)。

测试 Wan 2.2 LoRA 非常困难,你必须同时训练高、低模型,再进行微调。如果你已有 2.1 LoRA,可将其用于高模型,先训练低模型,但这样会混入 2.1 与 2.2,我认为不如先训练好高模型再测试。总体而言,我认为这套双 LoRA 机制不够理想,变量太多,难以诊断问题。我花了大量时间调试,甚至放弃了超过 10K 步的训练数据。

衷心感谢

感谢的人实在太多,我在 Banodoco Discord 中频繁打扰他人,问些愚蠢问题,但大家都非常友善,耐心包容并帮助我。一如既往,我要特别感谢 Kijai 的鼎力相助,lightx 团队的 LoRA,以及 Seruva19 —— 他的 LoRA 和详尽的文档正是这个领域所急需的。我只是边摸索边拼凑现有信息,用蛮力组合成最终成果,希望每个人都能喜欢。

翻译说明:

  • 保留了所有技术术语(如 LoRA、CFG、NAG、T2V、I2V、adamw_optimi 等)及链接、路径、文件名的原始格式。
  • 保留了所有 `` 中的代码块和链接。
  • 所有图像链接和标注均未翻译。
  • 专有名词(如 Golden Boy、Kijai、Seruva19)保持原文。
  • 括号内的注释、警告、建议等语义完整保留。

此模型生成的图像

未找到图像。