Retro 90's Anime / Golden Boy Style Lora Wan 2.2 14B
详情
下载文件
关于此版本
模型描述
Wan 2.2 14B V1 新增内容:
- 此版本数据集与 2.1 的 LoRA 相同,但已同时在高、低两种 WAN 2.2 14B 模型上进行训练。
- 你将获得从 2.1 升级到 2.2 的所有好处,尤其是运动和摄像机控制效果非常出色。
- 警告:我觉得在风格上已偏离原始数据集较远,我稍后会尝试继续训练,但目前我认为已足够好,可以发布。接下来我想转向新项目,这次更新主要目的是学习如何训练 2.2。请阅读下方关于我新训练流程的说明。
这个 LoRA 是什么?
这是一个用于重现 1995 年动画系列《Golden Boy》风格的风格 LoRA。该系列拥有精美的 90 年代中期哑光绘画风格背景,在 LoRA 中表现得非常出色;而其对女性角色的绘制方式也极具时代特色,完美体现了当时夸张喜剧动画的艺术风格。即使你只是想在 Wan 中获得 90 年代中期的复古动画风格,也可以使用这个 LoRA,它在表现老式动画风格方面非常出色,尤其擅长精细的环境镜头。其标注内容不仅包括人物,还涵盖自行车、汽车、诱人的食物、垃圾等。该 LoRA 基于 T2V 模型训练,因此也适用于 I2V。
触发词:Goldenboystyle
(你无需在提示中额外添加任何关于动画或动漫风格的描述,它会自动呈现该风格。事实上,我建议避免在提示中加入任何动画关键词,因为当前基础模型对动画风格的掌握已远超以往,添加关键词反而会造成偏差。触发词甚至可能并非必需,但我仍保留它。)
训练数据中包含了该动画的所有角色。如果你提及“金发女性”,“总统夫人”就会非常准确地生成;若描述剧中任何角色,通常都能准确生成;主角大江健太郎也会在描述中出现,但仅通过文字描述,而非直接使用名字。角色们夸张滑稽的表情也在训练数据中。训练数据包含裸露的乳房,但不包含下体。
推荐设置
该 LoRA 可直接在默认 Wan 工作流中运行,保留原始的怀旧复古动画风格。但我建议将此 LoRA 与以下优化 LoRA 混合使用。我推荐三种设置,各有优劣。
目前尚难判断哪种设置最优,除默认设置外,我更倾向于使用 2.1 Light LoRA,因为 2.2 会严重削弱运动效果,且使风格偏离原作,但仍保留不错的复古感。
我计划未来为我的 LoRA 创建专用工作流,并在此后提供链接。请直接下载我提供的示例工作流并自行尝试。
参见下方图像以观察其对画面的影响;关于运动效果,请参考我提供的生成示例,评论区中标注了我使用的设置。

示例工作流链接:
1.) 默认设置
仅使用该 LoRA,不加载其他 LoRA,即可正常运行,并最贴近原始素材的视觉效果。在 3090 显卡上生成一段 720p 视频需超过 20 分钟。
20 步(10/10),CFG 3.5,无 NAG
优点:更贴近训练数据。可获得 2.2 的全部优势,如运动、画质、摄像机控制等。
缺点:速度较慢,资源消耗较高。
2.) Lightx2V Wan 2.1 LoRA 优化
1.) 此 LoRA(Golden Boy 风格)(高、低模型强度均为 1.0)
2.) Wan21_T2V_14B_lightx2V_cfg_step_destill_lora_rank32(高、低模型强度均为 1.0,使用同一文件)
7 步(3/4),可尝试 4/4 或 2/2,CFG 1,启用 NAG
优点:可使用更少步骤生成高分辨率画面;运动效果保留良好,风格比 Lightning LoRA 更接近默认效果。
缺点:Lightx2V 是 Wan 2.1 LoRA,因此输出会更偏向 2.1 风格,而非 2.2;颜色偏暗;有时会引入奇怪的“雪花”效果,可通过提高 Lightx2V LoRA 强度缓解。
3.) Lightning 1.1 Wan 2.2 LoRA 优化
7 步(3/4),可尝试 4/4 或 2/2,CFG 1,启用 NAG
1.) 此 LoRA(Golden Boy 风格)(高、低模型强度均为 1.0)
2.) Wan 2.2 Lightning v1.1 LoRA(高、低模型强度均为 1.0)
优点:可使用更少步骤生成高分辨率画面;颜色更明亮、饱和度更低,适合偏好该美学风格的用户;作为 2.2 LoRA,理论上应享有 2.2 的优势,但目前其功能存在异常。参见讨论
缺点:风格影响显著;虽仍具动画复古感,但色彩比原作更亮;运动效果严重削弱。
4.) 其他 2.1 LoRA
- Wan2.1-Fun-14B-InP-MPS(强度 1.0)
- Wan21_T2V_14B_MoviiGen_lora_rank32_fp16(强度 0.5)
- 2.1 版本的 Goldenboystyle LoRA,可尝试在高或低模型中混合,低模型可能更佳。
上述两个 LoRA 在 2.1 版本中表现极佳,但我已不再使用,因为我认为使用的 2.1 LoRA 越多,输出就越偏离 2.2,而更接近 2.1。若未来发布这些 LoRA 的 2.2 版本,我会更新此处。
请参考下方示例,观察每种设置对输出与原作的差异。
最终,我认为没有绝对最佳的选择,因为每种方案都有其缺点,目前尚难确定最优配置。若我未来有新发现,我会更新此部分。由于方案 #3 过度削弱运动,我最常使用方案 #2;而我对方案 #1 的速度实在缺乏耐心。如果你有不错的设置建议,请告诉我。
训练信息
低模型 LoRA:
[model]
type = 'wan'
ckpt_path = '/data/trainingstuff/wan2.2_base_checkpoint/low_noise_model'
transformer_path = '/data/trainingstuff/wan2.2_base_checkpoint/low_noise_model'
dtype = 'bfloat16'
transformer_dtype = 'float8'
timestep_sample_method = 'logit_normal'
blocks_to_swap = 8
min_t = 0
max_t = 0.875
[adapter]
type = 'lora'
rank = 32
dtype = 'bfloat16'
[optimizer]
type = 'adamw_optimi'
lr = 2e-5
betas = [0.9, 0.99]
weight_decay = 0.01
eps = 1e-8
高模型 LoRA:
设置基本与低模型相同,仅将 max_t/min_t 从 0.875 改为 1.0 范围。
type = 'automagic'
lr = 2e-5
weight_decay = 0.00195
lr_bump = 5e-6
eps = 1e-8
让我们看看图表:
这是低 LoRA 的训练曲线:

可以看到波动剧烈,整体呈缓慢下降趋势。第 65 轮时效果尚可,但我继续训练了。实际上,65 和 106 轮之间差异不大。我始终无法将损失降至 0.8 以下,或许换一套训练参数能实现。
这是高 LoRA 的训练曲线:

(我暂时找不到原始训练数据,但此截图已足够说明问题。曲线趋势如此,后期趋于平稳。高模型的损失下降效果显著更好,所需步骤也少得多。)
抱歉,我无法找到原始训练数据(可能是被删除了),但我仍保留了各轮次模型。这并不重要,因为高模型训练速度快,能快速达到理想状态,与低模型的缓慢、波动剧烈形成鲜明对比。
我的观点是:在预览时,应由高模型负责捕捉整体动态构图,因为它是为运动设计的;低模型则负责补充细节。若高模型构图偏差较大,低模型的细节将失真。
注意:
我曾对低模型尝试使用 automagic 进行初始训练,结果惨不忍睹,没有 Lightx LoRA 辅助时会出现鬼影和运动模糊。于是我改用上述设置,采用 adamw_optimi 重新训练低模型,所有问题均彻底解决。我虽不能完全确定,但我推测:低模型在默认设置下使用 adamw_optimi 训练效果更佳。高模型则两种均可,且训练速度极快,所需步数远少于低模型。
此外,我在第 65 轮后恢复训练低 LoRA 时出现失误,不知为何后续训练仅使用图像进行了 30 轮。虽未观察到负面效果,但仍提供最新轮次模型。你也可以尝试我附带的其他低模型轮次(含标注)。
测试 Wan 2.2 LoRA 非常困难,你必须同时训练高、低模型,再进行微调。如果你已有 2.1 LoRA,可将其用于高模型,先训练低模型,但这样会混入 2.1 与 2.2,我认为不如先训练好高模型再测试。总体而言,我认为这套双 LoRA 机制不够理想,变量太多,难以诊断问题。我花了大量时间调试,甚至放弃了超过 10K 步的训练数据。
衷心感谢
感谢的人实在太多,我在 Banodoco Discord 中频繁打扰他人,问些愚蠢问题,但大家都非常友善,耐心包容并帮助我。一如既往,我要特别感谢 Kijai 的鼎力相助,lightx 团队的 LoRA,以及 Seruva19 —— 他的 LoRA 和详尽的文档正是这个领域所急需的。我只是边摸索边拼凑现有信息,用蛮力组合成最终成果,希望每个人都能喜欢。
翻译说明:
- 保留了所有技术术语(如 LoRA、CFG、NAG、T2V、I2V、adamw_optimi 等)及链接、路径、文件名的原始格式。
- 保留了所有 `` 中的代码块和链接。
- 所有图像链接和标注均未翻译。
- 专有名词(如 Golden Boy、Kijai、Seruva19)保持原文。
- 括号内的注释、警告、建议等语义完整保留。
