Igarashi Rika/五十嵐梨花 | Wan2.1 & 2.2 14B T2V

详情

模型描述

Wan2.1:

此LoRA描绘了Nijisanji角色五十岚梨花(Igarashi Rika)。

触发词:Igarashi Rika, anime-style girl。图像为一位动漫风格角色,拥有长及束成高发髻的浅橙色头发,发髻上装饰有白色蝴蝶结和黄色星星状发饰。角色拥有大而富有表现力的蓝色眼睛,略带闪烁感。她佩戴一条黑色项圈,配小吊坠;身穿绿色无袖上衣,搭配黄色猫形扣腰带。服装还包括白色领饰及带有白色兜帽的黑色外套。角色穿着黑色条纹及膝袜,脚穿带有星星装饰的白色鞋子。

训练数据:musubi-tuner,30张图像

描述:由Qwen2.5-VL-3B调整后的描述(包含背景描述)

lr:(2e-4,flow_shift3.0)

epoch:200

train_step:6000

lora_strength:0.8

示例提示词:Igarashi Rika, anime-style girl。图像为一位动漫风格角色,拥有长及束成高发髻的浅橙色头发,发髻上装饰有白色蝴蝶结和黄色星星状发饰。角色拥有大而富有表现力的蓝色眼睛,略带闪烁感。她佩戴一条黑色项圈,配小吊坠;身穿绿色无袖上衣,搭配黄色猫形扣腰带。服装还包括白色领饰及带有白色兜帽的黑色外套。角色穿着黑色条纹及膝袜,脚穿带有星星装饰的白色鞋子。(她正在跳舞:2.5),(Q版Nendoroid:3.5),在卧室中。

动作提示需根据强调权重调整至2.0至4.0,或配合使用运动LoRA。

Action prompt should be adjusted to 2.0 to 4.0 depending on emphasis prompt. Or motion lora use together.


Wan2.2 ver2:

触发词:Igarashi Rika, anime-style girl。图像为一位动漫风格角色,拥有长及束成高马尾的浅粉色头发,发尾装饰有星星状发饰。角色拥有蓝色眼睛,佩戴一条黑色项圈配小吊坠。身穿青绿色与橙色搭配的服装,包括短裙和带兜帽的外套。服装设计为短裙配高领,外加一件黑色外套,带有黄色口袋和胸前小蝴蝶结。角色穿着黑色条纹及膝袜,脚穿带有星星装饰的白色鞋子。

lr:(3e-4,flow_shift7.0,timestep_boundary 885)

epoch:140

train_step:4200

lora_strength:0.8

示例提示词:Igarashi Rika, anime-style girl。图像为一位动漫风格角色,拥有长及束成高马尾的浅粉色头发,发尾装饰有星星状发饰。角色拥有蓝色眼睛,佩戴一条黑色项圈配小吊坠。身穿青绿色与橙色搭配的服装,包括短裙和带兜帽的外套。服装设计为短裙配高领,外加一件黑色外套,带有黄色口袋和胸前小蝴蝶结。角色穿着黑色条纹及膝袜,脚穿带有星星装饰的白色鞋子。(她正在跳舞:4.0),(Q版Nendoroid:4.5),在卧室中。

动作提示需根据强调权重调整至3.0至5.0,或配合使用运动LoRA。

建议与lightx2v Wan2.2 v1.1 LoRA配合使用。

Action prompt should be adjusted to 3.0 to 5.0 depending on emphasis prompt. Or motion lora use together.

It is recommended to use with lightx2v Wan2.2 v1.1 lora.

・为何使用 --timestep_boundary 885

在使用dpm++,step=8,shift=7.0时,时间步为[1.0000, 0.9800, 0.9545, 0.9210, "0.8750", 0.8077, 0.7000, 0.5000]。

此时,low-noise模型的第一步为0.8750,虽然画面质量尚可,但角色还原度偏低。

当将shift调小,使0.8750→0.865时,发现角色还原度明显提升(尽管画面质量略有下降)。

似乎musubi-tuner仅从high/low模型中学习单一LoRA,且当--timestep_boundary为875时,模型未能有效学习此边界点。

因为在0.876时使用high模型训练,在0.874时使用low模型训练,因此在0.875附近,high/low模型各有50%概率被选中。

生成时使用0.875的low模型,但仅靠low模型无法学习此边界点。若训练两个LoRA则不会出现此问题。

当将训练时的--timestep_boundary设为885时,角色还原度显著提升。


Wan2.2 ver1:

此LoRA描绘了Nijisanji角色五十岚梨花(Igarashi Rika)。

触发词:Igarashi Rika, anime-style girl。图像为一位动漫风格角色,拥有长及束成高发髻的浅橙色头发,发髻上装饰有白色蝴蝶结和黄色星星状发饰。角色拥有大而富有表现力的蓝色眼睛,略带闪烁感。她佩戴一条黑色项圈,配小吊坠;身穿绿色背带工装裤,搭配黄色猫形扣腰带。服装还包括白色领饰及橙黑相间的外套,带有白色兜帽。角色穿着黑色条纹及膝袜,脚穿带有星星装饰的白色鞋子。

训练数据:musubi-tuner,30张图像

描述:由Qwen2.5-VL-3B调整后的描述(包含背景描述)

lr:(2e-4,flow_shift7.0)

epoch:200

train_step:6000

lora_strength:1.0

示例提示词:Igarashi Rika, anime-style girl。图像为一位动漫风格角色,拥有长及束成高发髻的浅橙色头发,发髻上装饰有白色蝴蝶结和黄色星星状发饰。角色拥有大而富有表现力的蓝色眼睛,略带闪烁感。她佩戴一条黑色项圈,配小吊坠;身穿绿色背带工装裤,搭配黄色猫形扣腰带。服装还包括白色领饰及橙黑相间的外套,带有白色兜帽。角色穿着黑色条纹及膝袜,脚穿带有星星装饰的白色鞋子。(她正在跳霹雳舞:3.5),在卧室中。

动作提示需根据强调权重调整至3.0至5.0,或配合使用运动LoRA。

Style LoRA(试作)与Character LoRA应在high/low两个模型上使用相同权重。lightx2v Wan2.2 V1.1需使用不同权重。

Style lora(M1_prototype) and character lora should be adapted same weight to both high and low models. lightx2v wan2.2 V1.1 apply a different weight.

Style LoRA(试作)已附上,但仍在调整中。


LoRA制作备注:

・最初尝试用musubi-tuner训练Wan2.2时,沿用Wan2.1的训练方法,仅将--dit models/wan2.1_t2v_14B_fp16.safetensors替换为--dit models/wan2.2_t2v_high_noise_14B_fp16.safetensors,仅训练high-noise模型。

此时角色还原度不佳,且背景偏白。

进一步提高LoRA强度后,角色还原度略有提升,但动作几乎消失,背景变得全白。

・在Wan2.2的两段式工作流中,尝试将两个模型均替换为Wan2.1,并分别去掉前半段或后半段的LoRA强度。

但发现角色LoRA的特征跨越了high-noise和low-noise两个区域,仅训练其中一种模型不足以覆盖。

・尝试组合“(wan2.2_high_noise_model + wan2.2 lora) + (wan2.1_model + wan2.1 lora)”,但未能解决问题。

・尝试设置--min_timestep 875 --max_timestep 1000或使用--discrete_flow_shift 0.33的倒数,均未改善。

・当时也在Wan2.2的视频生成参数上进行了大量试验。

・此外,尝试在Wan2.2的low-noise模型上训练style LoRA,但加入后画质并无明显变化。

☆在此期间,musubi-tuner正式支持了Wan2.2的训练。

从high/low模型中仅学习一个LoRA。

由于占用VRAM量大,在本地4070Ti(12GB)上即使设置blocks_to_swap 38也无法训练,最终使用Google Colab的A100完成训练。

还需执行“%pip install -e .”和“%pip install --upgrade bitsandbytes”。

使用30张图像、训练分辨率576,包含模型加载时间,200步耗时约2小时30分钟,300步约3小时30分钟。

最初--discrete_flow_shift设为3.0,后改为7.0。200 epoch时,7.0的LoRA权重效果更好,但可能只是缓解了过拟合。

以下是本人的训练命令参考:

!accelerate launch --num_cpu_threads_per_process 1 --mixed_precision bf16 wan_train_network.py --task t2v-A14B --dit models/wan2.2_t2v_low_noise_14B_fp16.safetensors --dit_high_noise models/wan2.2_t2v_high_noise_14B_fp16.safetensors --dataset_config configs/config.toml --sdpa --mixed_precision bf16 --fp8_base --optimizer_type adamw8bit --learning_rate 2e-4 --gradient_checkpointing --max_data_loader_n_workers 2 --persistent_data_loader_workers --network_module networks.lora_wan --network_dim 32 --timestep_sampling shift --discrete_flow_shift 7.0 --max_train_epochs 301 --save_every_n_epochs 20 --seed 42 --output_dir outputs --output_name wan22_multi2_test004 --blocks_to_swap 4 --preserve_distribution_shape --mixed_precision fp16

・但使用该LoRA生成时,虽然动作表现良好,整体生成质量仅属一般。

而使用lightx2v Wan2.2 V1.1后,画质明显提升。

此前训练的style LoRA在接入lightx2v后也开始发挥效果。

即使不使用style LoRA,生成结果也相当不错。style LoRA的主要优势在于即使CFG=1,画质仍保持较高水平。

角色还原度不佳,仅因提示词不够精确;经过微调提示词后,效果显著改善。

Wan2.1对提示词的容错性更强,即使提示词稍有偏差仍能生成角色;反过来,Wan2.2对错误提示词更敏感,不会轻易忽略。

生成条件为前半4步、后半4步,共8步,两阶段CFG均为1。

此模型生成的图像

未找到图像。