[WAN 14B] LoRA

使用 diffusion-pipe 在 Wan2.1-T2V-14B 上训练，数据集包含图像和视频
- 37 张图像，23 个视频
视频预览使用 ComfyUI_examples/wan/#text-to-video 生成
- 使用 LoraLoaderModelOnly 节点加载 LoRA，并使用 fp8 14B wan2.1_t2v_14B_fp8_e4m3fn.safetensors
图像预览使用修改后的 ComfyUI_examples/wan/#text-to-video 生成
- 将帧长设置为 1
- 添加了超分辨率
图像到视频预览使用 ComfyUI_examples/wan/#image-to-video 生成

训练配置：

dataset.toml

# 分辨率设置。
resolutions = [524]

# 长宽比分桶设置
enable_ar_bucket = true
min_ar = 0.5
max_ar = 2.0
num_ar_buckets = 7

# 帧分桶（1 用于图像）
frame_buckets = [1]

[[directory]] # 图像
# 包含图像及其对应标注文件的目录路径。
path = '/mnt/d/huanvideo/training_data/images'
num_repeats = 5
resolutions = [720]
frame_buckets = [1] # 图像使用 1 帧。

[[directory]] # 视频
# 包含视频及其对应标注文件的目录路径。
path = '/mnt/d/huanvideo/training_data/videos'
num_repeats = 5
resolutions = [256] # 将视频分辨率设置为 256（例如 244p）。
frame_buckets = [28, 30, 37, 38, 41, 42, 47, 48, 50, 52, 57]

config.toml

# 数据集配置文件。
output_dir = '/mnt/d/wan/training_output'
dataset = 'dataset.toml'

# 训练设置
epochs = 50
micro_batch_size_per_gpu = 1
pipeline_stages = 1
gradient_accumulation_steps = 4
gradient_clipping = 1.0
warmup_steps = 100

# 评估设置
eval_every_n_epochs = 5
eval_before_first_step = true
eval_micro_batch_size_per_gpu = 1
eval_gradient_accumulation_steps = 1

# 其他设置
save_every_n_epochs = 5
checkpoint_every_n_minutes = 30
activation_checkpointing = true
partition_method = 'parameters'
save_dtype = 'bfloat16'
caching_batch_size = 1
steps_per_print = 1
video_clip_mode = 'single_middle'

[model]
type = 'wan'
ckpt_path = '../Wan2.1-T2V-14B'
dtype = 'bfloat16'
# 训练 LoRA 时可使用 fp8 作为 transformer。
transformer_dtype = 'float8'
timestep_sample_method = 'logit_normal'

[adapter]
type = 'lora'
rank = 32
dtype = 'bfloat16'

[optimizer]
type = 'adamw_optimi'
lr = 5e-5
betas = [0.9, 0.99]
weight_decay = 0.02
eps = 1e-8

照片背景 - 2D合成｜写真背景・二次元合成

在照片背景上合成的2D插图上进行训练。

这是一个小型LoRA，我想看看在插图或真实世界图像/视频上训练的模型如何产生这种复合的混合现实效果。

ℹ️ LoRA在应用于其训练所基于的基础模型时效果最佳。请查阅相应基础模型的关于此版本说明以及工作流程/训练信息。

所有上传文件中均包含元数据，您可以将生成的视频拖入ComfyUI以使用嵌入的工作流程。

推荐的提示结构：

正向提示（在提示末尾、质量标签前添加触发词，非hunyaun版本）：

{{tags}}
真实世界地点，照片背景，
杰作，最佳画质，非常awa，absurdres

负向提示：

(最差画质，低画质，草图:1.1)，错误，糟糕的解剖结构，糟糕的手部，水印，丑陋，扭曲，已审查，低分辨率

模型类型	LORA
基础模型	Wan Video 14B t2v
发布时间	3/9/2025
训练词汇	photo background real world location

Photo Background - 2d Compositing｜写真背景・二次元合成

详情

下载文件

关于此版本

模型描述

照片背景 - 2D合成｜写真背景・二次元合成

此模型生成的图像