Genshin TCG Style [Wan 1.3B]
詳細
ファイルをダウンロード
モデル説明
トリガーワード: Genshin_TCG
モデル: Wan 2.1 t2i 1.3B
推奨LoRA強度 0.75-1.0
すべての例はCFG=6で生成されています
推論にはKijaiのワークフローを使用しました
Wan 14B用のバージョンは以下で入手できます:/model/1768496/genshin-tcg-style-wan-14b
トレーニング詳細
Wan 1.3Bバージョンをキャラクターのアニメーションにトレーニングすることは、予想以上に困難でした。許容できる結果を得るため、多くの実験を重ねる必要がありました。トレーニングには、Genshin Genius Invocation TCGカードゲームのカードを含む54本の短い動画からなるデータセットを使用しました。トレーニングにはdiffusion pipeを使用したため、tomlファイルのみを掲載します。
データセット用:
resolutions = [[514, 304]]
enable_ar_bucket = true
min_ar = 0.5
max_ar = 2.0
num_ar_buckets = 7
frame_buckets = [1, 32, 36, 40, 42, 64, 71, 78, 80, 81]
[[directory]]
path = "/home/user/Genshin_TCG_dataset/videos/304_514"
num_repeats = 5
resolutions = [[514, 304]]
[[directory]]
path = "/home/user/Genshin_TCG_dataset/videos/368_620"
num_repeats = 5
resolutions = [[620, 368]]
[[directory]]
path = "/home/user/Genshin_TCG_dataset/videos/492_828"
num_repeats = 5
resolutions = [[808, 480]]
トレーニング用:
output_dir = "/home/user/Genshin_TCG/1_3B"
dataset = "/home/user/Genshin_TCG_dataset/config/dataset_v002.toml"
epochs = 80
micro_batch_size_per_gpu = 1
pipeline_stages = 1
gradient_accumulation_steps = 1
gradient_clipping = 1
warmup_steps = 100
eval_every_n_epochs = 1
eval_before_first_step = true
eval_micro_batch_size_per_gpu = 1
eval_gradient_accumulation_steps = 1
save_every_n_epochs = 1
activation_checkpointing = true
partition_method = "parameters"
save_dtype = "bfloat16"
caching_batch_size = 1
steps_per_print = 10
video_clip_mode = "single_beginning"
[model]
type = "wan"
ckpt_path = "/home/user/Wan2.1-T2V-1.3B"
dtype = "bfloat16"
transformer_dtype = "float8"
timestep_sample_method = "logit_normal"
[adapter]
type = "lora"
rank = 64
dtype = "bfloat16"
[optimizer]
type = "adamw_optimi"
lr = 7e-5
betas = [0.9, 0.99]
weight_decay = 0.01
eps = 1e-8
