Genshin TCG Style [Wan 1.3B]
세부 정보
파일 다운로드
모델 설명
트리거 단어: Genshin_TCG
모델: Wan 2.1 t2i 1.3B
추천 LoRA 강도 0.75-1.0
모든 예시는 CFG=6으로 생성되었습니다.
추론에는 Kijai의 워크플로우를 사용했습니다.
Wan 14B 버전은 여기서 확인할 수 있습니다: /model/1768496/genshin-tcg-style-wan-14b
학습 세부 정보
기억 캐릭터 애니메이션을 위한 Wan 1.3B 버전 학습은 예상보다 훨씬 더 어려웠습니다. 수용 가능한 결과를 얻기 위해 많은 실험을 진행해야 했습니다. 학습에는 Genshin Genius Invocation TCG 카드 게임의 카드를 포함한 54개의 짧은 비디오로 구성된 데이터셋을 사용했습니다. 학습에 diffusion pipe를 사용했기 때문에, toml 파일만 게시하겠습니다.
데이터셋 설정:
resolutions = [[514, 304]]
enable_ar_bucket = true
min_ar = 0.5
max_ar = 2.0
num_ar_buckets = 7
frame_buckets = [1, 32, 36, 40, 42, 64, 71, 78, 80, 81]
[[directory]]
path = "/home/user/Genshin_TCG_dataset/videos/304_514"
num_repeats = 5
resolutions = [[514, 304]]
[[directory]]
path = "/home/user/Genshin_TCG_dataset/videos/368_620"
num_repeats = 5
resolutions = [[620, 368]]
[[directory]]
path = "/home/user/Genshin_TCG_dataset/videos/492_828"
num_repeats = 5
resolutions = [[808, 480]]
학습 설정:
output_dir = "/home/user/Genshin_TCG/1_3B"
dataset = "/home/user/Genshin_TCG_dataset/config/dataset_v002.toml"
epochs = 80
micro_batch_size_per_gpu = 1
pipeline_stages = 1
gradient_accumulation_steps = 1
gradient_clipping = 1
warmup_steps = 100
eval_every_n_epochs = 1
eval_before_first_step = true
eval_micro_batch_size_per_gpu = 1
eval_gradient_accumulation_steps = 1
save_every_n_epochs = 1
activation_checkpointing = true
partition_method = "parameters"
save_dtype = "bfloat16"
caching_batch_size = 1
steps_per_print = 10
video_clip_mode = "single_beginning"
[model]
type = "wan"
ckpt_path = "/home/user/Wan2.1-T2V-1.3B"
dtype = "bfloat16"
transformer_dtype = "float8"
timestep_sample_method = "logit_normal"
[adapter]
type = "lora"
rank = 64
dtype = "bfloat16"
[optimizer]
type = "adamw_optimi"
lr = 7e-5
betas = [0.9, 0.99]
weight_decay = 0.01
eps = 1e-8
