Sumeshi FLUX.1 S π£
μΈλΆ μ 보
νμΌ λ€μ΄λ‘λ
μ΄ λ²μ μ λν΄
λͺ¨λΈ μ€λͺ
μ°Έκ³ : μ΄ λͺ¨λΈμ Schnell κΈ°λ° λͺ¨λΈμ΄μ§λ§, κ°μ΄λμ€ μ€μΌμΌ 3 λλ 5, CFG μ€μΌμΌ 3 μ΄μ(κ°μ΄λμ€ μ€μΌμΌμ΄ μλ), 20μ€ν μ΄μμ΄ νμν©λλ€. clip_l_sumeshi_f1sμ ν¨κ» μ¬μ©ν΄μΌ ν©λλ€. (μ€λ₯Έμͺ½ λ©λ΄μ 234.74 MB νμΌμ λλ€.)
μ°Έκ³ : μ΄ λͺ¨λΈμ Schnell λͺ¨λΈμ΄μ§λ§, κ°μ΄λμ€ μ€μΌμΌ 3 λλ 5, CFG μ€μΌμΌ 3 μ΄μ, 20μ€ν μ΄μμ΄ νμν©λλ€. λΆμλ clip_l_sumeshi_f1sμ ν¨κ» μ¬μ©ν΄μΌ ν©λλ€. (μ€λ₯Έμͺ½ λ©λ΄μ 234.74 MB νμΌμ λλ€.)
μ μμ΄λ νμ ν΄μ λ²μ λꡬλ₯Ό μ¬μ©ν©λλ€.
μ΄ λͺ¨λΈμ λμ€νΈλ§μ ν΄μ νκ³ CFGλ₯Ό νμ±ννμ λ κΈ°λ₯νλμ§ κ²μ¦νκΈ° μν μ€νμ μΈ μ λλ©μ΄μ λͺ¨λΈμ λλ€. μ΄λ μ λ ν¨κ³Όκ° μλ λ€κ±°ν°λΈ ν둬ννΈλ₯Ό μ¬μ©ν μ μμ΅λλ€. μ΄ λͺ¨λΈμ CFGλ₯Ό μ¬μ©νκΈ° λλ¬Έμ, κ°μ μ€ν μλΌλ μΌλ°μ μΈ FLUX λͺ¨λΈμ λΉν΄ μ½ λ λ°°λ μ€λ 걸립λλ€. λͺ¨λΈ νμ΅μ΄ μΆ©λΆνμ§ μμ ν둬ννΈμ λ°λΌ μΆλ ₯μ΄ νλ¦Ώνκ³ μ€νμΌλ νλ¦Ών΄μ§ μ μμ΅λλ€.
24/09/23 μ λ°μ΄νΈ
v004Gλ₯Ό μΆκ°νμ΅λλ€. μ΄λ κ°μ΄λμ€λ₯Ό λμ ν΄ μ μ€ν μΆλ ₯(μ½ 20μ€ν )μ νλ¦Ών¨μ μ€μ΄λ €λ μ€ν λͺ¨λΈμ λλ€. λ°μ μΆλ ₯κ³Ό μ΄λμ΄ μΆλ ₯ λͺ¨λμμ νλ¦Ών¨μ΄ μ€μ΄λ€μμ΅λλ€. μκ°μ λ¨μΆνκΈ° μν΄ κ·Ήνμ νλΌλ―Έν°λ‘ νμ΅νκΈ° λλ¬Έμ ν둬ννΈ λ°μμ΄ μ νλμμ΅λλ€. μΆμ² νλΌλ―Έν°κ° λ³κ²½λμμΌλ―λ‘ Usage(v004G) μΉμ μ μ°Έμ‘°νμΈμ. κ²μ¦ κ²°κ³Ό νλ¦Ών¨μ μμΈμΌλ‘ λ κ°μ§ μμκ° μμ¬λμκ³ , μ΄ λΆλΆλ€μ νμ΅μμ κ°ννμ΅λλ€.
κ°μ΄λμ€ νλΌλ―Έν°: v002Eλ 0μΌλ‘ μ±μμ Έ μμμΌλ, He μ΄κΈ°νλ₯Ό μ¬μ©νκ³ FineTune λ° network_args "in_dims"λ‘ μΌλΆ νμ΅μ μνν¨μΌλ‘μ¨ κ°μ΄λμ€ μ€μΌμΌμ΄ μ λλ‘ μλνλλ‘ λ§λ€μμ΅λλ€. μ΄μ λ λΆλͺ ννμ§λ§, μ€μΌμΌ 3κ³Ό 5 μΈμ κ°μμλ μΆλ ₯μ΄ λΉμ μμ μΌλ‘ λνλλ κ² κ°μ΅λλ€.
νμμ€ν μνλ§: μ΄μ μλ discrete_flow_shift 3.2λ₯Ό μ¬μ©νμΌλ, μ μ€ν μμ λ°μμ΄ λμ μ΄μ μΌ κ²μΌλ‘ μΆμ λμμ΅λλ€. κ²μ¦ κ²°κ³Ό, shiftλ₯Ό μ¬μ©νμ§ μκ³ sigmoid_scaleμ λ μκ² νλ©΄ νλ¦Ών¨μ΄ μ€μ΄λ€μμ΅λλ€. κ·Έλ¬λ νμ΅μ΄ λΆμ‘±νλ©΄ λ°°κ²½μ΄ λ Έμ΄μ¦κ° λ§μμ§λ λ¨μ μ΄ μμΌλ―λ‘, μΆκ°μ μΈ νμ΄νΌνλΌλ―Έν° νμμ΄ νμν΄ λ³΄μ λλ€.
μ¬μ©λ²(v004G)
ν΄μλ: κΈ°ν FLUX λͺ¨λΈκ³Ό λμΌ
(λμ€νΈλ§λ) κ°μ΄λμ€ μ€μΌμΌ: 3 λλ 5
CFG μ€μΌμΌ: 6~9 κΆμ₯ 7 ( μ€μΌμΌ 1μ μμ§μ μΆλ ₯μ μμ±νμ§ μμ΅λλ€. )
μ€ν: 20~30 (4μ€ν μ λκ° μλ)
(λμ€νΈλ§λ) κ°μ΄λμ€ μ€μΌμΌ: 3 λλ 5 (Schnell κΈ°λ° λͺ¨λΈμ΄λ―λ‘ μλνμ§ μμ΅λλ€.)
μ¬μ©λ²(v002E μ΄μ )
ν΄μλ: κΈ°ν FLUX λͺ¨λΈκ³Ό λμΌ
CFG μ€μΌμΌ: 3.5~7 (μ€μΌμΌ 1μ μμ§μ μΆλ ₯μ μμ±νμ§ μμ΅λλ€.)
μ€ν: 20~60 (4μ€ν μ λκ° μλ)
(λμ€νΈλ§λ) κ°μ΄λμ€ μ€μΌμΌ: 0 (Schnell κΈ°λ° λͺ¨λΈμ΄λ―λ‘ μλνμ§ μμ΅λλ€.)
μνλ¬: Euler
μ€μΌμ€λ¬: Simple, Beta
ν둬ννΈ νμ (Kohaku-XL-Epsilon μμ κ°μ Έμ΄)
<1girl/1boy/1other/...>, <character>, <series>, <artists>, <general tags>,<quality tags>, <year tags>, <meta tags>, <rating tags>
νμ΅λμ΄ μ κΈ° λλ¬Έμ
νΉμ νκ·Έ
νμ§ νκ·Έ: masterpiece, best quality, great quality, good quality, normal quality, low quality, worst quality
λ±κΈ νκ·Έ: safe, sensitive, nsfw, explicit
λ μ§ νκ·Έ: newest, recent, mid, early, old
νμ΅
λ°μ΄ν°μ μ€λΉ
μ λ hakubooru κΈ°λ°μ μ체 μ€ν¬λ¦½νΈλ₯Ό μ¬μ©νμ΅λλ€.
μ μΈ νκ·Έ: traditional_media, photo_(medium), scan, animated, animated_gif, lowres, non-web_source, variant_set, tall image, duplicate, pixel-perfect_duplicate
μ΅μ ν¬μ€νΈ ID: 1,000,000
ν€ μΆκ°
Schnell λͺ¨λΈμ "guidance_in" ν€λ₯Ό κ°μ§ 0μΌλ‘ μ±μμ§ ν μλ₯Ό μΆκ°νμ΅λλ€. μ΄ ν μλ flux/src/flux/model.pyλ₯Ό μ°Έμ‘°ν΄ Devμ ν΄λΉ ν€ ννμ λ§μΆμ΄ μ‘°μ νμ΅λλ€. μ΄λ λͺ¨λΈ μ΄λ¦μ 'schnell'μ΄ ν¬ν¨λμ§ μμΌλ©΄ νΈλ μ΄λκ° μ΄ ν€κ° μμΌλ©΄ μ λλ‘ μλνμ§ μκΈ° λλ¬Έμ λλ€. 0μΌλ‘ μ±μμ Έ μκΈ° λλ¬Έμ Schnell λͺ¨λΈκ³Ό λ§μ°¬κ°μ§λ‘ κ°μ΄λμ€κ° μλνμ§ μμ κ²μ΄λΌ νλ¨νμ΅λλ€. μ μ€λ ₯μ΄ λΆμ‘±ν΄ κ°μ λ‘ μΆκ°νκΈ° λλ¬Έμ μ΄κ²μ΄ μ¬λ°λ₯Έ μ κ·ΌμΈμ§ νμ νμ§ λͺ»ν©λλ€.
νμ΅
κΈ°λ³Έμ μΌλ‘, νμ΅μ ν μλ‘ λ€νΈμν¬κ° λ λ§μ΄ μ¬κ΅¬μ±λκ³ , λμ€νΈλ§μ΄ ν΄μ λλ©°, CFGκ° λ λ§μ΄ μ¬μ© κ°λ₯ν΄μ§ κ²μ΄λΌλ κ°μ νμ νμ΅μ μ§ννμ΅λλ€.
λ¨μΌ RTX 4090μ μ¬μ©ν΄ νμ΅νμ΅λλ€. LoRA λ°©μμΌλ‘ νμ΅νκ³ κ²°κ³Όλ₯Ό λ³ν©ν©λλ€.
νμ΅μ sd-scriptsλ₯Ό μ¬μ©νμ΅λλ€. κΈ°λ³Έ μ€μ μ λ€μκ³Ό κ°μ΅λλ€. (κ°μ΄λμ€ κ°μ 7λ‘ μ€μ νμ§λ§, μμ μΈκΈνλ―μ΄ 0 ν μμ΄κΈ° λλ¬Έμ νΉλ³ν μλ―Έλ μμ΅λλ€.)
accelerate launch --num_cpu_threads_per_process 4 flux_train_network.py --network_module networks.lora_flux --sdpa --gradient_checkpointing --cache_latents --cache_latents_to_disk --cache_text_encoder_outputs --cache_text_encoder_outputs_to_disk --max_data_loader_n_workers 1 --save_model_as "safetensors" --mixed_precision "bf16" --fp8_base --save_precision "bf16" --full_bf16 --min_bucket_reso 320 --max_bucket_reso 1536 --seed 1 --max_train_epochs 1 --keep_tokens_separator "|||" --network_dim 32 --network_alpha 32 --unet_lr 1e-4 --text_encoder_lr 5e-5 --train_batch_size 3 --gradient_accumulation_steps 2 --optimizer_type adamw8bit --lr_scheduler="constant_with_warmup" --lr_warmup_steps 100 --vae_batch_size 8 --cache_info --guidance_scale 7 --timestep_sampling shift --model_prediction_type raw --discrete_flow_shift 3.2 --loss_type l2 --highvramλ€μ λ°μ΄ν°μ μ μλ μμλ‘ νμ΅νμ΅λλ€.
3,893μ₯ (res512 bs4 / res768 bs2 / res1024 bs1, acc4) 1μν¬ν¬
60,000μ₯ (res768 bs3 acc2) 1μν¬ν¬
36,000μ₯ (res1024 bs1 acc3) 1μν¬ν¬
3,000μ₯ (res1024 bs1 acc1) 1μν¬ν¬
18,000μ₯ (res1024 bs1 acc3) 1μν¬ν¬
λͺ¨λΈκ³Ό CLIP_Lμ λ³ν©
693μ₯ (res1024 bs1 acc3) 1μν¬ν¬
693μ₯ (res1024 bs1 acc3 warmup50) 1μν¬ν¬
693μ₯ (res1024 bs1 acc3 warmup50) 10μν¬ν¬
693μ₯ (res1024 bs1 acc3 warmup50) 15μν¬ν¬
λͺ¨λΈκ³Ό CLIP_Lμ λ³ν©
543μ₯ (res1024 bs1 acc3 warmup50 --optimizer_args "betas=0.9,0.95" "eps=1e-06" "weight_decay=0.1" --caption_dropout_rate 0.1 --shuffle_caption --network_train_unet_only) 20μν¬ν¬
λͺ¨λΈκ³Ό CLIP_Lμ λ³ν©
21,000μ₯ (res1024 bs1 acc3 warmup50 timestep_sampling sigmoid sigmoid_scale2) 15μν¬ν¬
21,000μ₯ (res1024 bs1 acc3 warmup50 sigmoid_scale2 discrete_flow_shift3.5) 15μν¬ν¬
λͺ¨λΈκ³Ό CLIP_Lμ λ³ν©
- μ΄ νμ΅μ CLIPλ§ λ³ν©ν¨ -
3,893μ₯ (res1024 bs2 acc1 warmup50 unet_lr5e-5 text_encoder_lr2.5e-5 sigmoid_scale2.5 discrete_flow_shift3 --network_args "loraplus_lr_ratio=8") 3μν¬ν¬
3,893μ₯ (res1024 bs2 acc1 warmup50 unet_lr5e-5 text_encoder_lr2.5e-5 sigmoid_scale2 discrete_flow_shift3 --network_args "loraplus_lr_ratio=8") 1μν¬ν¬
CLIP_Lμλ§ λ³ν©
--
He μ΄κΈ°νλ "guidance_in" λ μ΄μ΄
3,893μ₯ (Full-finetuned res1024 bs2 acc1 afafactor --optimizer_args "relative_step=False" "scale_parameter=False" "warmup_init=False" lr5e-6 warmup50 guidance_scale3.5 max_grad_norm 0.0 timesteps_sampling discrete_flow_shift 3.1582 ) 1μν¬ν¬
3,893μ₯ (res1024 bs2 acc1 warmup50 guidance_scale1 timesteps_sampling sigmoid sigmoid_scale 0.5 --network_args "in_dims=[8,8,8,8,8]") 4μν¬ν¬
3,893μ₯ (res512 bs2 acc1 warmup50 guidance_scale1 timesteps_sampling sigmoid sigmoid_scale 0.3 --network_args "in_dims=[8,8,8,8,8]") 12μν¬ν¬
543μ₯ (repeats10 res512 bs4 acc1 warmup50 unet_lr3e-4 guidance_scale1 timesteps_sampling sigmoid sigmoid_scale 0.3 --network_args "in_dims=[8,8,8,8,8]") 4μν¬ν¬
λͺ¨λΈκ³Ό CLIP_Lμ λ³ν©
--v004G--
μμ (λΌμ΄μ μ€)
FLUX.1-schnell (Apache2.0)
λΌμ΄μ μ€
Apache2.0
κ°μ¬μ λ§
black-forest-labs: νλ₯ν μ€νμμ€ λͺ¨λΈμ 곡κ°ν΄ μ£Όμ μ κ°μ¬ν©λλ€.
kohya-ss: νμμ μΈ νμ΅ μ€ν¬λ¦½νΈλ₯Ό 곡κ°ν΄ μ£Όμκ³ λΉ λ₯΄κ² μ λ°μ΄νΈν΄μ£Όμ μ κ°μ¬ν©λλ€.
Kohaku-Blueleaf: λ°μ΄ν°μ μ© μ€ν¬λ¦½νΈμ λ€μν νμ΅ μ‘°κ±΄μ κ΄λ²μνκ² κ³΅κ°ν΄ μ£Όμ μ κ°μ¬ν©λλ€.



