Sumeshi FLUX.1 S 🍣

μ„ΈλΆ€ 정보

파일 λ‹€μš΄λ‘œλ“œ

λͺ¨λΈ μ„€λͺ…

μ°Έκ³ : 이 λͺ¨λΈμ€ Schnell 기반 λͺ¨λΈμ΄μ§€λ§Œ, κ°€μ΄λ˜μŠ€ μŠ€μΌ€μΌ 3 λ˜λŠ” 5, CFG μŠ€μΌ€μΌ 3 이상(κ°€μ΄λ˜μŠ€ μŠ€μΌ€μΌμ΄ μ•„λ‹˜), 20μŠ€νƒ­ 이상이 ν•„μš”ν•©λ‹ˆλ‹€. clip_l_sumeshi_f1s와 ν•¨κ»˜ μ‚¬μš©ν•΄μ•Ό ν•©λ‹ˆλ‹€. (였λ₯Έμͺ½ λ©”λ‰΄μ˜ 234.74 MB νŒŒμΌμž…λ‹ˆλ‹€.)

μ°Έκ³ : 이 λͺ¨λΈμ€ Schnell λͺ¨λΈμ΄μ§€λ§Œ, κ°€μ΄λ˜μŠ€ μŠ€μΌ€μΌ 3 λ˜λŠ” 5, CFG μŠ€μΌ€μΌ 3 이상, 20μŠ€ν… 이상이 ν•„μš”ν•©λ‹ˆλ‹€. λΆ€μ†λœ clip_l_sumeshi_f1s와 ν•¨κ»˜ μ‚¬μš©ν•΄μ•Ό ν•©λ‹ˆλ‹€. (였λ₯Έμͺ½ λ©”λ‰΄μ˜ 234.74 MB νŒŒμΌμž…λ‹ˆλ‹€.)

제 μ˜μ–΄λŠ” ν—ˆμ ‘ν•΄μ„œ λ²ˆμ—­ 도ꡬλ₯Ό μ‚¬μš©ν•©λ‹ˆλ‹€.

이 λͺ¨λΈμ€ λ””μŠ€ν‹Έλ§μ„ ν•΄μ œν•˜κ³  CFGλ₯Ό ν™œμ„±ν™”ν–ˆμ„ λ•Œ κΈ°λŠ₯ν•˜λŠ”μ§€ κ²€μ¦ν•˜κΈ° μœ„ν•œ μ‹€ν—˜μ μΈ μ• λ‹ˆλ©”μ΄μ…˜ λͺ¨λΈμž…λ‹ˆλ‹€. μ–΄λŠ 정도 νš¨κ³Όκ°€ μžˆλŠ” λ„€κ±°ν‹°λΈŒ ν”„λ‘¬ν”„νŠΈλ₯Ό μ‚¬μš©ν•  수 μžˆμŠ΅λ‹ˆλ‹€. 이 λͺ¨λΈμ€ CFGλ₯Ό μ‚¬μš©ν•˜κΈ° λ•Œλ¬Έμ—, 같은 μŠ€ν… μˆ˜λΌλ„ 일반적인 FLUX λͺ¨λΈμ— λΉ„ν•΄ μ•½ 두 λ°°λ‚˜ 였래 κ±Έλ¦½λ‹ˆλ‹€. λͺ¨λΈ ν•™μŠ΅μ΄ μΆ©λΆ„ν•˜μ§€ μ•Šμ•„ ν”„λ‘¬ν”„νŠΈμ— 따라 좜λ ₯이 νλ¦Ών•˜κ³  μŠ€νƒ€μΌλ„ νλ¦Ών•΄μ§ˆ 수 μžˆμŠ΅λ‹ˆλ‹€.

24/09/23 μ—…λ°μ΄νŠΈ

v004Gλ₯Ό μΆ”κ°€ν–ˆμŠ΅λ‹ˆλ‹€. μ΄λŠ” κ°€μ΄λ˜μŠ€λ₯Ό λ„μž…ν•΄ μ €μŠ€ν… 좜λ ₯(μ•½ 20μŠ€ν…)의 흐릿함을 μ€„μ΄λ €λŠ” μ‹€ν—˜ λͺ¨λΈμž…λ‹ˆλ‹€. 밝은 좜λ ₯κ³Ό μ–΄λ‘μš΄ 좜λ ₯ λͺ¨λ‘μ—μ„œ 흐릿함이 μ€„μ–΄λ“€μ—ˆμŠ΅λ‹ˆλ‹€. μ‹œκ°„μ„ λ‹¨μΆ•ν•˜κΈ° μœ„ν•΄ κ·Ήν•œμ˜ νŒŒλΌλ―Έν„°λ‘œ ν•™μŠ΅ν–ˆκΈ° λ•Œλ¬Έμ— ν”„λ‘¬ν”„νŠΈ λ°˜μ‘μ΄ μ•…ν™”λ˜μ—ˆμŠ΅λ‹ˆλ‹€. μΆ”μ²œ νŒŒλΌλ―Έν„°κ°€ λ³€κ²½λ˜μ—ˆμœΌλ―€λ‘œ Usage(v004G) μ„Ήμ…˜μ„ μ°Έμ‘°ν•˜μ„Έμš”. 검증 κ²°κ³Ό νλ¦Ών•¨μ˜ μ›μΈμœΌλ‘œ 두 κ°€μ§€ μš”μ†Œκ°€ μ˜μ‹¬λ˜μ—ˆκ³ , 이 뢀뢄듀을 ν•™μŠ΅μ—μ„œ κ°•ν™”ν–ˆμŠ΅λ‹ˆλ‹€.

  • κ°€μ΄λ˜μŠ€ νŒŒλΌλ―Έν„°: v002EλŠ” 0으둜 μ±„μ›Œμ Έ μžˆμ—ˆμœΌλ‚˜, He μ΄ˆκΈ°ν™”λ₯Ό μ‚¬μš©ν•˜κ³  FineTune 및 network_args "in_dims"둜 일뢀 ν•™μŠ΅μ„ μˆ˜ν–‰ν•¨μœΌλ‘œμ¨ κ°€μ΄λ˜μŠ€ μŠ€μΌ€μΌμ΄ μ œλŒ€λ‘œ μž‘λ™ν•˜λ„λ‘ λ§Œλ“€μ—ˆμŠ΅λ‹ˆλ‹€. μ΄μœ λŠ” 뢈λͺ…ν™•ν•˜μ§€λ§Œ, μŠ€μΌ€μΌ 3κ³Ό 5 μ™Έμ˜ κ°’μ—μ„œλŠ” 좜λ ₯이 λΉ„μ •μƒμ μœΌλ‘œ λ‚˜νƒ€λ‚˜λŠ” 것 κ°™μŠ΅λ‹ˆλ‹€.

  • νƒ€μž„μŠ€ν… μƒ˜ν”Œλ§: μ΄μ „μ—λŠ” discrete_flow_shift 3.2λ₯Ό μ‚¬μš©ν–ˆμœΌλ‚˜, μ €μŠ€ν…μ—μ„œ λ°˜μ‘μ΄ λ‚˜μœ 이유일 κ²ƒμœΌλ‘œ μΆ”μ •λ˜μ—ˆμŠ΅λ‹ˆλ‹€. 검증 κ²°κ³Ό, shiftλ₯Ό μ‚¬μš©ν•˜μ§€ μ•Šκ³  sigmoid_scale을 더 μž‘κ²Œ ν•˜λ©΄ 흐릿함이 μ€„μ–΄λ“€μ—ˆμŠ΅λ‹ˆλ‹€. κ·ΈλŸ¬λ‚˜ ν•™μŠ΅μ΄ λΆ€μ‘±ν•˜λ©΄ 배경이 λ…Έμ΄μ¦ˆκ°€ λ§Žμ•„μ§€λŠ” 단점이 μžˆμœΌλ―€λ‘œ, 좔가적인 ν•˜μ΄νΌνŒŒλΌλ―Έν„° 탐색이 ν•„μš”ν•΄ λ³΄μž…λ‹ˆλ‹€.

μ‚¬μš©λ²•(v004G)

  • 해상도: 기타 FLUX λͺ¨λΈκ³Ό 동일

  • (λ””μŠ€ν‹Έλ§λœ) κ°€μ΄λ˜μŠ€ μŠ€μΌ€μΌ: 3 λ˜λŠ” 5

  • CFG μŠ€μΌ€μΌ: 6~9 ꢌμž₯ 7 ( μŠ€μΌ€μΌ 1은 μ–‘μ§ˆμ˜ 좜λ ₯을 μƒμ„±ν•˜μ§€ μ•ŠμŠ΅λ‹ˆλ‹€. )

  • μŠ€νƒ­: 20~30 (4μŠ€νƒ­ 정도가 μ•„λ‹˜)

  • (λ””μŠ€ν‹Έλ§λœ) κ°€μ΄λ˜μŠ€ μŠ€μΌ€μΌ: 3 λ˜λŠ” 5 (Schnell 기반 λͺ¨λΈμ΄λ―€λ‘œ μž‘λ™ν•˜μ§€ μ•ŠμŠ΅λ‹ˆλ‹€.)

μ‚¬μš©λ²•(v002E 이전)

  • 해상도: 기타 FLUX λͺ¨λΈκ³Ό 동일

  • CFG μŠ€μΌ€μΌ: 3.5~7 (μŠ€μΌ€μΌ 1은 μ–‘μ§ˆμ˜ 좜λ ₯을 μƒμ„±ν•˜μ§€ μ•ŠμŠ΅λ‹ˆλ‹€.)

  • μŠ€νƒ­: 20~60 (4μŠ€νƒ­ 정도가 μ•„λ‹˜)

  • (λ””μŠ€ν‹Έλ§λœ) κ°€μ΄λ˜μŠ€ μŠ€μΌ€μΌ: 0 (Schnell 기반 λͺ¨λΈμ΄λ―€λ‘œ μž‘λ™ν•˜μ§€ μ•ŠμŠ΅λ‹ˆλ‹€.)

  • μƒ˜ν”ŒλŸ¬: Euler

  • μŠ€μΌ€μ€„λŸ¬: Simple, Beta

ν”„λ‘¬ν”„νŠΈ ν˜•μ‹ (Kohaku-XL-Epsilon μ—μ„œ κ°€μ Έμ˜΄)

<1girl/1boy/1other/...>, <character>, <series>, <artists>, <general tags>,<quality tags>, <year tags>, <meta tags>, <rating tags>

ν•™μŠ΅λŸ‰μ΄ 적기 λ•Œλ¬Έμ— νƒœκ·ΈλŠ” 거의 κΈ°λŠ₯ν•˜μ§€ μ•ŠμŠ΅λ‹ˆλ‹€. λ˜ν•œ ν•™μŠ΅μ΄ μ†Œλ…€ μ€‘μ‹¬μœΌλ‘œ μ΄λ£¨μ–΄μ‘ŒκΈ° λ•Œλ¬Έμ— λ‚¨μžλ‚˜ 기타 비인물 생성이 잘 λ˜μ§€ μ•Šμ„ 수 μžˆμŠ΅λ‹ˆλ‹€. 데이터셋을 hakubooru둜 κ΅¬μΆ•ν–ˆκΈ° λ•Œλ¬Έμ— ν”„λ‘¬ν”„νŠΈ ν˜•μ‹μ€ KohakuXL ν˜•μ‹κ³Ό λ™μΌν•©λ‹ˆλ‹€. κ·ΈλŸ¬λ‚˜ μ‹€ν—˜ 결과에 λ”°λ₯΄λ©΄ 이 ν˜•μ‹μ„ μ—„κ²©νžˆ λ”°λ₯΄μ§€ μ•Šμ•„λ„ μžμ—°μ–΄ ν˜•νƒœλ‘œλ„ μ–΄λŠ 정도 의미λ₯Ό ν•΄μ„ν•˜κΈ° λ•Œλ¬Έμ— ν•„μˆ˜λŠ” μ•„λ‹™λ‹ˆλ‹€.

특수 νƒœκ·Έ

  • ν’ˆμ§ˆ νƒœκ·Έ: masterpiece, best quality, great quality, good quality, normal quality, low quality, worst quality

  • λ“±κΈ‰ νƒœκ·Έ: safe, sensitive, nsfw, explicit

  • λ‚ μ§œ νƒœκ·Έ: newest, recent, mid, early, old

ν•™μŠ΅

  1. 데이터셋 μ€€λΉ„

    μ €λŠ” hakubooru 기반의 자체 슀크립트λ₯Ό μ‚¬μš©ν–ˆμŠ΅λ‹ˆλ‹€.

    μ œμ™Έ νƒœκ·Έ: traditional_media, photo_(medium), scan, animated, animated_gif, lowres, non-web_source, variant_set, tall image, duplicate, pixel-perfect_duplicate

    μ΅œμ†Œ 포슀트 ID: 1,000,000

  2. ν‚€ μΆ”κ°€

    Schnell λͺ¨λΈμ— "guidance_in" ν‚€λ₯Ό κ°€μ§„ 0으둜 μ±„μ›Œμ§„ ν…μ„œλ₯Ό μΆ”κ°€ν–ˆμŠ΅λ‹ˆλ‹€. 이 ν…μ„œλŠ” flux/src/flux/model.pyλ₯Ό μ°Έμ‘°ν•΄ Dev의 ν•΄λ‹Ή ν‚€ ν˜•νƒœμ— λ§žμΆ”μ–΄ μ‘°μ •ν–ˆμŠ΅λ‹ˆλ‹€. μ΄λŠ” λͺ¨λΈ 이름에 'schnell'이 ν¬ν•¨λ˜μ§€ μ•ŠμœΌλ©΄ νŠΈλ ˆμ΄λ„ˆκ°€ 이 ν‚€κ°€ μ—†μœΌλ©΄ μ œλŒ€λ‘œ μž‘λ™ν•˜μ§€ μ•ŠκΈ° λ•Œλ¬Έμž…λ‹ˆλ‹€. 0으둜 μ±„μ›Œμ Έ 있기 λ•Œλ¬Έμ— Schnell λͺ¨λΈκ³Ό λ§ˆμ°¬κ°€μ§€λ‘œ κ°€μ΄λ˜μŠ€κ°€ μž‘λ™ν•˜μ§€ μ•Šμ„ 것이라 νŒλ‹¨ν–ˆμŠ΅λ‹ˆλ‹€. 제 μ‹€λ ₯이 λΆ€μ‘±ν•΄ κ°•μ œλ‘œ μΆ”κ°€ν–ˆκΈ° λ•Œλ¬Έμ— 이것이 μ˜¬λ°”λ₯Έ 접근인지 ν™•μ‹ ν•˜μ§€ λͺ»ν•©λ‹ˆλ‹€.

  3. ν•™μŠ΅

    기본적으둜, ν•™μŠ΅μ„ ν• μˆ˜λ‘ λ„€νŠΈμ›Œν¬κ°€ 더 많이 μž¬κ΅¬μ„±λ˜κ³ , λ””μŠ€ν‹Έλ§μ΄ ν•΄μ œλ˜λ©°, CFGκ°€ 더 많이 μ‚¬μš© κ°€λŠ₯ν•΄μ§ˆ κ²ƒμ΄λΌλŠ” κ°€μ • ν•˜μ— ν•™μŠ΅μ„ μ§„ν–‰ν–ˆμŠ΅λ‹ˆλ‹€.

    단일 RTX 4090을 μ‚¬μš©ν•΄ ν•™μŠ΅ν–ˆμŠ΅λ‹ˆλ‹€. LoRA λ°©μ‹μœΌλ‘œ ν•™μŠ΅ν•˜κ³  κ²°κ³Όλ₯Ό λ³‘ν•©ν•©λ‹ˆλ‹€.

    ν•™μŠ΅μ— sd-scriptsλ₯Ό μ‚¬μš©ν–ˆμŠ΅λ‹ˆλ‹€. κΈ°λ³Έ 섀정은 λ‹€μŒκ³Ό κ°™μŠ΅λ‹ˆλ‹€. (κ°€μ΄λ˜μŠ€ 값을 7둜 μ„€μ •ν–ˆμ§€λ§Œ, μ•žμ„œ μ–ΈκΈ‰ν–ˆλ“―μ΄ 0 ν…μ„œμ΄κΈ° λ•Œλ¬Έμ— νŠΉλ³„ν•œ μ˜λ―ΈλŠ” μ—†μŠ΅λ‹ˆλ‹€.)

    accelerate launch --num_cpu_threads_per_process 4 flux_train_network.py --network_module networks.lora_flux --sdpa --gradient_checkpointing --cache_latents --cache_latents_to_disk --cache_text_encoder_outputs  --cache_text_encoder_outputs_to_disk --max_data_loader_n_workers 1 --save_model_as "safetensors" --mixed_precision "bf16" --fp8_base --save_precision "bf16" --full_bf16 --min_bucket_reso 320 --max_bucket_reso 1536 --seed 1 --max_train_epochs 1 --keep_tokens_separator "|||" --network_dim 32 --network_alpha 32 --unet_lr 1e-4 --text_encoder_lr 5e-5 --train_batch_size 3 --gradient_accumulation_steps 2 --optimizer_type adamw8bit --lr_scheduler="constant_with_warmup" --lr_warmup_steps 100 --vae_batch_size 8 --cache_info --guidance_scale 7 --timestep_sampling shift --model_prediction_type raw --discrete_flow_shift 3.2 --loss_type l2 --highvram
    

    λ‹€μŒ 데이터셋을 μ•„λž˜ μˆœμ„œλ‘œ ν•™μŠ΅ν–ˆμŠ΅λ‹ˆλ‹€.

    3,893μž₯ (res512 bs4 / res768 bs2 / res1024 bs1, acc4) 1에포크

    60,000μž₯ (res768 bs3 acc2) 1에포크

    36,000μž₯ (res1024 bs1 acc3) 1에포크

    3,000μž₯ (res1024 bs1 acc1) 1에포크

    18,000μž₯ (res1024 bs1 acc3) 1에포크

    λͺ¨λΈκ³Ό CLIP_L에 병합

    693μž₯ (res1024 bs1 acc3) 1에포크

    693μž₯ (res1024 bs1 acc3 warmup50) 1에포크

    693μž₯ (res1024 bs1 acc3 warmup50) 10에포크

    693μž₯ (res1024 bs1 acc3 warmup50) 15에포크

    λͺ¨λΈκ³Ό CLIP_L에 병합

    543μž₯ (res1024 bs1 acc3 warmup50 --optimizer_args "betas=0.9,0.95" "eps=1e-06" "weight_decay=0.1" --caption_dropout_rate 0.1 --shuffle_caption --network_train_unet_only) 20에포크

    λͺ¨λΈκ³Ό CLIP_L에 병합

    21,000μž₯ (res1024 bs1 acc3 warmup50 timestep_sampling sigmoid sigmoid_scale2) 15에포크

    21,000μž₯ (res1024 bs1 acc3 warmup50 sigmoid_scale2 discrete_flow_shift3.5) 15에포크

    λͺ¨λΈκ³Ό CLIP_L에 병합

    - 이 ν•™μŠ΅μ€ CLIP만 병합함 -

    3,893μž₯ (res1024 bs2 acc1 warmup50 unet_lr5e-5 text_encoder_lr2.5e-5 sigmoid_scale2.5 discrete_flow_shift3 --network_args "loraplus_lr_ratio=8") 3에포크

    3,893μž₯ (res1024 bs2 acc1 warmup50 unet_lr5e-5 text_encoder_lr2.5e-5 sigmoid_scale2 discrete_flow_shift3 --network_args "loraplus_lr_ratio=8") 1에포크

    CLIP_Lμ—λ§Œ 병합

    --

    He μ΄ˆκΈ°ν™”λœ "guidance_in" λ ˆμ΄μ–΄

    3,893μž₯ (Full-finetuned res1024 bs2 acc1 afafactor --optimizer_args "relative_step=False" "scale_parameter=False" "warmup_init=False" lr5e-6 warmup50 guidance_scale3.5 max_grad_norm 0.0 timesteps_sampling discrete_flow_shift 3.1582 ) 1에포크

    3,893μž₯ (res1024 bs2 acc1 warmup50 guidance_scale1 timesteps_sampling sigmoid sigmoid_scale 0.5 --network_args "in_dims=[8,8,8,8,8]") 4에포크

    3,893μž₯ (res512 bs2 acc1 warmup50 guidance_scale1 timesteps_sampling sigmoid sigmoid_scale 0.3 --network_args "in_dims=[8,8,8,8,8]") 12에포크

    543μž₯ (repeats10 res512 bs4 acc1 warmup50 unet_lr3e-4 guidance_scale1 timesteps_sampling sigmoid sigmoid_scale 0.3 --network_args "in_dims=[8,8,8,8,8]") 4에포크

    λͺ¨λΈκ³Ό CLIP_L에 병합

    --v004G--

μžμ› (λΌμ΄μ„ μŠ€)

λΌμ΄μ„ μŠ€

Apache2.0

κ°μ‚¬μ˜ 말

  • black-forest-labs: ν›Œλ₯­ν•œ μ˜€ν”ˆμ†ŒμŠ€ λͺ¨λΈμ„ κ³΅κ°œν•΄ μ£Όμ…”μ„œ κ°μ‚¬ν•©λ‹ˆλ‹€.

  • kohya-ss: ν•„μˆ˜μ μΈ ν•™μŠ΅ 슀크립트λ₯Ό κ³΅κ°œν•΄ μ£Όμ‹œκ³  λΉ λ₯΄κ²Œ μ—…λ°μ΄νŠΈν•΄μ£Όμ…”μ„œ κ°μ‚¬ν•©λ‹ˆλ‹€.

  • Kohaku-Blueleaf: λ°μ΄ν„°μ…‹μš© μŠ€ν¬λ¦½νŠΈμ™€ λ‹€μ–‘ν•œ ν•™μŠ΅ 쑰건을 κ΄‘λ²”μœ„ν•˜κ²Œ κ³΅κ°œν•΄ μ£Όμ…”μ„œ κ°μ‚¬ν•©λ‹ˆλ‹€.

이 λͺ¨λΈλ‘œ λ§Œλ“  이미지

이미지λ₯Ό 찾을 수 μ—†μŠ΅λ‹ˆλ‹€.