Getting Stepped On - Flux.dev
세부 정보
파일 다운로드
모델 설명
이 LoRA는 Flux.dev에서 아래에서 올려다보는 시점으로 발을 초점으로 두는 이미지를 생성합니다.
학습 이미지에는 다양한 종류의 발(맨발, 양말, 부츠, 스타킹 등)이 포함되었지만, Flux의 빠른 학습 방식과 이러한 개념들 간의 데이터셋 균형 때문에 실제로 신뢰할 수 있는 결과는 맨발과 부츠뿐입니다.
주요 트리거: POV stepped on
영향을 줄 수 있는 추가 태그(빈도 순서):
barefoot
view straight up (시점이 거의 바로 아래에서 올라오고 경사가 적을 때)
large foot (발이 이미지의 대부분을 차지할 때 태그됨)
dirty foot
heels / boots / socks / stockings (이 경우 결과는 다양함)
권장 LoRA 가중치: 0.8 – 1.2
결과에 만족하지는 않지만, 저장소에서 썩히기보다는 공개하는 것이 낫다고 생각했습니다. 발가락의 수가 비정상적이거나 발이 변형될 수 있으며, 때로는 왼쪽 발을 오른쪽 다리에, 오른쪽 발을 왼쪽 다리에 배치하는 등 발의 위치가 잘못되기도 합니다. 또한 발가락을 매우 선호해서, 스타킹이나 양말 등을 시도할 경우 종종 비현실적으로 긴장된 천(또는 아예 천이 없음)이 생성됩니다.
이런 단점들을 제쳐두고, 이제
학습 과정에 대해 이야기해 봅시다.
데이터셋은 약 200장의 이미지로 구성되어 있으며, Joycaption alpha two로 자동 캡션을 생성한 후 수동으로 약간 보정하고 위에 언급된 태그를 추가했습니다.
전체적으로 학습 자체는 매우 힘들었습니다. 총 5~6가지 버전을 다양한 파라미터와 트레이너로 테스트하며 학습했습니다.
초기에는 OneTrainer를 사용했지만, 금방 Ostris의 ai-toolkit으로 전환했습니다. 이 도구를 사용해 여러 차례 전체 학습을 진행했고, 그 결과들은 나쁘지 않았지만 역시 만족스럽지도 않았습니다. 그래서 파라미터를 몇 차례 조정하고 다시 시작해 더 나은 결과를 기대했습니다.
데이터셋 규모를 30장에서 200장으로 확장하면서 더 상세한 캡션을 추가했습니다(이로 인해 출력의 제어력과 다양성이 향상되었습니다).
rank를 16에서 8, 그리고 4로 줄였고(alpha도 실험했습니다).
다양한 배치 사이즈를 시도했습니다.
…
그러나 모두 유사한 문제(때로는 변형된 생성, 완벽한 제어 부족 등)를 겪었고, 결국 충분한 시간을 투자했고, 지금 가진 것에 기반해 진행하기로 결론지었습니다.
가장 우수한 두 후보는 최근 버전의 데이터셋을 사용한 것이었고, 각각 dim 4, alpha 8인 Variant A와 dim 16, alpha 16인 Variant B였습니다. 두 버전 모두 생성 결과에 따라 뛰어난 성능을 보였지만, 원하는 결과에 따라 차이가 있었습니다(예: Variant A는 변형 생성 확률이 약간 낮았습니다). 그러나 차이는 미미했습니다. 그래서 두 모델을 병합(또는 가중치 적용과 연결)해보았지만, 결과는 악화되었거나 아무 영향도 없었습니다.
그 결과, 제가 최종적으로 선택한 방법은 SVD 병합(rank 128)이었습니다. 이전 실험(이 LoRA 외부)에서 SVD가 기본 모델의 “ground truth”를 더 잘 유지한다는 결과를 얻었기 때문입니다. 이 방법은 예상대로 변형 문제를 개선했습니다.
학습 설정 (A | B):
Alpha, Dim: 8, 4 | 16, 16
총 스텝: 9000
캡션 드롭아웃: 0.05
해상도: 512, 768, 1024
배치 사이즈: 2 | 1
노이즈 스케줄러: flowmatch
학습률: 2.5e-5
선형 타임스텝
양자화(그라디언트 체크포인팅 사용)
RTX 4090에서 학습 시간은 A가 약 14.5시간, B가 약 8.2시간이었습니다.
학습 후 safetensors 키를 Kohya와 호환되도록 변환하고, 앞서 언급한 대로 SVD 병합(rank 128)을 수행한 후, 최종적으로 rank 32로 조정했습니다(sv_fro 0.985 사용 — 기억이 정확하다면요).
간단히 마지막으로 관련된 한 가지 note: 동일한 데이터셋을 SD3로도 실행해보았습니다. 비슷한 학습 시간 후 얻은 결과는 단지 변형된 악몽의 연속이었고, 이 부가 실험은 즉시 중단했습니다.



















