Tomboys for FLUX
세부 정보
파일 다운로드
이 버전에 대해
모델 설명
업데이트 3: 오, 지금은 정말 잘 동작하네요! 단지 몇 번 더 훈련한 것뿐이죠(정확히는 10k 스텝, 즉 기본적으로 4배 정도입니다 :D). 이전 시도들에도 이 현상이 적용되었을지 궁금하네요.
업데이트 2: 와, 캡션을 붙인 시도는 정말 놀라웠습니다: 데이터셋에서 소년 같은 외모를 재현하는 데 가장 나빴고, 게다가 가장 성적으로 민감한 시도였네요(데이터셋은 SFW입니다). 아마 T5 텍스트 인코더가 새로운 것을 배우는 데 정말 어려움을 겪는 건가요? 그렇다면 더 많은 스텝이 도움이 될까요? 어서 봅시다!
업데이트: 음, 제가 훈련 해상도와 복제 아티팩트 사이의 연관성을 의심한 것이 완전히 틀리지 않았던 것 같습니다. 1024x1024 해상도에서는 이러한 아티팩트가 훨씬 적게 나타났습니다(가끔 여전히 존재하지만), 그 대신 더 복잡한 배경과 다양한 구성을 유지했습니다. 다음에는 플럭스에 자연어 캡션을 적용해보겠습니다.
3번의 훈련 후 처음으로 얻은 결과: 캡션이 전혀 없는 데이터셋이 플럭스에서 놀랍도록 잘 동작했습니다. 그만큼 잘 동작해서, 단 하나의 캡션(트리거 "톰보이")을 추가한 것조차 결과를 향상시키지 못했고, 오히려 약간 나빠졌습니다. 다만 두 번째 샘플을 선택할 때 약간의 골라내기 작업을 했는데, 이는 단지 나쁜 시드 행운이었을 수도 있습니다.
그러나 클래식한 보루 스타일 태그를 사용한 세 번째 시도는 완전히 다른 경험을 제공했습니다. 한편으로는 햇빛 아래서 수영하는 이미지에서 더 일관된 해변이나 수영장 같은 환경을 훨씬 나은 품질로 생성했습니다. 반면, 신체가 너무 많이 혼합된 ‘바디 샐러드’ 현상이 나타났습니다. SD3 수준은 아니지만, 일부 실패한 이미지를 샘플로 포함해 놓았습니다. 이 모델은 하나 이상의 인물을 포함하는 경향이 훨씬 강한 것 같으며, 이는 512x512 훈련 해상도와 관련이 있을까요? 다음에는 1024x1024로 다시 시도해 비교해보겠습니다.
"톰보이"라는 단어는 "톰"과 "보이"가 합쳐진 복합어입니다. 이 단어는 오늘날 소년 같은 행동을 하는 소녀를 가리키지만, 어원은 시간이 지나며 극적으로 변화해 왔습니다. 옥스퍼드 영어 사전에 따르면, 1533년에는 "톰보이"가 "무례하고 시끄럽거나 과감한 소년"을 의미했습니다. 그러나 1570년대에는 "톰보이"가 "대담하거나 무례한 여자"를 뜻하게 되었고, 1590년대 말과 1600년대 초에는 현재의 의미로 변형되었습니다: "남자처럼 활발하고 시끄러운 행동을 하는 소녀; 활기차고 뛰어노는 소녀."
from 위키백과
여기 있습니다: 톰보이, 1600년부터 성 역할 고정관념에 도전해 온 존재. 동시에 정말 멋지게 보입니다. 그런데 플럭스가 톰보이가 무엇인지 전혀 모른다는 것이 더욱 어이없습니다. 하지만 이 LoRA를 통해 이제 그 상황이 바뀔 것입니다(아마도).

















