Mercy / Mercy Cosplay - Flux.dev

세부 정보

파일 다운로드

모델 설명

이 LoRA는 Flux.dev에서 오버워치의 사실적인 메르시/메르시 코스프레를 표현할 수 있도록 해줍니다.

구체적으로, 기본 복장, 마녀 복장, 그리고 약간의 날개 달린 승리 복장과 드. 지그러 복장이 제공됩니다... 그리고 창의적인 Flux가 상상할 수 있는 모든 것들!

이 업로드에는 두 가지 버전을 제공했습니다. 예시 이미지들은 동일한 시드, 프롬프트 및 모든 설정을 사용합니다. 차이점은 데이터셋의 캡션에 있습니다. 자세한 내용은 학습 섹션을 참조하세요. ¹=메인 버전, ²=_sc 버전(짧은 캡션)

주 트리거: mercy² (/ mercy cosplay, mercy outfit, ...)¹

개별 코스프레 요소들은 태그되어 있으므로, 사용할 수 있으며(심지어 반드시 사용해야 할 수도 있습니다).

  • Halo² (/ golden halo¹)

  • Staff(빗자루 지팡이)

  • Pistol

  • Iconic hair¹, iconic hair wig¹, wig² (... 또는 "iconic mercy hair wig"처럼 더 자세한 캡션)

  • Wings ([white, black, ....] 기계식 날개([[golden, yellow, glowing, transparent, ...] 날개 포함]), 깃털 날개, 천사 날개)

태그된 전체 복장:

  • Mercy (이것은 기본 복장입니다. 플라스틱처럼 보이게 하려면 “plastic white body armor” 같은 표현을 추가하세요. 그렇지 않으면 “fabric” 같은 단어를 추가하세요.)

  • Witch mercy (이 표현만으로도 복장이 충분합니다. 그러나 작동하지 않는 경우, 엉덩이에 있는 책, 빗자루 지팡이, 마녀 모자 등 추가 세부 사항을 넣을 수 있습니다.)

  • Winged victory mercy (이 복장은 일관되거나 좋은 방식으로 학습된 데이터가 너무 적어 기본 메르시 복장만 생성합니다. 다음 키워드들이 LoRA가 약간 기억하게 도와줍니다: 깃털 날개, 금장식이 있는 흰색과 파란색 로브, ivy(덩굴) 등 이 스킨의 외형과 유사한 단어들)

  • Dr. Ziegler Mercy (학습 데이터가 여전히 부족합니다. 실험실 가운, iconic hair wig 등을 추가하면 가장 좋은 결과를 얻을 수 있습니다.)

권장 LoRA 가중치: 원하는 스타일에 따라 0.7 – 1.0

이제 학습에 대해 조금 이야기해보겠습니다.

학습

이 데이터셋에 대한 아이디어를 떠올리고 바로 실행했습니다. 그 후, Pyro가 쓴 포스트 FLUX is smarter than you! - and other surprising findings on making the model your own를 우연히 발견하고 테스트해보기로 결정했습니다.

이 데이터셋에는 178장의 이미지가 포함되어 있으며, 가능한 한 다양하게 구성했습니다(단, Harold나 치와와는 없습니다). 그 후 InternVL2-8b를 사용해 모든 이미지에 기본 캡션을 생성했습니다. 제가 기대한 것은, 모델이 일부 프롬프트를 통해 복장을 식별해낼 수 있을 것이라는 것이었지만, 제 프롬프트 능력으로는 그럴 수 없었습니다(적어도 그랬습니다). 그래서 주 프롬프트를 변경하여, 주요 대상에 대한 정보는 최소한으로 하고 일반적인 이미지 묘사만 하도록 했습니다. 그 후, 제가 원하는 모든 요소들을 수동으로 설명했습니다(복장 유형과 특정 개별 아이템들).

그 후, 이 데이터셋을 복사해 캡션을 복장과 관련된 아이템들만 남기고 줄여서 Pyro가 설명한 발견을 실험했습니다.

즉, 아래와 같은 캡션:

“Winged Victory Mercy Cosplay. The character is standing on a rocky terrain with a waterfall in the background, surrounded by lush greenery. white and blue robe adorned with gold trim and intricate patterns. They have large, white, feathered wings attached to their back. In their right hand, they are holding a pistol. The overall scene is serene and natural, with sunlight filtering through the trees, creating a peaceful atmosphere. In the bottom left is a "Shappi" watermark.”

다음과 같이 줄였습니다:

winged victory mercy with pistol and wings, wig

*참고: 원래 캡션은 항상 “outfit” 또는 “cosplay” 등과 같은 단어로 시작하도록 라벨링했습니다. 따라서 단순히 “Mercy”만 쓰면 성능이 떨어집니다.

그리고 두 데이터셋 모두 ostris의 ai-toolkit을 사용해 동일한 설정으로 학습했습니다.

학습 설정:

  • Alpha, Dim: 16

  • 총 스텝: 9000

  • 캡션 드롭아웃: 0.05

  • 해상도: 512, 768, 1024

  • 배치 크기: 1

  • 노이즈 스케줄러: flowmatch

  • 학습률: 1.7e-4

  • 선형 타임스텝

  • 양자화 (그래디언트 체크포인팅 사용)

(각 모델은 RTX 4090에서 약 6시간 소요되었습니다.)

학습 후, safetensor 키를 Kohya와 호환되도록 변환하고, 모델을 다시 rank 16로 조정하여 저장 공간을 약간 줄였습니다(세부 정보는 거의 손실되지 않음).

그리고 이제 제 관찰을 말씀드리겠습니다:

두 LoRA 모두 충분히 작동하며, 단어 하나씩 캡션하는 것이 훨씬 쉽습니다.

하지만 저 개인적으로는 장문의 캡션으로 학습된 LoRA의 평균 결과를 더 선호합니다. 생성된 이미지가 더 “시네마틱”하기 때문입니다. 이는 개인의 취향입니다.

또한, 제 의견으로는 자세한 캡션을 가진 LoRA가 더 정밀한 제어를 제공하지만, 결과를 얻기 위해 종종 더 많은 텍스트가 필요합니다. 하지만 원본 데이터셋에서의 워터마크를 덜 재현합니다.

단점(만약 그렇다고 부를 수 있다면)은, 코스프레나 복장 등을 명시하지 않으면, 때때로 그림처럼 보이거나 사실적이지 않은 이미지를 생성한다는 점입니다. 그리고 Flux에서는 단순히 네거티브 텍스트를 추가해 사실적인 이미지를 얻기 어려운 경우가 있습니다.

또한, 특정 머리 모양 같은 미세한 디테일은 자세한 캡션의 모델이 더 잘 처리하는 것 같습니다.

결론적으로:

Pyro의 발견은 가치 있는 것이라 생각하지만, 저는 전적으로 동의하지 않습니다. 짧은 캡션은 작업을 편하게 만들어주지만, 여러 뉘앙스를 지원하는 LoRA에는 유연성이 떨어집니다. 작은 덜 복잡한 데이터셋에서는 시간을 절약하기 위해 짧은 캡션을 추천합니다.

저는 개인적으로 복잡한 경우에 장문의 캡션을 계속 사용할 것입니다. 하지만 정말 훌륭한 캡션이 필요하다고 생각합니다. 훌륭한 캡션 작성에 시간을 들이고 싶지 않다면, 대신 짧은 캡션을 사용하세요.

그러나 Pyro가 언급한 다른 주장들에는 매우 회의적입니다. 캡션 작성 중에 “LLM과 대화하는” 것이 가능하다는 그들의 주장은 믿지 않습니다.

끝까지 읽어주셔서 감사합니다!

질문이 있으시면 기꺼이 답변드리겠습니다. 그러나 몇 주간 바쁘기 때문에 CivitAI에 로그인하지 못할 가능성이 높으며, 약 한 달 후에야 답변이 가능할 것입니다.

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.