ID Sign - Flux

세부 정보

파일 다운로드

모델 설명

이것은 ID 사인 개념을 모델링한 첫 번째 시도가 아니다. 초기 시도는 SDXL에서 이루어졌으며, 그 어떤 시도도 개념을 충분히 재현하지 못했다. SDXL용 개념은 단일 이미지였고, 전체 패널이 아니었다. OnOff를 보고 다른 LORA와 얼마나 잘 결합되는지 확인한 후, 다시 시도할 필요가 있었다. 이 모델의 프롬프트 텍스트는 OnOff와 유사하며, 그 효과가 좋았기 때문에 이 시도는 이를 모방했다.

엄격한 수준에서 ID 사인 또는 인증 사인은 특정 정보가 기재된 주름진 종이 한 장을 요구한다. 또한, 이미지가 편집되거나 수정되지 않았음을 보장하기 위해 이 사인은 여러 이미지에 표시되어야 한다. 세 가지 시점을 동시에 생성함으로써 이미지 간 일관성을 확보할 수 있었다. 특히, 사인의 텍스트와 종이의 주름이 일관되도록 집중했다.

이 모델은 flux1-dev용 LORA이며, flux1-dev 체크포인트로 학습되었다. 온라인에서 찾은 33장의 이미지를 사용하여 학습했고, 이미지는 표준화된 높이로 조정된 후 3장씩 묶어 학습용 11장의 이미지를 구성했다.

학습용 캡션은 다음과 같은 형식이었다:

“세 가지 시점에서 본 여성이 주름진 흰 종이 사인을 들고 있다, 왼쪽 사진 [SCENE], 중앙 사진 [SCENE], 오른쪽 사진 [SCENE]”

여기서 SCENE은 사진에 대한 간략한 설명이었다.

SCENE의 예: “누워 있는 상태”, “옆에서 본 속옷 차림으로 무릎 꿇은 상태”, “누워 있는 상태”, “옆에서 본 노출된 상태”

권장 설정

이 모델은 다음 설정과 잘 작동한다:

  • 1의 강도
  • 3-3.5의 Distilled CFG
  • 30단계
  • Euler Simple
  • fluxunchainedArtfulNSFW 체크포인트
  • 해상도 1408x768

프롬프팅

다음 프롬프트 형식은 우수한 결과를 제공했다:

“세 가지 시점에서 본 여성이 주름진 흰 종이 사인을 들고 있다, 사인에는 ("TEXT":1.3)라고 쓰여 있다, 모든 사진에 공통된 요소를 설명하라, 왼쪽 사진 SCENE_1, 중앙 사진 SCENE_2, 오른쪽 사진 SCENE_3 lora:idsign_flux_v1:1

전체 장면은 이미지의 공통 요소로 프롬프팅할 수 있다. 예: “침실에 있는 갈색 머리 여성”, “해변에서”, “가슴이 큰 드레스를 입은 여성”과 같은 전체 문장으로 프롬프팅이 가능하다.

개별 장면도 프롬프팅할 수 있다. 간단한 프롬프트가 사인의 일관성을 더 높였다. 예: “침대에 누워 있음”, “의자에 앉아 있음”, “밖에서 서 있음”

다른 프롬프팅도 작동할 수 있다.

장점

  • 올바른 텍스트가 있는 ID 사인 생성
  • 일관된 텍스트와 주름이 있는 ID 사인 생성
  • 각 사진에 대한 프롬프팅 가능
  • 다양한 피사체와 호환
  • 3개 이상의 시점 생성 가능(학습 데이터에 포함되지 않음, flux에게 감사)

단점

  • 사진의 일관성은 2-10%의 경우에만 발생(프롬프트에 매우 의존)
  • 단순하지 않은 시점에서 들고 있는 사인은 작동하지 않음
  • 사진이 완벽하게 일관되지 않음

버전 2

더 작은 LORA 크기를 시도했으나 성능이 좋지 않았다. 이 모델은 더 다양한 학습 이미지 세트를 통해 개선될 수 있다. 향후 다른 버전이 제작될 수 있다.

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.