One LoRA controls consistency across multiple roles
세부 정보
파일 다운로드
모델 설명
도움이 된다면, 제 Bilibili 계정이나 YouTube 계정을 구독해 주세요.
ComfyUI에서 여러 역할의 일관성 제어는 항상 도전 과제였습니다. 이전에는 단일 역할 LoRA 학습을 사용하여 단일 역할의 일관성을 제어했습니다.
그 후, 저는 데이터셋을 병합하고 프롬프트 단어를 주석 달았습니다. 그러나 선택한 프롬프트 단어 주석 전략은 의미 오염 문제를 일으켜 모델이 기대한 효과를 잘 달성하지 못했습니다.
라벨:
순백색 배경의 사진에서, susuxi는 왼쪽에 서서 허리에 손을 올린 채 흰 셔츠와 검은 바지, 바지에는 노란 벨트, 셔츠에는 노란 주머니를 착용하고 있습니다. 표정은 기쁨이며 입은 웃고 있습니다. dreamoo는 오른쪽에 상체 사진으로 나타나 있으며, 오른쪽에 회색 상의와 빨간 반팔 셔츠를 입고 있습니다.

그러나 테스트 결과, 프롬프트 단어의 영역 제어를 무시하면 이미지 내 특징이 혼합되는 문제가 발생했습니다.
susuxi와 dreamoo가 그네를 타고 있습니다,

그 이후, in context lora를 참고하여, 저는 라벨링 방법을 수정하고 Flux 모델의 이미지 영역 인식 능력을 향상시켰습니다. 이미지 내 다양한 영역의 특징에 대응하는 서로 다른 프롬프트 단어 형태를 사용하여 LoRA 모델의 학습을 완료했습니다.
라벨:
[두 명의 서로 다른 캐릭터 장면], <dreamoo><ssx> 단체 사진, <ssx는 허리에 손을 올리고 흰 셔츠와 검은 바지를 입고 있으며, 셔츠에는 노란 주머니가 있음>, <dreamoo는 회색 상의에 빨간 안감을 입고 오른쪽을 바라봄>, 순백색 배경,
동일한 장면에 여러 캐릭터를 나타내려면 다음 방법으로 프롬프트를 작성하는 것을 추천합니다:
[한 장면에 두 명의 서로 다른 캐릭터], <dreamoo><ssx> 장면 설명, <첫 번째 캐릭터의 복장과 상태를 트리거 단어로 설명>, <두 번째 캐릭터의 복장과 상태를 트리거 단어로 설명>, 전체 장면 설명,
아래는 테스트 결과 차트입니다. 결과에서 볼 수 있듯이, 이 모델은 강력한 일반화 능력을 가지고 있으며 역할의 일관성을 유지합니다.


만상 비디오 생성 모델과 결합하면 영상 제작이 가능하며, 효과가 매우 우수합니다.












