Style Components (ComfyUI & Forge)
세부 정보
파일 다운로드
이 버전에 대해
모델 설명
스타일 구성 요소 (ComfyUI & Forge)
지침 및 자세한 정보는 Forge 확장 프로그램 / ComfyUI 노드의 GitHub 페이지를 참조하세요. 이제부터 작은 변경 사항은 이 Civitai 페이지에 추가되지 않습니다. 최신 업데이트는 GitHub 페이지를 따라주세요.
v0.2.0 이전 설명
스타일 구성 요소 (Forge 확장 프로그램)
Stable Diffusion 1.x 및 SDXL 애니메이션 모델용 스타일 제어.
(모델 파일을 실제로 다운로드할 필요는 없으며, Colab 데모를 시도해보세요.)
v0.1.0부터 Forge 확장 프로그램이 제공됩니다.
v0.2.0에서는 SDXL(AutismmixPony) 전용 추가 Forge 확장 프로그램이 도입되었습니다. 이 버전부터 스타일 구성 요소는 v0.1(SD1)과 다른 의미를 가집니다.
이 도구는 무엇인가요?
IP-Adapter이지만, (애니메이션) 스타일용입니다. CLIP 이미지 임베딩 대신, 이미지 생성은 스타일 임베딩에 조건부로 설정되며, 이 임베딩은 이미지에서 추출하거나 수동으로 생성할 수 있습니다. 구성 요소 값은 PNG 정보에서 확인할 수 있습니다.
왜 필요한가요?
현재 스타일 제어의 주요 수단은 아티스트 태그입니다. 이 방법은 스타일 표절에 대한 우려를 자연스럽게 제기합니다. 모든 아티스트에 공통적으로 존재하는 해석 가능한 구성 요소로 스타일을 분해함으로써, 스타일의 직접 복제를 피할 수 있습니다. 또한, 스타일 구성 요소의 크기를 조정하여 새로운 스타일을 쉽게 생성할 수 있으며, 이는 아티스트 태그나 LoRA를 쌓는 방식보다 더 높은 제어력을 제공합니다.
또한, 이 방법은 일반적인 훈련에 잠재적으로 유용할 수 있습니다. 스타일 조건을 사용하여 훈련하면 개념에 스타일 누출이 약화될 수 있습니다. 또한 이미지 모델이 텍스트나 이미지가 아닌 임의의 텐서에 조건부로 설정될 수 있음을 보여주는 사례이기도 합니다. 바라건대, 본질적으로 수치적(미적 점수, 날짜 등)인 조건을 텍스트 태그로 강제로 변환할 필요가 없다는 점을 더 많은 사람들이 이해하게 되길 바랍니다.
어떻게 사용하나요?
현재 gradio 인터페이스가 있는 Colab 노트북이 제공됩니다. 이는 실험적 프리뷰에 불과하므로, 모델이 더 안정적인 상태에 이르기 전에는 인기 있는 웹 UI에 대한 공식 지원을 추가하지 않을 계획입니다.
Forge 확장 프로그램을 다운로드하여 extensions 디렉토리에 압축을 해제하세요. "Enable" 체크박스를 확인하세요. SD V1의 경우 v0.1.0을, SDXL의 경우 v0.2.0을 사용하세요.
슬라이더 값을 조정하거나 일반 이미지에서 가져와 스타일 임베딩을 생성할 수 있습니다. 각 구성 요소의 효과에 대한 참조 그리드는 미리보기 이미지에 제공됩니다.
SDXL 팁: 모델은 AutismmixPony로 학습되었습니다. 현재 유일하게 지원되는 모델입니다. 어댑터는 Pony 태그(source_anime, score_9 등)로 학습되지 않았으므로, 프롬프트에서 이러한 태그를 생략할 수 있습니다.
기술적 세부 사항
먼저, 아티스트 데이터셋을 사용하여 감독된 대비 학습(Supervised Contrastive Learning)으로 스타일 임베딩 모델을 생성합니다. 그런 다음 학습된 임베딩에서 PCA의 첫 번째 구성 요소를 추출합니다. 마지막으로, 동일한 데이터셋을 사용하여 WD1.4 태그 및 투영된 임베딩으로 애니메이션-final-pruned에 대한 수정된 IP-Adapter를 학습합니다. 학습 해상도는 576×576(SD1) 또는 1024×1024(SDXL)이며, 가변적인 종횡비를 사용합니다.
SDXL 버전에서는 스타일 조작을 조건부에서 분리하도록 설계를 개선했습니다. 스타일 추출기는 더 큰 데이터셋과 더 많은 파라미터로 업데이트되었습니다.
모델의 학습 방식 때문에, 스타일 임베딩은 전역 구성보다 지역적인 스타일을 더 잘 포착합니다. 또한 학습 시 이미지 크롭에 얼굴이 포함되도록 별도의 노력을 기울이지 않았기 때문에, 스타일 임베딩은 얼굴이나 눈 스타일을 잘 포착하지 못할 수 있습니다.
감사의 말
이 작업은 Inserting Anybody in Diffusion Models via Celeb Basis와 IP-Adapter에 크게 영감을 받았습니다. 학습 및 추론 코드는 IP-Adapter(라이선스)에서 수정되었습니다.


