Serizawa Momoka (Tokyo 7th Sisters) | Guide: Mask, Don't Negative Prompt: Dealing with Undesirable Parts of Training Images

세부 정보

파일 다운로드

모델 설명

(도쿄 7th 시스터즈 자산을 청결하게 제공할 수 있는 출처를 알려주실 수 있는 분이 계셨으면 정말 감사하겠습니다. 트위터에서 크롤링하거나 게임 API를 역공학하는 것은 별로 원하지 않습니다.)

마스크, 부정적 프롬프트 없음: 학습 이미지의 원치 않는 부분 다루기

서론

학습 이미지는 항상 깨끗하지는 않습니다. 특정 대상에 대해 학습을 할 때, 텍스트, 테두리 또는 워터마크와 같은 이미지 내 연관 없는 부분들이 모델에 함께 학습되는 경우가 있습니다. 이러한 문제에 대응할 수 있는 전략이 여러 가지가 있지만, 각각의 전략은 단점이 있습니다:

  1. 자르기: 원치 않는 부분을 제외합니다. 원본 구성에 영향을 미치며, 일부 사례에는 적용되지 않습니다.

  2. 채우기 (Inpainting): 사전 처리를 통해 원치 않는 부분을 생성된 픽셀로 대체합니다. 좋은 채우기 프롬프트 또는 모델이 필요합니다.

  3. 부정적 프롬프트: 학습은 그대로 진행하고, 새로운 이미지를 생성할 때 부정적 프롬프트를 추가합니다. 모델이 원치 않는 부분이 프롬프트와 어떻게 매핑되는지 알아야 합니다.

다음과 같은 간단한 전략이 효과적입니다:

  1. 마스크 처리: 손실함수에 미리 정의된 마스크를 곱합니다.

이 방법은 새로운 방식이 아님 이미 존재하지만, 가장 인기 있는 LoRA 학습 스크립트는 여전히 내장된 지원을 제공하지 않고 있습니다.

실험

60개의 이미지를 사용했으며, 도쿄 7th 시스터즈의 세리즈와 모모카 카드 텍스트와 장식을 포함하고 있었습니다.

마스크가 적용된 LoRA일반적인 마스크 없이 적용된 LoRA를 각각 학습했습니다.

마스크된 버전의 경우, 원본 이미지 위에 이미지 편집 소프트웨어로 마스크를 그렸습니다. 참고로 VAE의 8배 확대 계수 때문에 모델이 본 것은 8x8 픽셀화된 버전입니다. 마스크로 가리킨 부분을 설명하는 태그는 제거했습니다.

결과

(미리 보기 이미지 참조)

미래 작업

  • 세그멘테이션 모델을 사용한 마스크 자동 생성

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.