FKEY 画风模仿 STYLE DREAMBOOTH

세부 정보

파일 다운로드

모델 설명

【본 모델의 학습 과정에서 소재 출처 작가의 동의를 얻지 않았습니다. 부적절할 경우 즉시 삭제하겠습니다.】

【본 모델 및 생성된 이미지를 어떠한 상업적 용도로도 사용하지 마세요!】

【본 모델을 이용하여 부적절한 이미지를 생성하거나 유포하지 마세요!!】

학습 방법:

  • 이 Dreambooth는 GitHub의 kohya 학습 패키지를 사용했습니다.

  • 학습 장비는 RTX A6000입니다.

  • 학습 소재는 FKEY 선생님의 작품 70장이며, 그 중 얼굴과 상반신이 선명한 이미지를 다시 자르고, 총 134장의 학습 데이터셋을 구성했습니다.

  • 모든 이미지는 1024×1024로 자르았습니다. 전신 및 반신 이미지는 768×1024 또는 1024×768로 크기 조정한 후, 남은 공간을 검은 배경으로 채웠습니다.

  • 얼굴 이미지(44장)는 25회 반복, 상반신 이미지(56장)는 10회 반복, 전신 이미지(34장)는 6회 반복했습니다.

  • 라벨링은 Danbooru(0.7) + swinv2_tagger_v3(0.35)를 사용했습니다. 자동 라벨링 후 'boy'와 관련된 라벨만 삭제하고, 다른 라벨은 추가 수정하지 않았습니다.

  • 이후 트리거 단어 'fkey70'을 추가했습니다. SDXL 버전의 Dreambooth 학습에서 트리거 단어 없이 학습하면 수렴이 어려운 것으로 나타났습니다.

  • shuffle caption을 활성화했으나 'fkey70'은 고정했습니다.

  • 전역 학습률은 1e-6으로 설정했고, constant 학습률 조정 전략을 사용했습니다. 최적화기로는 AdamW8bit를 사용했습니다.

  • 노이즈 오프셋은 비활성화했고, enable bucket 옵션은 꺼졌습니다.

  • REG 이미지는 관련 웹사이트에서 수집했으며, 총 320장으로 학습 소재의 약 2배 이상입니다.

  • 저장 방법은 step 단위로 저장하며, 매 2500단계마다 저장했습니다.

  • 최대 step은 150,000으로 계획했습니다. 50,000–100,000 step 사이에서는 스타일 재현도와 풍성함이 우수했고, 100,000–120,000 step 근처에서 과적합이 이미지 품질에 영향을 미쳤습니다. 120,000–150,000 step 구간에서는 생성된 이미지가 완전히 사용 불가능했습니다.

  • 테스트 결과, 70,000 step과 75,000 step 버전은 원본 특징 표현과 일반화 능력이 가장 균형 잡힌 것으로 판단되어 공개 버전으로 채택했습니다.

  • 학습 시 clip skip은 1로 설정했으나, 이미지 생성 시에는 2를 사용했습니다.

  • 혼합 정밀도 학습을 사용했습니다.

이미지 생성:

  • Adetailer 사용을 강력히 권장합니다.

  • 원본 이미지 생성 시 Euler A를 사용하며, step은 약 28로 설정했습니다. step이 너무 높으면 신체 부위가 왜곡되기 쉽습니다. CFG는 5–7 사이로 설정하세요.

  • Adetailer를 사용할 때 일부 파라미터는 원본 이미지 생성과 다릅니다.

  • DPM++ 3M SDE Karras를 사용하며, step은 약 40으로 설정했습니다.

  • 얼굴 고해상도 보정을 위해서는 더 높은 반복 횟수가 필요하며, CFG도 약 8로 설정해야 합니다.

  • 원본 소재에 고양이 귀 요소가 많기 때문에, 생성된 캐릭터에 고양이 귀를 포함하지 않으려면 부정적 프롬프트에 'animal ears'와 'cat ears'를 추가하세요.

공개된 두 버전 간의 특징 차이는 미세합니다. 본인의 선호에 따라 다운로드하세요.

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.