FKEY 画风模仿 STYLE DREAMBOOTH
세부 정보
파일 다운로드
모델 설명
【본 모델의 학습 과정에서 소재 출처 작가의 동의를 얻지 않았습니다. 부적절할 경우 즉시 삭제하겠습니다.】
【본 모델 및 생성된 이미지를 어떠한 상업적 용도로도 사용하지 마세요!】
【본 모델을 이용하여 부적절한 이미지를 생성하거나 유포하지 마세요!!】
학습 방법:
이 Dreambooth는 GitHub의 kohya 학습 패키지를 사용했습니다.
학습 장비는 RTX A6000입니다.
학습 소재는 FKEY 선생님의 작품 70장이며, 그 중 얼굴과 상반신이 선명한 이미지를 다시 자르고, 총 134장의 학습 데이터셋을 구성했습니다.
모든 이미지는 1024×1024로 자르았습니다. 전신 및 반신 이미지는 768×1024 또는 1024×768로 크기 조정한 후, 남은 공간을 검은 배경으로 채웠습니다.
얼굴 이미지(44장)는 25회 반복, 상반신 이미지(56장)는 10회 반복, 전신 이미지(34장)는 6회 반복했습니다.
라벨링은 Danbooru(0.7) + swinv2_tagger_v3(0.35)를 사용했습니다. 자동 라벨링 후 'boy'와 관련된 라벨만 삭제하고, 다른 라벨은 추가 수정하지 않았습니다.
이후 트리거 단어 'fkey70'을 추가했습니다. SDXL 버전의 Dreambooth 학습에서 트리거 단어 없이 학습하면 수렴이 어려운 것으로 나타났습니다.
shuffle caption을 활성화했으나 'fkey70'은 고정했습니다.
전역 학습률은 1e-6으로 설정했고, constant 학습률 조정 전략을 사용했습니다. 최적화기로는 AdamW8bit를 사용했습니다.
노이즈 오프셋은 비활성화했고, enable bucket 옵션은 꺼졌습니다.
REG 이미지는 관련 웹사이트에서 수집했으며, 총 320장으로 학습 소재의 약 2배 이상입니다.
저장 방법은 step 단위로 저장하며, 매 2500단계마다 저장했습니다.
최대 step은 150,000으로 계획했습니다. 50,000–100,000 step 사이에서는 스타일 재현도와 풍성함이 우수했고, 100,000–120,000 step 근처에서 과적합이 이미지 품질에 영향을 미쳤습니다. 120,000–150,000 step 구간에서는 생성된 이미지가 완전히 사용 불가능했습니다.
테스트 결과, 70,000 step과 75,000 step 버전은 원본 특징 표현과 일반화 능력이 가장 균형 잡힌 것으로 판단되어 공개 버전으로 채택했습니다.
학습 시 clip skip은 1로 설정했으나, 이미지 생성 시에는 2를 사용했습니다.
혼합 정밀도 학습을 사용했습니다.
이미지 생성:
Adetailer 사용을 강력히 권장합니다.
원본 이미지 생성 시 Euler A를 사용하며, step은 약 28로 설정했습니다. step이 너무 높으면 신체 부위가 왜곡되기 쉽습니다. CFG는 5–7 사이로 설정하세요.
Adetailer를 사용할 때 일부 파라미터는 원본 이미지 생성과 다릅니다.
DPM++ 3M SDE Karras를 사용하며, step은 약 40으로 설정했습니다.
얼굴 고해상도 보정을 위해서는 더 높은 반복 횟수가 필요하며, CFG도 약 8로 설정해야 합니다.
원본 소재에 고양이 귀 요소가 많기 때문에, 생성된 캐릭터에 고양이 귀를 포함하지 않으려면 부정적 프롬프트에 'animal ears'와 'cat ears'를 추가하세요.










