SDXL VAE finetune + VAE training script

세부 정보

모델 설명

이것은 SDXL의 VAE를 미세 조정한 나의 첫 번째 시도(v1)이며, 학습 스크립트도 공유하고자 합니다. 스크립트 자체는 GitHub에서 확인할 수 있습니다: https://github.com/kukaiN/vae_finetune

저는 휴가 중에 이 모든 작업을 하고 있으므로 설명이 짧아 죄송합니다. 미세 조정 스크립트의 README에는 원래 스크립트의 출처와 혼합 정밀도를 위한 수정 사항, 그리고 Diffuser 형식에서 SD 형식으로 모델 키를 변환하는 방법에 대한 정보가 포함되어 있습니다.

이것은 제 첫 번째 VAE 학습 시도의 v1 버전이지만, 이 시도는 실패했습니다. 저는 애니메이션 이미지(체크포인트 데이터에서 약 60,000장)를 사용해 5 epoch 동안 미세 조정을 시도했습니다. 모델 가중치의 차이와 내부 가중치의 코사인 유사도를 비교해보면 모델이 실제로 학습된 것을 확인할 수 있지만, bf16과 낮은 학습률로 학습한 것이 미세 조정된 VAE에 큰 차이를 만들어내지 못한 것 같습니다. 모델 해시는 다르지만, 이 차이가 충분히 크지 않아 눈에 띄는 차이를 생성하지 못했습니다.

차기에는 fp16 학습과 더 높은 학습률로 2 epoch 학습 버전을 시도해보고자 합니다.

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.