AstolfoMix-SD2
세부 정보
파일 다운로드
이 버전에 대해
모델 설명
AstolfoMix-SD2
15개의 모델(12개 UNET + 4개 CLIP)의 이국적인 병합입니다. 설명은 이 기사를 참조하세요. “약간 공식적인 릴리즈” 전에 HuggingFace 모델 페이지에서 미리보기. 내용/이론은 SD1 버전과 중복되지 않으며, 아래 내용은 SD2 전용입니다.
개요
저는 “유용한 SD2.1 모델 제작”에 초점을 맞춘 AstolfoMix-SD2를 제시합니다. 이 모델과 그 파인튜닝 변형(특히 WD1.5)의 이전 역사가 대단히 실패했기 때문입니다. 현재 이 모델은 애니메이션 스타일입니다. 그녀는 Astolfo가 아니지만, 그래도 매우 귀여워요!
서론
SD2.1은 원래 아이디어를 시험하는 최고의 무대입니다. SD2 및 그 파인튜닝(특히 WD1.5)의 전체 역사가 완전한 비극이었습니다. 제가 전부 쓸모없는 모델들을 병합해도 합리적인 결과를 얻을 수 있다면, 훨씬 더 독창적인 발견을 하고 진실에 더욱 가까워질 수 있을 것입니다.
관련 작업
WD1.5B2부터 시작해, 저는 이것이 트레이너 문제와 A1111의 런타임 문제 모두에 기인한다고 믿습니다. 당시 대부분의 모델은 데모 사례에서 언급된 프롬프트를 제외하고는 합리적인 이미지를 생성할 수 없었습니다. 231231 기준으로, 저는 2303년의 동일한 이미지를 재현할 수 없습니다. Replicant-V3.0 및 그 변형을 제외하고, حتى PonyDiffusion도 데모 프롬프트로는 합리적인 이미지를 만들지 못했습니다(대부분 사용자는 이 사실을 인지하지 못하며, 이 모델들이 그들을 타겟으로 하기 때문입니다). 따라서 개선할 점이 분명히 존재해야 합니다.
비슷한 사고를 공유하는 몇 가지 노력한 병합이 있었지만, 이상하게 작동했습니다(나중에 포함해야 할 핵심 프롬프트를 발견했습니다). 그리고 부모 모델에서 실제로 개선된 부분도 존재했습니다. 결과 모델이 개념 이해에 약한 이유는, 병합 과정에 분명히 심각한 문제가 포함되었기 때문일 것입니다.
방법론
SD1이 “무작위로 모델을 선택해도 작동한다”는 것과 달리, (신중한) 모델 선택은 NP 하드( O(N!) ) 문제입니다. 그러나 총 23개에 불과하므로, 시각적 검사에 의한 패턴 인식을 통해 핵심 개념인 "Replicant-V3 UNET + WD1.5B3 CLIP" 으로 축소할 수 있었습니다. 추가 매칭을 거쳐, 이 버전의 AstolfoMix에는 10개의 UNET과 4개의 CLIP/TE가 선택되었습니다.
이번에는 stable-diffusion-webui-model-toolkit을 자주 사용할 것입니다. UNET과 CLIP을 함께 추출하고 불러오기 때문입니다. 또한 이 도구는 일반적이고 신뢰할 수 있으며 디스크 공간을 절약하는 FP16 safetensors 형식으로 모델을 저장합니다. 지금까지 80개 이상의 모델을 생성했으며, 이는 상당한 양입니다 (공간에 대해 O(N))
(이미지와 단계는 생략했습니다. 자세한 내용은 제 전체 길이의 Github 페이지를 참조하세요.) 저는 CLIP과 UNET 간에 몇 차례의 전역 비교를 수행한 후, 모델 범위를 점차 축소하고, 마지막으로 발견된 SD2.1 모델 중 단 절반만 선택했습니다.
실험
SD1 버전과 동일합니다. 유일한 차이점은 대부분의 모델이 애니메이션/실사로 태그되어 있어 프롬프트를 조정해야 하며, AI가 SD1처럼 스타일을 혼합하지 않기 때문입니다. 실제 모델 구조의 차이로 인해, 런타임 오류, 병합 전체에 걸쳐 동일한 점수, 일관된 글리치된 이미지가 발생했습니다. 여러 가지 해결책을 적용했고, 심지어 모델 선택을 변경하기도 했습니다.
논의
SD1 버전과 동일합니다. v-pred는 유용합니다. 태깅 문제는 여전히 해결 가능합니다(저는 품질/스타일 태깅에 반대합니다. 이는 많은 관련 없는 객체와 연결되어 전체(기본) 모델의 유연성을 해칠 수 있기 때문입니다). 대신 LoRA/임베딩(badhands / badprompt)을 사용해 문제를 해결하세요.
결론
제 모델을 직접 시도해보세요! AstolfoMix는 제 개인적인 “모델 선택”과 “특징 추출”을 나타낼 뿐입니다. 누구나 ‘균일 병합’을 사용해 훌륭한 SDXL 모델이 나오기 전에 자신의 기본 모델을 만들 수 있습니다. 또한, 충분한 자원이 없다면 위험한 MBW/파인튜닝에 시간을 낭비하지 마세요.
부록
사용된 모델
CivitAI는 테이블 형식을 지원하지 않으므로, 목록을 재정렬했습니다.
UNET:
_202Artius V2.1 NSFW
_204hakoMayD
_206Mishi Anime
_210Quattro4Merge+i
_211Replicant-V3.0
_221RheaSilvia
_222MuaccaMix
_223hakoMayBoy
_224Hurricane
CLIP:
_213Cool Japan Diffusion 2.1.2
_215WD 1.5 Beta 3
_220Realgar-v2.1
발견된 모델
_201AllWorkForkRowk
_203E621 Rising v2
_207NijiDiffusion
_209PVC v4
_212Pony Diffusion
_214WD 1.5 Beta 2
_216YiffAI





