AstolfoMix-XL

세부 정보

파일 다운로드

모델 설명

AstolfoMix-XL

"256c" 및 "215c"는 여러 병합 방법을 포함합니다 (215a "DELLA" 및 215b "Git-Rebasin") 257(216)개의 발견된 SDXL 모델(필터링되지 않음). 설명은 이 기사를 참조하세요. "약간 공식적인 출시" 전에 HuggingFace 모델 페이지에서 미리보기. 콘텐츠/이론은 SD1 버전 또는 SD2 버전과 중복되지 않으며, 아래 내용은 SDXL 전용입니다. 전체 문서/자료는 Github에 있습니다.

  • 더 선명한 이미지를 위해 CFG++ / PAG / SEG 조합을 사용하세요.

  • CivitAI 사용자용: CFG 3.0, CLIP skip 2, 기본 VAE.

  • (215c) 품질 태그는 필요하지 않지만, 과도한 태그도 문제를 일으키지 않습니다.

  • (256c) 콘텐츠가 인간 캐릭터에 덜 집중하는 것처럼 보이기 때문에 215c보다 약간 덜 일관적입니다.

  • (255c) 이 모델은 프롬프트를 따르지 않습니다. 학습을 위한 좋은 베이스 모델이 될 수 있습니다. 이 모델은 SDXL1.0보다 더 과소적합입니다. 255c는 잘못된 레시피와 부적절한 베이스 모델을 선택했다는 것이 확인되었습니다.

요약

저는 AstolfoMix-XL을 제시합니다. 이는 "병합 옵션"을 탐색하는 데 초점을 맞춘 병합 모델이며, 인기 있는 모델(Pony Diffusion V6 XL)과 SD3을 기다리는 중에 병합에 빠져 있습니다. 현재 애니메이션 스타일입니다. 반갑습니다, 아스톨포! 너는 정말 귀엽다!

서론

AstolfoMix-XL은 이전 모델(SD1/SD2)의 "스케일업" 병합 버전이며, 제 기사를 확장하고 인터넷에서 유용한 콘텐츠(및 개념)를 재사용하는 데 도움이 되기를 바랍니다. 손으로 병합하기에는 haystack이 너무 큽니다. 전용 병합기(mergekit과 유사)가 프로세스를 자동으로 수행하고 중간 모델을 저장하지 않도록 하면, 학습된 자료에서 더 _일반적이면서 고품질_인 콘텐츠를 생성할 수 있을 것으로 기대합니다.

관련 연구

이건 힘듭니다. 이 학문적 경로는 부흥인가, 아니면 후퇴인가?

모델 병합은 앙상블 학습의 확장 주제이며, AI 모델에 대한 다양한 병합 알고리즘이 존재합니다. LLM 모델은 일반적으로 매우 크고 학습 비용이 비싸기 때문에 이 주제는 공식적으로 논의되고 있습니다. 많은 병합 알고리즘이 논문의 자체 코드 저장소(DARE)에서 제안되었습니다, 또는 무시되었습니다(Git Rebasin의 MergeMany), 또는 문서화되지 않았습니다("회전" 및 더 많은 "행렬 연산"). 동시에 전용 병합기(mergekit 또는 supermerger)가 개발되고 있습니다.

약간의 신념(MDP=AR(1), 즉 LLM 병합이 SD 병합에 적용 가능하다는 것)을 바탕으로, 여러 실험을 수행했습니다(SD1은 ModelSoup로, SD2는 정렬 없이 모델 선택으로, 이후 PR, PR, 그리고 PR을 진행했습니다. 왜냐하면 외부에 코드베이스가 없었기 때문입니다.) 그리고 _약간의 운_으로, 저는 "이 일을 해내고" 공개할 용기를 냈습니다. 커뮤니티 지원이 거의 없거나 전혀 없어서(특히 NAI v3 이후 대부분의 모델 병합기가 사라졌거나, 파인튜닝 열풍이 사라졌거나, MBW 이론이 실제로 유효하지 않음을 깨달았기 때문입니다. 이는 단지 최적화 루프를 통해 매개변수를 도입했을 뿐 예술적이지 않았습니다).

예를 들어, AnythingXL의 공개된 레시피를 해석하면 "7개 모델의 평균, 각 모델은 14.2857%, 동시에 가장 선호하는 모델은 두 배인 28.5714%"로 볼 수 있습니다. 반면, PonyMagine은 사용자 정의 레시피 위에 DARE를 성공적으로 적용했습니다.

방법론

병합은 복잡하지 않지만, 진입 장벽은 다소 높습니다(마법 같은 수식).

여기서 별도의 토론을 하거나, 이 플랫폼에 기사를 작성하거나, Github의 제 기사(또는 이것) 또는 아직 작성되지 않았다면 CivitAI의 별도 기사를 참조하겠습니다.

SD에서 이 수준의 모델 병합에 대한 논의가 부족하므로, 저는 참고할 것이 없고 신중하게 정당화하고 통찰을 만들어야 했습니다. "관련 연구"를 연구하면서(ML/Math 논의에 가까워 여러 번 읽었습니다), 알고리즘 수정이 필수적일 것이라 기대했습니다.

따라서 먼저 원본 구현을 완료했습니다(수개월이 걸렸습니다). 그리고 마침내 상속된 수학적 특성에 대한 분석을 수행했습니다. 곧 작업 벡터정규화(리스케일의 하위 집합)되어야 하며, 부호 선택은 부호가 붙은 이동이 아니라 항등식을 기반으로 해야 한다는 것을 발견했습니다. 왜냐하면 SD 하의 MDP는 RNN과 같은 기울기 문제를 겪고 있기 때문입니다.

한편, 저는 모델을 학습할 자원(하드웨어/시간/인적 자원 또는 흥미)도, 심지어 체계적인 평가(team lycorisdeepghs와 같은)를 수행할 자원도 없습니다. 제가 할 수 있는 유일한 것은 모델에 대해 주관적인 HTP 테스트를 수행하는 것입니다. 모델이 그 자체의 자연스러운 행동을 반영한다고 가정합니다. 따라서 "분홍색 머리 소년이 자동차와 상호작용하며 무작위이지만 채워진 배경"을 볼 수 있습니다.

실험

(215a) 발견된 모델, 필터링 프로세스, 병합 스크립트(클릭 한 번으로 완료!), 그리고 387줄의 레시피가 생성되었습니다.

(215b) 병합기의 확장 사용.

(215c) 완성되지 않은 전용 병합기.

매개변수 탐색

병합 알고리즘의 매개변수는 모델 풀에서 무작위로 **10%의 모델(예: 192개 중 20개)**을 선택하여 효과를 확인함으로써 찾았습니다. 병합 시간이 20배 줄어들었고, 여전히 최종 결과를 충분히 대표할 수 있었습니다.

프롬프트

프롬프트 없이도 작동합니다_ . 품질 태그는 정말 필요한가요?_

긴 프롬프트로 테스트해보았지만 잘 작동했습니다. 반면, 제가 게시한 대부분의 이미지는 단지 몇 단어에 불과하며, 부정적 프롬프트는 거의 사용하지 않습니다(왜냐하면 제거할 것이 거의 없기 때문입니다). 그러나 품질 태그를 추가하면, 레시피 모델들이 서로 모순된 지식으로 충돌하기 때문에 더 나쁜 또는 파괴된 이미지가 생성될 수 있습니다.

CFG / STEPS / 보조 도구

SD1 버전과 동일하게 넓습니다. 현재 **"CFG 3.0 + PAG 1.0 + mimic 1.0 phi 0.3 + FreeU 기본값"**이 좋다는 것을 발견했습니다. **"48단계 Euler"**가 생성에 충분하지만, 저는 여전히 256 STEPS + 64 고해상도를 선호합니다.

토론

심지어 최신 병합 알고리즘도 모든 모델의 모든 개념을 학습할 수 없습니다. 이는 학습된 모델/LoRAs의 대체품이 아니라, 더 발전하기 위한 베이스 모델이어야 합니다. 더 나은 베이스 모델들은 커뮤니티의 오해나 단기적 시각으로 무시되었습니다. SD1/NAIv1을 거쳐서 우리는 무엇을 배웠나요?

Pony가 단지 NSFW 기능 때문에 받아들여져 기술적 고려사항을 무시당한 것은 유감스럽거나, "관심의 마지막 손톱", 자원이 지속 가능하지 않게 되었습니다.

저는 이 여정 동안 낮은 주목도를 인지하고 있습니다(기본 모델 대비 이미지 품질이 향상되었고, "할로 효과"가 줄어들었습니다). 그러나 저는 이 일을 해내어 (예술의) 역사에 흔적을 남겨야 합니다. 저는 누구도 오픈소스 모델 개발에 관심을 갖지 않을 것임을 알고 있습니다. 왜냐하면 인센티브가 너무 낮기 때문입니다. 물질적 지원이든 정신적 지원이든 말입니다. 더 이상 animagine은 없고, 일부 유명한 모델러들이나 덜 유명한 사람들도 사라졌습니다.

SD 커뮤니티는 수천 개의 LoRA를 베이스 모델로 다시 병합하고, "예술 운동"을 계속 이어가야 할 것입니다. 미래에는 대량의 LoRA, 심지어 베이스 모델을 병합해야 할 필요가 있을 것이며, 이에 대한 어떤 방법이라도 필요할 것입니다.

극한 조건에서의 의사난수

255c에서는 모델 가중치에 대한 극단적인 정규화로 인해 "모델 가중치 간의 잡음"이 다시 나타나는 것처럼 보입니다. 이는 학습 경로의 소실 기울기 문제와 유사합니다. 이 시리즈의 끝을 의미하며, 모델을 제대로 학습해야 합니다... 그리고 저는 했습니다. 마침내 병합이 벽에 부딪혔습니다.

결론

새로운 병합기는 다양한 모델에 대해 복잡한 병합 알고리즘을 연구할 수 있는 능력을 제공하며, 모델 구조를 동일하고 편리하게 유지합니다. 다른 병합 알고리즘을 기반으로 모델을 성공적으로 생성하고 테스트할 경우, 이 기사를 업데이트할 것입니다.

부록

레시피는 실험 섹션을 참조하세요.

  • 이 믹스를 위한 제 워크스테이션 (병합 시간은 36.2시간, DGMLA-216의 최대 RAM 사용량은 1.4463.500TB, 총 모델 수에 비례하여 확장됨).

라이선스: Fair AI Public License 1.0-SD
자세한 내용은 ANIMAGINE XL 3.0 / Pony Diffusion V6 XL / NoobAI-XL의 라이선스 섹션을 참조하세요.

  • 힌트: 당신이 내 모델을 병합하거나 파인튜닝했음을 증명하는 것은 불가능합니다(심지어 (1-h)와 유사하더라도). VAE를 수정하기 위해 툴킷을 사용하는 것을 잊지 마세요(메타데이터는 유지되지 않습니다).

  • 힌트: 제 스크립트는 MIT 라이선스입니다. 제 워크스테이션을 팔아드릴 수도 있습니다.

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.