Hikarimagine XL
세부 정보
파일 다운로드
이 버전에 대해
모델 설명
이 모델은 Animagine XL 4.0를 기반으로 한 실험적 모델입니다.
원본 모델은 Cagliostro Research Lab에서 개발했습니다.
라이선스: Open rail ++
이 기사(https://www.reddit.com/r/StableDiffusion/comments/1o1u2zm/text_encoders_in_noobai_are_dramatically_flawed_a/)를 읽고 약간 시도해보고 싶었습니다. 아마도 학습 전에 텍스트 인코더를 사전에 학습시키고, 학습 중에는 고정하는 것이 훨씬 더 나은 접근법일 것입니다. 저는 Clip L을 Animagine XL 4.0에 병합하고, 70만 장의 이미지로 3에폭을 학습시켜 이미지의 결함을 수정하고 지식을 약 2025년 5월 수준으로 업데이트했습니다. 그러나 이 정도로는 아직 충분하지 않을 수 있습니다. 2025년 9월까지 더 발전시키기 위해 또 다른 학습을 진행할 수도 있습니다.
또한 무료로 이미지를 생성할 수 있는 간단한 플랫폼도 구축했습니다: https://miyukiai.com/
하지만 GPU 수량이 제한되어 있어 대기 시간이 길어질 수 있습니다.
제 작업에 감동하셨다면, 기부를 통해 모델 개발과 플랫폼 무료 운영을 지원해 주세요: https://ko-fi.com/suzushi2024
아래는 AI 모델 전반에 대한 간단한 메모와 현재의 향후 계획입니다.
원래 계획은 우수한 SD3.5 미디엄 애니메이션 베이스 모델을 개발하는 것이었습니다. 수개월 전부터 이 주변에 많은 프로젝트가 등장했습니다. 만약 여러 베이스 모델과 LoRA가 있다면 SD3.5m를 위한 정말 훌륭한 생태계가 형성될 수 있을 것입니다. 그러나 많은 프로젝트가 학습 도중 중단되거나 실패했습니다. 또한, 새로운 변경 사항으로 인해 모든 SD3/3.5 시리즈 모델이 다시 CivitAI에서 제거되었습니다. 그럼에도 불구하고 관심 있는 분들을 위해 이 시리즈는 HuggingFace에서 계속 업데이트할 예정입니다: https://huggingface.co/collections/suzushi/miso-diffusion-m.
또한 더 작은 Dit 베이스 모델을 학습하고자 합니다. 지금까지 Lumina가 매우 유망해 보입니다. 대부분의 Dit 모델은 크기가 크고, RTX 4080 등에서 이미지 생성에 최소 90초 이상이 걸리는 것은 너무 오래 걸리며, 대부분의 사용자들이 이와 같은 하드웨어를 보유하고 있지 않습니다. 따라서 목표는 작고 견고한 모델을 선택하는 것입니다. 현재 텍스트 인코더의 미세 조정을 준비 중이지만, 더 많은 준비가 필요합니다. Sana에 대한 다른 실험 학습도 진행되었습니다. Sana는 생성 속도는 빨랐지만, 매개변수 수가 적기 때문에 이미지에 결함이 생기기 쉽고(특히 손 부분에서) 몸의 혼란스러운 생성이 자주 발생했습니다. 또한 세부적인 디테일을 포착하는 속도가 느리므로, 다음 모델로는 적합하지 않다고 판단했습니다.





