Iris XL
세부 정보
파일 다운로드
모델 설명
IRIS XL
IRIS XL는 신체 해부학, 자세, 스타일리시한 렌더링에서 뛰어난 성능을 발휘하는 모델을 만들기 위해 수 개월간 실험하고 세세히 조정한 결과물입니다. 저는 이를 완벽하게 다듬어 왔으며, 이 모델은 실제 이미지와 합성 이미지의 독특한 조합과 혁신적인 학습 방식을 결합하여 예술적 추론의 경계를 확장합니다.
제작 과정:
21만 장의 아티스트 이미지: 저는 210,000장의 booru 소스 이미지(주로 NSFW)로 모델을 처음 학습시켰습니다. 이를 통해 신체 해부학을 이해하고 기존의 폰이 스타일 아트에 한정되지 않은 아티스트/캐릭터 레퍼토리를 확장했습니다. booru에서 일반적으로 사용되는 태그 품질을 뛰어넘기 위해, 데이터셋의 대규모 부분에 자연어 캡션을 추가했습니다. 이는 모델이 더 정교한 콘텐츠를 해석하고 생성하는 능력을 향상시켰습니다.
5만 장의 폰이 vs 5만 장의 NovelAI: 기초 학습 후, IRIS XL을 5만 장의 폰이 이미지와 5만 장의 NovelAI 이미지로 미세 조정했습니다. 두 데이터셋 모두 동일한 프롬프트를 사용했으며, 목표는 모델에게 “하지 말아야 할 것”(폰이 스타일)과 “해야 할 것”(NovelAI 스타일)을 보여주어 올바르게 예술을 추론하고 생성하도록 가르치는 것이었습니다.
차원별 미세 조정: 두 미세 조정 모두 dim512로 추출하여 모델에 적용했지만, 특별한 변형을 적용했습니다. NovelAI 미세 조정은 가중치 1, 폰이 미세 조정은 가중치 -1로 설정했습니다. 이는 폰이 스타일 추론이 우리가 추구하는 바가 아님을 모델에게 가르치는 데 핵심적이었습니다. 결과적으로, 기존 폰이 모델의 한계를 훨씬 뛰어넘는 뛰어난 해부학과 자세 생성 능력을 갖춘 모델이 완성되었습니다.
왜 더 나은가:
개선된 해부학과 자세: 이 기술은 모델이 인간 해부학을 이해하고 캐릭터를 자연스럽게 포즈 잡는 능력을 크게 향상시켰습니다. 이는 이전 버전에서 항상 어려웠던 부분이었으며(당신이 제 버니 모델을 좋아한다면, 이 모델을 더 좋아할 것입니다).
태그별 학습률 조정: 학습 중, 드문 빈도로 등장하는 태그에 대해 학습률을 높여 모델이 드문 아티스트나 캐릭터에 대한 이해를 안정화하고 유지하도록 했습니다. 이를 통해 모델은 드문 태그를 잊지 않고, 전체적인 성능을 더욱 견고하게 만들었습니다.
여정:
최근 2개월 동안 4090 GPU를 사용해 IRIS XL을 끊임없이 테스트하고 정제하며 공부해왔습니다. 많은 노력을 기울였지만, 결과물에 정말 자랑스럽습니다. 💪
조기 접근:
이 프로젝트는 규모가 컸고, 많은 테스트가 수반되었기 때문에 2주간 조기 접근을 개방합니다. 버즈가 없더라도 이 모델을 시도해보고 싶다면, 저에게 DM을 보내주세요. 기꺼이 테스트 기회를 드리겠습니다. 😊
다음은?
이것은 주로 테스트용입니다. 저는 데이터셋을 10배로 확장하여 이 방식을 재현하고 싶지만, H100 클러스터가 따로 있지 않아 천천히 but 꾸준히 확장할 예정입니다 :)




















