Illustrious-Lumina-v0.03

세부 정보

파일 다운로드

모델 설명

우리가 진행해온 작업을 확인하고 최신 모델을 탐색해보세요!
https://www.illustrious-xl.ai/

Illustrious-Lumina-v0.03

이 모델은 Alpha-VLLM/Lumina-Image-2.0을 기반으로 하며, 최소한의 기능을 보장하는 작은 DiT 모델입니다. 공식 저장소는 https://github.com/Alpha-VLLM/Lumina-Image-2.0를 참고해 주세요. 논문


'Illustrious-Lumina-v0.03'의 세부 사항에 들어가기 전, 우리 공식 사이트 illustrious-xl.ai에서 Illustrious XL 모델을 사용해 이미지를 직접 생성할 수 있게 되었다고 기쁘게 알립니다.

고해상도 출력, 자연어 프롬프트, 사용자 지정 프리셋을 포함한 완전한 이미지 생성 플랫폼을 출시했으며, 다른 허브에서는 찾을 수 없는 몇 가지 독점 모델도 제공합니다.

업데이트된 모델 계층과 명명법을 확인하세요: Model Series.

초보자 가이드가 필요하신가요? 생성 사용자 가이드를 확인하세요: ILXL Image Generation User Guide.


image/png

1. 모델 개요

  • 아키텍처: 2B 파라미터 DiT
  • 텍스트 인코더: 순수 LLM, Gemma-2-2b
  • 이 포크의 목표: LLM 구성 요소를 재학습하지 않고 이미지 백본이 일러스트레이션 개념을 학습할 수 있는지 테스트합니다.

Illustrious-Lumina-v0.03는 Lumina-2.0 기반의 실험적 학습 단계로, LLM만으로도 일러스트레이션 중심 모델로 작동할 수 있는 작은 DiT 모델을 구축할 수 있는지 검증하기 위한 것입니다. 원본 모델은 일러스트레이션 능력이 뛰어나지 않아 관련 지식이 부족했기 때문에, 이 학습은 해당 부족한 지식을 보완하는 데 집중되었습니다.

26,500스텝 후, 모델 Illustrious-Lumina-v0.03는 데이터셋에 빠르게 적응하는 데 성공했습니다.

다만, 원본 모델은 일러스트레이션에 부적합하며, 우리 목표는 오직 일러스트레이션에만 집중하므로, 특정 수준에 도달하려면 시간이 더 필요합니다.

예시는 블로그 포스트에서 확인하실 수 있습니다.

모델을 테스트하려면 huggingface space를 참고하세요.

로컬에서 모델을 실행하고 싶다면, 공식 설치 가이드를 사용하여 pth 파일을 활용해 주세요. safetensors 파일은 '가중치만 포함'하도록 설계되었으며, ComfyUI 호환 형식은 가능한 빨리 준비하겠습니다.

2. 학습 환경

항목
학습에 사용된 이미지 총량 22M 이미지-텍스트 쌍
스텝 수 26,500
전역 배치 크기 768
해상도 1024, 256
체크포인트 Illustrious_Lumina_2b_22100_ema_unified_fp32.safetensors

모델은 22M개의 이미지-텍스트 쌍을 학습했으며, 학습 가속화를 위해 다중 해상도 학습을 활용했습니다.

3. 추론 데모 코드

로컬에서 모델을 실행하고 싶다면, 공식 설치 가이드를 사용하여 pth 파일을 활용해 주세요.

헤더 이미지에 사용된 설정은 다음 설정으로 재현 가능합니다:

image/png

4. 면책 조항

이 모델은 최종 제품을 반영하지 않으며, 연구 분석용으로만 사용을 목적으로 합니다. 생산 환경에 적합하지 않으며, 사용자는 자가 책임 하에 사용해야 합니다.

이 모델은 개념 증명(PoC) 단계에 있으며, 전체 학습에 필요한 컴퓨팅 자원의 약 3%만 사용하고, 저해상도 결합 학습을 통해 22M개의 샘플만을 학습했으며, A6000 GPU를 사용했습니다.

학습 가속화를 원하신다면, 지원 사이트에서 우리를 지원해 주세요!

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.