NetaYume Lumina (Neta Lumina/Lumina Image 2.0)
세부 정보
파일 다운로드
모델 설명
I. 서론
NetaYume Lumina는 Neta Lumina을 세세하게 미세 조정한 텍스트-이미지 모델로, Neta.art Lab에서 개발한 고품질 애니메이션 스타일 이미지 생성 모델입니다. 이 모델은 샤anghai AI Laboratory의 Alpha-VLLM 팀이 공개한 오픈소스 기본 모델인 Lumina-Image-2.0을 기반으로 합니다.
주요 특징:
고품질 애니메이션 생성: 날카로운 윤곽선, 화려한 색상, 부드러운 음영을 갖춘 상세한 애니메이션 스타일 이미지를 생성합니다.
개선된 캐릭터 이해: 특히 Danbooru 데이터셋에서 유래한 캐릭터를 더 잘 포착하여 일관성 있고 정확한 캐릭터 표현을 제공합니다.
향상된 미세한 디테일: 액세서리, 의복 텍스처, 헤어스타일, 배경 요소를 더 선명하게 정확히 생성합니다.
II. 정보
버전 1.0용:
- 이 모델은
neta-lumina-beta-0624-raw버전의 NetaLumina 모델을 기반으로, 약 1천만 장의 이미지로 구성된 맞춤형 데이터셋을 사용하여 8개의 NVIDIA B200 GPU에서 3주 동안 학습되었습니다.
버전 2.0용:
이 버전은 두 가지 버전을 포함합니다:
버전 2.0:
기본 모델을 Neta Lumina v1로 변경하고, e621 및 Danbooru에서 추출한 이미지로 구성된 맞춤형 데이터셋을 사용하여 학습했습니다. 데이터셋은 다국어로 주석 처리되어 있습니다: 이미지의 30%는 일본어로, 30%는 중국어(50%는 Danbooru 스타일 태그, 50%는 자연어)로, 나머지 40%는 자연어 영문 설명으로 라벨링되어 있습니다.
주석 작성에는 ChatGPT 및 프롬프트 품질을 향상시키는 다른 모델을 활용했습니다. 또한 고정된 1024 해상도 대신, 코드를 수정하여 768에서 1536 사이에서 이미지를 동적으로 크기 조정하는 멀티스케일 학습을 지원했습니다.
참고: 현재까지 이 모델은 벤치마크 테스트만 수행했으며, 전체 성능은 여전히 불확실합니다. 그러나 초기 테스트 결과에 따르면, 제시한 샘플 이미지에서처럼 1312x2048 해상도로 이미지를 생성할 때 뛰어난 성능을 발휘합니다.
또한, 내 테스트 결과 이 버전은 최대 2048x2048 해상도로 이미지를 생성합니다.
버전 2.0 Plus:
이 모델은 고화질 이미지로 구성된 데이터셋을 기반으로 버전 2.0을 미세 조정한 것입니다. 이 데이터셋은 각 이미지에 자연어 설명과 Danbooru 스타일 태그가 모두 주석으로 달려 있습니다.
학습 절차는 버전 2와 동일한 전체 설계를 따르지만, 세 단계로 나뉩니다.
첫 번째 및 두 번째 단계에서는 상위 10개 레이어를 고정하고, Danbooru 태그가 달린 하위 데이터셋과 자연어가 달린 하위 데이터셋에 각각 별도로 학습을 수행합니다.
마지막 단계에서는 모든 레이어를 해제하고, Danbooru 및 자연어 주석을 모두 포함한 전체 데이터셋을 기반으로 공동 최적화를 수행합니다.
이 버전은 생성된 이미지가 인공적이거나 'AI처럼' 보이는 문제를 줄이고 공간 인식을 향상시켰습니다. 예를 들어, 프롬프트에 따라 캐릭터를 이미지 왼쪽 또는 오른쪽에 정확히 배치할 수 있습니다(예시 참조). 또한 특정 아티스트 스타일을 렌더링하는 데 있어 약간의 향상도 제공합니다.
GGUF 양자화 버전은 다음 링크에서 확인할 수 있습니다: https://huggingface.co/Immac/NetaYume-Lumina-Image-2.0-GGUF
버전 3.0:
이 버전은 새로운 캐릭터 지식을 도입하고 이전에 생성할 수 없었던 일부 기존 캐릭터를 개선했습니다(향상된 캐릭터 목록은 나중에 제공하겠습니다). 그러나 목록의 모든 캐릭터가 생성되는 것은 아님을 유의하세요. 기존 지식을 보존하면서 텍스트 렌더링, 해부학(아티스트 스타일을 사용할 때 모델이 정확하지 않거나 불완전한 해부학을 생성할 수 있음), 모델 안정성, 그리고 일부 추가 비밀 개선점을 강화하기 때문입니다.
이미지 내 텍스트를 생성할 때는 다음 시스템 프롬프트를 사용하는 것을 권장합니다: "당신은 이미지 생성 어시스턴트입니다. 프롬프트에 인용된 이미지 내 텍스트가 포함되어 있다면, 철자, 문장부호, 대소문자를 그대로 보존하여 정확하게 렌더링하세요.
" 이 버전을 사용해 예술적 스타일로 생성된 이미지 갤러리 링크: Artist Style Gallery 감사합니다 @LyloGummy의 기여에!
버전 3.5 (사전 학습 모델):
이 버전은 사전 학습 모델입니다(정확한 명칭은 모르겠지만, 기본적으로 Neta 팀의 이전 작업을 이어받아 Neta Lumina v1.0 모델을 사용합니다). 더 명확히 설명하자면, 버전 2.0 Plus와 3.0은 이 사전 학습 모델에서 미세 조정되었습니다. 저의 워크플로우는 당시 이 사전 학습 모델에서 최상의 체크포인트를 선택하여 미세 조정하는 방식입니다.
이 버전에서는 제 데이터셋을 업데이트했습니다(Danbooru 데이터셋만, 9월 3일 자정까지 최신 버전). 새 데이터셋은 자연어 프롬프트 검증을 도와줄 사람이 없기 때문에 태그만 포함합니다.
기본적으로 데이터셋을 크게 수정하지 않았고, Neta 팀의 일부 데이터를 사용하여 이전 데이터와 병합하여 최신 데이터로 업데이트했습니다. 따라서 모델이 생성하는 이미지는 여전히 매우 유사해 보입니다. 그러나 올바른 트리거 프롬프트를 사용하면 출력이 달라집니다. 좋은 점은 이전 지식을 모두 정확히 유지하고 있다는 점입니다(일부 반스타일은 개선되었습니다).
또한, 현재 모델의 기본 스타일은 안정적이며, 해부학과 텍스트 생성 능력이 이전 버전보다 더 나아졌습니다.
마지막으로, 이 모델은 Hugging Face에 공개한 테스트 버전과 다릅니다.
이 버전의 Diffusers 형식은 다음 링크에서 확인할 수 있습니다: duongve/NetaYume-Lumina-Image-2.0-Diffusers-v35-pretrained · Hugging Face
III. 모델 구성 요소:
텍스트 인코더: 사전 학습된 Gemma-2-2B
VAE: Flux.1 dev의 VAE 사용
이미지 백본: NetaLumina의 백본을 미세 조정한 버전
IV. 파일 정보
이 모든 것을 하나로 통합한 파일에는 VAE, 텍스트 인코더, 이미지 백본의 가중치가 포함되어 있습니다. ComfyUI 및 사용자 지정 파이프라인을 지원하는 다른 시스템과 완전히 호환됩니다.
이미지 백본만 다운로드하고 싶다면, 제 Hugging Face 페이지를 방문하세요. 여기에는 분리된 파일과 미세 조정에 사용할 수 있는
.pth파일도 포함되어 있습니다.
V. 권장 설정
자세한 내용과 더 나은 결과를 얻으려면 Neta Lumina 프롬프트 북을 참조하세요.
VI. 참고 사항 및 피드백
이것은 초기 실험적 미세 조정 릴리스이며, 향후 버전에서 개선을 지속적으로 진행 중입니다.
귀하의 피드백, 제안 및 창의적인 프롬프트 아이디어는 언제든지 환영합니다! 모든 기여는 이 모델을 더욱 향상시키는 데 도움이 됩니다!
VII. 다른 플랫폼에서 모델 실행 방법
tensor.art 플랫폼을 통해 사용할 수 있습니다. 모델 링크: https://tensor.art/models/898410886899707191
그러나 모델을 최적화된 방식으로 실행하려면 tensor.art의 Comfyflow를 사용하는 것이 좋습니다(기본 러너는 설정이 부족하여 모델이 비효율적으로 실행되기 때문입니다). 플랫폼에서 사용할 수 있는 예시 워크플로우는 다음 링크에서 확인할 수 있습니다: https://huggingface.co/duongve/NetaYume-Lumina-Image-2.0/blob/main/Lumina_image_v2_tensorart_workflow.json
VIII. 감사의 글
데이터셋 기여에 대해 narugo1992에게 큰 감사를 드립니다.
훌륭한 기본 모델 아키텍처 제공에 대해 Alpha-VLLM 및 Neta.art Lab에게 감사드립니다.
제 작업을 지원하고 싶으시다면 Ko-fi를 통해 도와주세요!




















