Flaming coiling serpent - Diablo IV Inferno spell [Flux] [Concept]
세부 정보
파일 다운로드
이 버전에 대해
모델 설명
이 LoRA는 다가오는 해의 해(년)와 관련된 대회에서 영감을 받았습니다.
(대회에 대한 자세한 내용은 여기에서 확인하세요: “제출 요청: 해의 해 자원!”)
영감과 핵심 아이디어
저는 Diablo 4 게임의 인페르노 주문에서 영감을 얻은 불타는 뱀을 보고, 이 개념을 온라인에서 공개된 이미지들에 기반하여 구현하기로 결정했습니다. 이 주제가 음력 신년의 뱀과 관련되어 있기 때문에, 저는 이를 첫 번째 아이디어로 선택했습니다.
데이터셋
제 데이터셋은 Google 및 Bing 이미지 검색과 같은 공개 소스에서 다운로드한 원본 이미지(6장)를 기반으로 합니다. 먼저, 모든 이미지에 수평 반전을 적용했습니다. 그 후, VAE를 통한 잠재 이미지 인코딩을 활용하고, canny 컨트롤넷을 사용하여 올바른 형태를 유지하면서 이미지의 색상 증강 및 변형을 생성하는 더 고급 기술을 사용했습니다.
데이터셋 증강 세부 정보
이를 위해, ControlNet(Canny)을 사용했으며, Ksampler 및 SD 1.5 Canny ControlNet(v.1.1)을 적용했습니다. 체크포인트는 majicMIX realistic 麦橘写实 (v.7)이며, 이는 소스 이미지의 VAE 인코딩을 잠재 입력으로 사용하여 이미지에 색상 증강을 추가했습니다. 이를 통해 색상의 다양성을 확보하고, 데이터셋을 6장에서 16장으로 확장할 수 있었습니다.
잠재 색상 증강을 생성하기 위한 워크플로우는 Ksampler(효율적)를 사용했으며, 다음 파라미터를 적용했습니다:
- 샘플러: heun
- 스케줄러: Karras
- 스텝: 10
- CFG: 1.0
- ControlNet 강도: 1.2
VAE를 통한 잠재 인코딩으로 스타일을 전달하기 위해 사용한 이미지는 컨트롤넷에 사용한 이미지와 같지 않았습니다(다른 이미지여야 하며, 동일한 이미지를 사용하면 작동하지 않습니다).
Florence 2 태거를 사용한 LoRA 태깅 워크플로우를 적용하고, 이미지를 512×512(WxH) 및 256×256으로 리사이징했습니다. 최종 데이터셋은 반전 및 색상 증강을 포함해 16×2=32장의 이미지로 구성되었습니다.
학습 워크플로우
이제 학습 워크플로우에 대해 설명드리겠습니다. 저는 Kijai의 공식 워크플로우(GitHub - kijai/ComfyUI-FluxTrainer))를 Kohya 스크립트 기반으로 사용했습니다. LoRA를 다음과 같은 설정으로 학습했습니다 — _64_개의 이미지(버킷 포함), 스텝 수 — 1000 (최고의 결과는 200 및 800 스텝에서 얻었으며, 나머지 스텝은 상대적으로 덜 인상적이었습니다. 따라서 제 관찰에 따르면 이 값은 각각 3 및 15 에포크에 해당합니다).
사용한 체크포인트에 대해 말씀드리면, 학습에는 Atomix FLUX Unet (v.1.0)을 사용했습니다. 이는 제가 가지고 있던 유일한 사진실감형 스타일의 Unet 형식 및 FP8 체크포인트였기 때문입니다. 다른 체크포인트는 사진실감형 스타일 학습에 적합하지 않았습니다. 학습 파라미터로는 fp8 학습 형식을 오프로딩 없이 사용했으며, b를 적용했습니다. 자세한 내용은 학습 워크플로우에 기재되어 있습니다.
LoRA를 200, 400, 500, 600, 800, 1000 스텝 구간에서 생성했습니다. _200_과 800 스텝에서 원하는 스타일을 잘 포착한 것으로 보였습니다.
LoRA 배포 및 테스트
이제 모델 배포에 대해 설명드리겠습니다. 저는 학습 시 사용한 동일한 Unet 및 텍스트 인코더를 사용해 테스트를 진행하고 있습니다(문제점 확인을 위해 여전히 테스트 중입니다):
- Hugging Face의 Flux-dev 저장소에서 제공하는 clip-L: black-forest-labs/FLUX.1-dev at main
- T5xxl fp8 인코더: FLUX.1 T5 Text Encoder
지금까지 가장 좋은 결과는 다음과 같은 파라미터에서 얻었습니다:
- LoRA 모델 가중치: 1.0
- LoRA CLIP 가중치: 1.0
- 스텝: 15
- CFG: 1.5
- 샘플러: Euler
- 스케줄러: simple
LoRA는 초기 학습 이미지에서 추출한 태그를 기반으로 학습되었기 때문에, 트리거 단어 대신 예시 프롬프트의 태그 섹션을 사용할 수 있습니다:
"불타는 뱀, 화염, 다크 판타지, Diablo IV, 인페르노 주문, 마법, 빛나는, 마법사, 비늘, 큰 뱀, 중립적인 배경, 어두운 배경, 새의 눈높이에서 촬영한 디지털 일러스트레이션으로, 어두운 바위 지형 중앙에 불타는 뱀 형태의 구조물이 위치해 있다. 이 구조물은 뱀의 피부처럼 질감 있는 표면으로 정교하게 설계되었으며, 주변은 빛나는 주황색 광채로 둘러싸여 있다. 이미지 중앙에는 근육질의 체형과 단단한 표정을 가진 작은 인체형 인물, 즉 전사가 구조물 상단에 위치해 있으며, 뱀이 그를 감싸며 움직임과 에너지를 표현한다. 배경은 어두운 색조와 밝은 색조가 혼합되어 있으며, 녹색 식물과 폐허의 단서가 담겨 있어 장면의 극적이고 강렬한 분위기를 강화한다."
감사 인사
언급된 모델 및 ComfyUI 노드 개발자들에게 프롬프트 및 워크플로우에 대한 영감을 주셔서 감사합니다. 사용된 모든 모델 및 워크플로우의 저작권은 각각의 저자에게 귀속됩니다(AlexLai, Merjic, kijai). 여기에 언급되지 않았지만 이 이미지 생성에 필수적인 다른 훌륭한 노드, 모델 및 도구의 저자들에게도 감사드립니다.
콘텐츠에 대한 면책조항
체크포인트가 초기 베타 단계이므로, 특정 체크포인트(예: dedistilled)와 함께 사용할 경우 모든 연령대에 적합하지 않은 콘텐츠를 생성할 수 있습니다. 이 LoRA는 실제 인물을 묘사하지 않으며, 오직 테스트 목적으로만 사용됩니다.
학습 데이터 공정 사용에 대한 면책조항
학습 데이터(64장의 이미지)는 Google 및 Bing 이미지 검색과 같은 온라인 검색 플랫폼에서 수집한 6장의 공개 이미지에서 생성되었습니다. 결과물은 Diablo IV 비디오 게임의 영상 또는 콘텐츠를 복제하거나 모방하는 것을 목적으로 하지 않으며, Diablo IV 테마에 관한 팬 아트 및 일러스트레이션과 같은 예술적 목적에만 사용됩니다. 결과 이미지는 실제 게임 영상이 아니며, 실제 게임에 대해 어떠한 인상을 주지 않습니다.
색상 증강, 컨트롤넷, 디스틸링, 필터링, 리사이징 등의 변형 작업을 통해, Bing 및 Google과 같은 온라인 이미지 검색 플랫폼에서 다운로드한 원본 이미지와의 유사도를 최소화했습니다. 이 모델은 연구 목적만을 위해 제작되었으며, 비상업적 라이선스 하에 콘텐츠를 생성, 배포, 재생성할 수 있습니다. Diablo IV 비디오 게임의 원본 이미지 및 영상에 대한 모든 저작권은 각각의 이미지 저자 및 Diablo IV 비디오 게임 제작사(Blizzard Inc.)에게 귀속됩니다.
라이선스
이 LoRA는 학습 워크플로우에서 사용된 Atomix Flux의 라이선스를 계승합니다:
FLUX.1 [dev] 모델은 Black Forest Labs, Inc.에 의해 FLUX.1 [dev] 비상업 라이선스에 따라 라이선스가 부여됩니다. 저작권 © Black Forest Labs, Inc.
Black Forest Labs, Inc.는 본 모델 사용과 관련하여 계약, 불법 행위 또는 기타 이유로 발생하는 어떠한 청구, 손해 또는 기타 책임에도 일체의 책임을 지지 않습니다.



