DnD Rogue woman with a horse [Flux] [Concept]
세부 정보
파일 다운로드
이 버전에 대해
모델 설명
이 LoRA는 많은 주제에서 영감을 받아 만들어졌으며, 주로 Diablo IV와 DnD 영화에서 영감을 받았습니다.
영감과 주요 아이디어
Diablo IV를 플레이할 때, 게임 속 캐릭터들, 특히 그들의 스타일을 재현하고 싶었습니다. 이 특정 LoRA는 보호와 자연스러운 테마, 그리고 다크 판타지 주제에서 영감을 받았으며, 주로 던전과 드래곤(Dungeons and Dragons, 발두르의 게이트 2, DnD 영화)과 Diablo의 미학을 중심으로 구성되었습니다. 따라서 저는 Diablo와 DnD라는 두 개의 세계에 모두 어울릴 수 있는 캐릭터의 사진과 같은 현실적인 이미지를 만들어보려 시도했습니다. 그러나 저는 위에 언급된 작품들의 실제 스타일과 분위기를 그대로 재현하려는 목적이 아닙니다. 이는 Diablo나 DnD와 같은 작품에 바친 코스프레나 영화 속 한 장면으로 볼 수 있습니다.
데이터셋 준비
제 데이터셋은 MidJourney 계정에서 업로드한 원본 이미지(14장)를 기반으로 하여 추가 생성에 사용되었습니다. 먼저 모든 이미지에 수평 플립을 적용하여 증강했습니다. 그 후, 색상 증강과 이미지 변형을 생성하기 위해 더 정교한 기법을 사용했습니다.
이를 위해 ControlNet(canny)과 Xlabs 샘플러, Xlabs ControlNet depth v3(XLabs-AI/flux-controlnet-canny)를 사용했습니다. 학습 당시 사용한 체크포인트와 동일한 Atomix FLUX Unet (v.1.0)을 활용하여 색상의 다양성을 확보하고 데이터셋을 확장했습니다.
Florence 2 태거를 사용하여 LoRA 태깅 워크플로우를 적용하고, 이미지를 512x672(WxH)로 리사이징했습니다.
최종 데이터셋은 플립과 색상 증강을 포함하여 14x2x2=56장의 이미지로 구성되었습니다.
학습 워크플로우
이제 학습 워크플로우입니다. 저는 Kohya 스크립트를 기반으로 한 Kijai의 공식 워크플로우(GitHub - kijai/ComfyUI-FluxTrainer)를 사용했습니다. 56장의 이미지를 사용하여 1000스텝으로 LoRA를 학습했습니다. (저는 1000스텝과 400스텝에서 가장 우수한 결과를 얻었으며, 그 외의 스텝은 상대적으로 덜 뚜렷했지만 잠재력이 있었습니다. 제 관찰에 따르면 이 값들은 각각 약 19에폭과 9에폭에 해당합니다. 다른 스텝에서는 성공률이 불안정했기 때문에 향후 다른 스텝도 업로드할 수 있습니다.)
사용한 체크포인트는 학습 시 Atomix FLUX Unet (v.1.0)을 사용했습니다. 학습 파라미터는 fp8 학습 형식을 사용했으며, 오프로딩은 하지 않고, 그래디언트 체크포인팅은 적용했습니다.
LoRA 배포 및 테스트
이제 모델 배포 및 테스트입니다. 학습 시 사용한 동일한 Unet과 Text Encoder로 테스트 중입니다(지속적으로 문제점을 확인 중입니다):
Hugging Face의 Flux-dev 저장소에서 가져온 clip-L: black-forest-labs/FLUX.1-dev at main
T5xxl fp8 인코더: FLUX.1 T5 Text Encoder
지금까지 가장 우수한 결과는 다음 파라미터로 얻었습니다:
LoRA 모델 가중치: 1.0
LoRA CLIP 가중치: 1.0
스텝: 15
CFG: 1.5
샘플러: Euler
스케줄러: simple
LoRA는 초기 학습 이미지에서 얻은 태그를 기반으로 학습되었기 때문에, 트리거 단어 대신 예시 프롬프트의 태그 섹션을 사용하세요:
"전방 카메라 각도에서 촬영한 사진으로, 정글 속에서 말 곁에 당당히 서 있는 젊은 여성의 전통 의상을 입은 모습. 이미지 중앙에는 20세의 검은 피부를 가진 여성으로, 아프로 헤어스타일을 하고 있으며, 진지한 표정으로 시청자와 눈을 마주치고 있다. 그녀는 화려한 금실 자수 장식이 된 긴 플로우잉 드레스를 입고 있고, 어깨에는 빨간 스카프를 두르고 있다. 머리는 정교하게 엮어 올려져 있으며, 귀걸이, 목걸이, 그리고 검을 착용하고 있다. 그녀의 오른쪽에는 검은 머리카락과 흰색 심장 모양 무늬가 있는 갈색 말이 함께 서 있다. 배경은 흐릿하게 처리되어 나무와 초록빛 식물이 보이며, 조명은 부드럽고 자연스럽고, 평온한 분위기를 연출한다.
전신 초상, 서 있는 자세, 사진처럼 사실적인, 아프리카, 판타지, 여성, 화살촉, D&D 캐릭터, 전신 초상, 사진처럼 사실적인, 드레이프된 망토, 활, Greg Rutkowski 스타일, 허리띠, 주머니, 영화적인 초상, 뒤로 엮은 머리, 검은 피부, 디테일한, 곱슬머리, 말, 야생, 숲, 진흙 난로, 착용한 부츠, 스타일리시한 장신구, 부족 의복, 섬세한 의복 질감, 심도 있는 시야, 자연광, 우아한 부족 장신구, 귀걸이, 구슬 목걸이, 브로치 또는 펜던트, D&D, 판타지 슈퍼히어로, 로그"
감사인사
언급된 모델과 ComfyUI 노드의 개발자들에게 프롬프트 및 워크플로우에 대한 영감을 주셔서 감사합니다. 사용된 모든 모델과 워크플로우의 저작권은 각각의 작가에게 귀속됩니다(AlexLai, kijai). 여기 언급되지 않았지만 이 이미지를 제작하는 데 필수적인 다른 훌륭한 노드, 모델 및 도구의 제작자들에게도 감사드립니다.
콘텐츠에 대한 면책 조항
체크포인트는 초기 베타 단계이기 때문에, 특정 체크포인트(예: dedistilled)와 함께 사용 시 모든 연령층에 적합하지 않은 콘텐츠를 생성할 수 있습니다. 이 LoRA는 실제 인물을 묘사하지 않으며, 오직 테스트 목적에 한정됩니다.
학습 데이터의 공정 사용에 대한 면책 조항
학습 데이터(14장의 이미지)는 저의 개인 MidJourney 계정에서 생성되었으며, MidJourney 모델 또는 그 출력물을 복제하거나 흉내내기 위한 것이 아닙니다. 증강, ControlNet, 디스틸링, 필터링 및 병합 등 변형 작업을 통해 최종 출력물이 원본 이미지와 유사해지지 않도록 했습니다. 이 모델은 연구 목적으로 사용하도록 설계되었으며, 상업적이지 않은 라이선스 하에 콘텐츠 생성 및 재생산이 허용됩니다. 모든 저작권은 원본 MidJourney 모델의 제작자에게 귀속됩니다.
라이선스
이 LoRA는 학습 워크플로우에서 사용된 Atomix Flux의 라이선스를 계승합니다:
FLUX.1 [dev] 모델은 Black Forest Labs, Inc.가 FLUX.1 [dev] 비상업 라이선스 하에 라이선스를 부여합니다. 저작권 © Black Forest Labs, Inc.
Black Forest Labs, Inc.는 이 모델의 사용과 관련하여 계약, 불법행위 또는 기타 어떤 형태로든 발생하는 손해, 청구 또는 기타 책임을 절대 부담하지 않습니다.







