Colossus Project Flux
세부 정보
파일 다운로드
이 버전에 대해
모델 설명
산 아래 깊은 곳에서 잠든 거인이 자고 있으며, 인류를 도울 수도, 파괴를 일으킬 수도 있다...
거인이 일어난다...
SDXL 시리즈 이후, 이 프로젝트의 FLUX 시리즈가 시작된다... 이번에는 이 모델을 아예 처음부터 학습시켰다. 학습에 사용한 이미지는 모두 나 자신이 생성한 것이다. 나는 내 자체 snel Flux 모델 DemonFlux/Colossus Project snel과 SDXL Colossus Project 12를 리파이너로 사용하여 이 이미지들을 만들었다.
이 SD Flux 체크포인트는 거의 모든 것을 생성할 수 있다. Colossus는 극도로 사실적인 이미지, 애니메이션, 예술 작품을 매우 잘 생성한다.
이 모델이 마음에 들면 피드백을 주세요. 또한 제가 지원받고 싶다면 여기서 도와주실 수 있습니다. 저는 FLUX 모델을 실제로 학습시킬 수 있는 컴퓨터를 구축하는 데 상당한 돈을 썼습니다. 또한 학습과 테스트는 엄청난 시간과 전기를 소비합니다..
https://ko-fi.com/afroman4peace
버전 V12 "Hephaistos"
이 체크포인트를 공개하는 것은 제게 기쁨과 슬픔을 동시에 줍니다.. V12는 이 시리즈의 마지막 체크포인트가 될 것입니다. 주된 이유는 다가오는 EU AI 법안입니다. 또 다른 이유는 Flux .1 DEV 자체의 라이선스입니다. 모두에게 감사드립니다! 지난 일년 동안 이 프로젝트에 많은 시간을 쏟아부었습니다. 이제 다른 프로젝트로 넘어갈 시간입니다.
어쨌든, 이 시리즈를 높은 수준으로 마무리하고자 합니다...
V12는 V10B "BOB"을 기반으로 만들었으며, 이 시리즈의 가장 훌륭한 부분들을 모두 블록머지하여 이 하나의 체크포인트에 집약했습니다. (이 머지는 새로운 머지 방법을 사용하여 약 1시간 30분이 걸렸고, 제 전체 128GB RAM을 소모했습니다.) 또한 V10 대비 얼굴과 피부 텍스처를 개선했습니다. 눈은 이전보다 훨씬 더 사실적이고 생동감 있게 느껴집니다.
자신이 직접 테스트해보시고 V12에 대한 피드백을 주세요. "저의 느린 인터넷 연결" 덕분에 먼저 FP8_UNET을 업로드할 것입니다. 그 다음 FP8 "모두 포함" 버전, 그리고 FP16_unet과 FP16_BEHEMOTH를 차례로 업로드할 예정입니다. 또한 int4 및 fp4로 변환해보려고 시도할 것입니다. (이것에 대한 행운을 빌어주세요)
V12에 대해 피드백을 부탁드립니다.
버전 V12 "Behemoth" (AIO)
이 "모두 포함" 모델은 V12 시리즈 중 최고의 버전입니다... 그리고 물론 가장 큰 사이즈죠 :-)
Behemoth는 모델 내부에 커스텀 T5xxl과 Clip_l을 내장했습니다. 품질을 우선시한다면, 이 체크포인트가 바로 당신을 위한 것입니다!
버전 V12 FP4/int4
Nunchakutech의 Muyang Li가 V12를 양자화해 주었습니다. https://huggingface.co/nunchaku-tech 및 놀라운 Nunchaku에 감사드립니다!
이 버전은 정말 놀라운 수준입니다. 이전에 본 적 없는 품질과 속도의 조합입니다.
주의!
FP4와 int4 두 가지 버전이 있습니다. FP4는 Nvidia 50xx 그래픽카드 전용입니다! 반면 int4는 40xx 이하에서 작동합니다. (최소 20xx 시리즈 그래픽카드 필요)
두 버전 모두 여기서 직접 다운로드할 수 있습니다: https://huggingface.co/nunchaku-tech/nunchaku-flux.1-dev-colossus
설치 가이드 및 워크플로우
여기에 빠른 설치 가이드 및 WIP 워크플로우가 있습니다.
https://civitai.com/articles/17313
워크플로우의 자세한 가이드
https://civitai.com/articles/17358
저는 아직 Nunchaku용 새로운 워크플로우를 개발 중이므로, 아래 워크플로우는 여전히 WIP(작업 중)입니다. 주말에 상세한 기사를 추가할 예정입니다.
버전 V12 FP16_B_variant
늦은 밤(새벽 2시) 제가 실수로 "잘못된" 체크포인트를 이름을 바꾸고 업로드해버렸습니다. 이 체크포인트는 발표를 목적으로 하지 않은 매우 실험적인 버전입니다. 충분히 테스트되지 않았지만, 색인 이미지를 만들 때 매우 훌륭한 성능을 보였습니다. 일반 버전보다 더 나을 수도 있습니다.
이 버전은 아시아계 얼굴에 더 친화적입니다. 왜냐하면 제가 여전히 진행 중인 부가 프로젝트에서 일부를 혼합해 테스트해보고 싶었기 때문입니다. 이 체크포인트에 대한 경험을 알려주세요 :-)
버전 V12 AIO FP8
이 버전은 V12의 모든 것을 포함한 "모두 포함" 버전입니다. 즉, 모든 클립이 내장되어 있습니다. 이 버전은 저의 커스텀 clip_l과 함께 FP8_unet과 동일한 결과를 산출합니다.
버전 V12 GGUF Q5_1
이 버전은 요청에 의해 제작되었습니다. 품질이 나쁘지 않습니다.
버전 V10B "BOB"
이 버전은 V10의 대안 버전입니다. V10의 FP8 버전을 개선하기 위해 제작했습니다. 일반적으로 FP8 버전은 더 정밀하고 색상도 더 좋습니다. 하지만 최근 시간이 부족해서(실제 생활이 우선이죠). 그래서 이렇게 오래 걸렸습니다. 이 버전을 선호하는지 알려주세요. 또한 "BOB"의 FP16 버전도 보유하고 있습니다. 피드백에 따라 int4 버전을 공개할지도 고려하겠습니다.
워크플로우:
V12 및 V10용 워크플로우: https://civitai.com/articles/17163
버전 V10_int4_SVDQ "Nunchaku"
먼저, FP16_Unet을 int4_SVDQ로 변환해 준 theunlikely(https://huggingface.co/theunlikely)에게 감사드립니다. 그의 페이지를 방문해서 좋아요를 눌러주세요.
이 버전은 FP8 버전과 거의 동일한 수준입니다. 심지어 제 워크플로우의 일반 모드에서도 이 모델은 일반 모델보다 약 2~3배 빠릅니다. 워크플로우의 "빠른 모드"를 사용하면 3090ti로 2MP 이미지를 약 19초 안에 렌더링할 수 있습니다.
SVDQ "Nunchaku"란 무엇인가요?
이 새로운 양자화 방법은 플럭스 모델(이 경우 원래 FP16 모델)을 24GB에서 약 6.7GB로 축소할 수 있습니다. 그러나 그 이상의 이점도 있습니다: 품질을 크게 잃지 않고 이전보다 훨씬 빠르게 생성을 실행할 수 있습니다. 물론 저의 32GB_Behemoth과 비교하면 약간의 차이가 보일 수 있지만, 이 모델을 실행하려면 더 많은 VRAM/RAM이 필요합니다.
자세한 정보는 다음에서 확인하세요: https://github.com/mit-han-lab/ComfyUI-nunchaku?tab=readme-ov-file
설치: 저는 워크플로우/설치 가이드를 방문해 주세요: https://civitai.com/articles/15610
버전 V10 "Behemoth" (FP16_AIO)
이 버전은 여전히 실험적입니다. 주요 목표는 더 사실적인 결과물을 얻는 것이었습니다. 또한 몇 개의 "Flux Lines"를 줄이는 데 성공했습니다. 이 모델은 Colossus Project V5.0_Behemoth, V9.0, 그리고 제가 "Ouroborus Project"라 부르는 또 다른 프로젝트를 기반으로 합니다.
FP16 버전은 매우 안정적입니다. 곧 FP8 버전도 공개할 예정입니다. 이 버전도 매우 훌륭하지만 안정성은 다소 낮습니다.
하지만 여러분이 직접 실험해보시고, 이 버전에 대한 생각을 알려주세요.
즐겁게 만들어주세요 :-)
버전 9.0:
많은 설명이 필요합니다. 먼저 왜 V9.0인가요?
최근 새 아파트로 이사했고, 인터넷 제공업체의 오류로 인해 실제 인터넷 연결이 없었습니다. 이사 작업을 하는 동안 제 컴퓨터를 계속 실행했습니다. 그 결과 많은(대부분 실패한) 체크포인트를 생성했습니다. 그러나 몇 가지 매우 좋은 V8 버전도 있으니, 나중에 공개할 수도 있습니다.
무엇이 바뀌었나요?
V5.0의 최고 결과물을 기반으로 얼굴과 피부 텍스처를 새로 학습시켰습니다. 또한 발과 다리의 해부학적 정확성을 높이기 위한 학습도 추가했습니다. V5.0 버전에서는 종종 머리와 발이 잘리는 문제가 있었는데, 이 문제들을 어느 정도 해결한 것 같습니다.
추가로, 제가 직접 찍은 풍경 이미지를 더 많이 학습에 사용했습니다. 그리고 맞습니다, 이 모든 작업을 새 아파트로 이사하는 동안 했습니다... 총 학습 시간은 약 2주 정도였고, 이는 결코 싸지 않았습니다...(전기 요금은 한 시간에 약 25센트 정도 소모됩니다)
어쨌든, 이 버전이 마음에 드셨으면 좋겠습니다. 제가 도와주시려면, 멋진 이미지를 올려주시거나, 버즈나 Kofi로 팁을 주세요.
이 버전에 대한 생각을 알려주세요 :-)
버전 5.0:
V5.0은 사실 V4.2와 V4.4(곧 공개 예정)를 기반으로 합니다. 피부 디테일과 해부학 전반에 대한 추가 학습을 통해 손과 젖꼭지 등의 문제를 주로 해결했습니다. 얼굴 디테일이 훨씬 개선되었습니다. 또한 일부 미세한 Flux Lines을 수정하려고 노력했습니다.
전반적으로 이 버전은 V4.2보다 더 사실적이며, 작은 디테일에서도 더 우수합니다. V4.2와 마찬가지로 이 버전도 하이브리드 디스틸된 모델입니다. V4.2와 동일한 설정을 그대로 사용할 수 있습니다.
이제 새 워크플로우도 제공합니다: https://civitai.com/articles/11950/workflow-for-colossus-project-flux-50
V4.2 또는 V2.1과 비교해 이 버전에 대한 생각을 알려주세요.
버전 4.4 "Research":
이 버전은 완전성을 위해 추가했습니다. V4.2보다 약간 더 사실적이며, V5.0의 기반이 되었습니다. 원하신다면 사용해보세요. V5.0 및 V4.2용 워크플로우를 그대로 사용할 수 있습니다.
버전 4.2:
이 버전은 Demoncore Flux 및 Colossus Project Flux의 발전형입니다. 목표는 더 안정적인 결과, 더 나은 피부 텍스처, 더 나은 손 및 다양한 얼굴을 얻는 것이었습니다. 따라서 Demoncore Flux 일부를 혼합한 하이브리드 모델로 학습시켰습니다. 젖꼭지와 NSFW 요소도 약간 강화했습니다. V4.2가 V2.1보다 더 나은지 알려주세요 :-)
쇼케이스 이미지 생성 시, 저는 SDXL 해상도 또는 2MP 해상도(예: 1216x1632)의 원본 이미지만 사용했습니다. 이 모델은 더 높은 해상도도 처리할 수 있으며, 2500x2500까지 테스트해 보았지만, 약 2000x2000 정도를 권장합니다.
설정은 약 30스텝과 2-2.5CFG를 권장합니다. 제 워크플로우에서는 보통 2.2 또는 2.3을 사용합니다. 쇼케이스에서는 DPM++ 2M과 Simple 스케줄러를 사용했습니다.
크리스마스 전까지 더 많은 버전을 추가하려 하지만 시간이 부족합니다.
설정
곧 새로운 전용 Comfy 워크플로우를 추가할 예정입니다. 지금은 쇼케이스 이미지를 다운로드하여 열어보실 수 있습니다.
"AIO 버전"은 Forge에서도 잘 작동합니다.
기본적으로 V2.1과 동일한 설정을 사용하셔도 됩니다(아래 참조).
20-30스텝, CFG 약 2.2 정도로 설정해 보세요.
버전 2.1_de-distilled_experimental (MERGE)
이 버전은 일반적인 Flux 모델과 완전히 다르며, 작동 방식도 다릅니다!
이 버전은 제 버전 2.0과 de-distilled 버전(https://huggingface.co/nyanko7/flux-dev-de-distill)의 실험적 결합 결과입니다. 우연히 발생한 일이었지만 결과는 놀라웠습니다. 엄청난 디테일이 생성되며, 프롬프트에 매우 정확하게 반응합니다. 따라서 다음 단계로는 de-distilled 모델에 직접 학습을 진행할 계획입니다. 이미 몇 가지 테스트 Lora도 사용해 보았습니다. 이 모델은 매우 실험적이므로 아래에 명시되지 않은 오류를 발견하시면 알려주세요. 좋은 이미지가 있다면 업로드해 주세요. 나쁜 이미지도 함께 올려주시면 개선에 큰 도움이 됩니다 :-). 또한 버전 2.0도 시도해 보시고, 어떤 체크포인트가 더 잘 맞는지 알려주세요.
!주의!
일반적인 Flux 워크플로우는 이 버전과 호환되지 않습니다. 반드시 제 워크플로우를 다운로드하셔야 합니다!
자신만의 방법을 찾아도 되지만, 나쁜 결과에 대해서는 제 책임을 묻지 마세요. 또한 이 모델은 매우 실험적입니다... 아래 단점도 확인하세요.
이 체크포인트의 장단점:
이 체크포인트는 극도의 디테일을 생성할 수 있습니다. 하지만 그 대가로 속도가 느립니다. 일반적인 Flux 체크포인트보다 느리지만, 장점은 추가적인 업스케일이 거의 필요 없다는 점입니다. 이 모델은 Flux 가이던스가 아니라 CFG 스케일을 사용합니다. 따라서 표준 워크플로우와 호환되지 않습니다.
네거티브 프롬프트를 사용할 수 있습니다! 원치 않는 요소를 이미지에서 제거하는 데 도움이 됩니다.
때때로 아티팩트가 나타날 수 있습니다. 작은 간단한 업스케일로 해결할 수 있습니다(이 문제를 해결 중입니다). 예시:


설정 및 워크플로우 V2.1:
워크플로우는 여기서 확인하세요: https://civitai.com/articles/8419
설정: 일반 Flux와 달리, Flux 가이던스 스케일이 필요 없습니다. 대신 CFG를 사용하세요. 제 워크플로우에서는 보통 3 CFG를 사용합니다. 일부 이미지는 더 낮은 CFG가 필요할 수 있습니다.
가장 중요한 것은 Flux 가이던스 스케일을 꺼두는 것입니다.
워크플로우 없이 30스텝과 2-3CFG로 테스트해 보았습니다. 이 설정은 Forge에서도 사용할 수 있습니다. 직접 실험해보세요.
네거티브 프롬프트에 "blurry"라는 단어를 사용하는 것을 권장합니다.
샘플러 및 스케줄러:
다음 샘플러 중 선택할 수 있습니다:
Euler, Heun, DPM++2m, deis, DDIM 모두 잘 작동합니다.
저는 보통 "simple" 스케줄러를 사용합니다.
더 나은 설정을 발견하시면 알려주세요. :-)
Forge를 사용할 경우 AIO 모델을 권장합니다. Forge용 설정 예시:

버전 2.0_dev_experimental
이 버전은 실험적입니다. 목표는 더 일관성이 있고 빠른 모델을 만드는 것이었습니다. 몇 가지 자체 학습된 LoRA를 추가로 학습시킨 후, 특별한 방법(Tensor merge)으로 결과 모델을 병합했습니다. "Attention Seeker"를 사용해 수정한 커스텀 T5xxl을 사용했습니다. 속도와 품질 향상을 위해 ByteDance의 Hyper Flux LoRA를 병합했습니다. 이로 인해 작동 영역이 변경되었습니다. 그 의미를 보여드리겠습니다. 다음은 주요 타이틀 이미지입니다.
16단계 V 2.0
30단계 V 1.0
단점:
우선, 이 버전은 이전 버전보다 약간 더 큽니다. 둘째, 여전히 UNet 전용 버전을 만들어야 합니다. 완료되면 업데이트하겠습니다.
설정 및 워크플로우 V2.0:
이제 모델을 더 적은 단계로 실행할 수 있습니다. 16단계는 이전 모델의 30단계와 동일한 효과를냅니다.
여전히 대부분의 경우 더 높은 품질을 얻을 수 있으므로 20~30단계 사용을 권장합니다.
샘플러: 저는 단순 스케줄러와 함께 Euler를 선호합니다. 가이던스는 1.5~3 사이로 설정할 수 있습니다(물론 이 범위 밖에서도 테스트해보세요). 1.8의 가이던스는 사실적인 이미지에 여전히 잘 작동합니다. 다른 샘플러도 테스트해보세요. DPM++2M과 Heun도 훌륭하게 작동합니다.
워크플로우 2.0:
V2.0 및 V1.0용으로 새로운 워크플로우를 만들었습니다. 이 워크플로우에는 새로운 Flux 프롬프트 생성기가 포함되어 있습니다. 또한 두 번째 업스케일러 단계도 작동하도록 구현했습니다. https://civitai.com/articles/7946
Forge:
이 모델을 Forge로도 테스트했으며 매우 잘 작동했습니다. 그러나 Comfy UI와 Forge에서 생성된 이미지가 다를 수 있습니다.
버전 1.0_dev_beta:
이 모델은 이 시리즈의 첫 번째 버전입니다. 피드백을 주시고 이미지를 공유해 주세요. 이는 프로젝트를 더 개선하는 데 도움이 됩니다. 여러 버전이 제공되며, 품질면에서 가장 우수한 버전은 FP16 버전입니다. 그러나 FP16 버전은 파일 크기가 매우 크고 강력한 그래픽 카드와 많은 RAM이 필요합니다. FP8 버전은 품질과 성능 사이의 좋은 균형을 제공한다고 판단합니다. GGUF 버전을 원하시면 Q8_0을 다운로드하세요. GGUF Q4_0/4.1 버전은 요청에 따라 추가되었습니다. 파일 크기는 작지만 품질이 일부 손실됩니다.
기본적으로 두 가지 유형의 모델이 있습니다: 하나의 파일만 다운로드하면 되는 "All in one" 모델입니다. 이 모델에는 Clip_l, T5xxl fp8, VAE가 내장되어 있습니다(아래 참조). 이 파일을 checkpoints 폴더에 넣으세요.
다른 버전은 UNET 전용 버전입니다. 이 경우 모든 파일을 개별적으로 로드해야 합니다.
어떤 경우든 올바른 작동을 위해 제 Clip_L을 다운로드해야 합니다.
또한 적절한 T5xxl 클립을 선택하는 것도 중요합니다. FP8 버전의 경우 fp8_e4m3fn T5xxl 클립을, FP16 버전의 경우 FP16 클립을 사용하세요. 기본 가중치 유형을 선택하세요(아래는 FP8 버전의 예시 이미지입니다).
GGUF 버전을 사용하려면 GGUF 로더가 필요합니다!
V1.0 관련 현재 알려진 사항:
이것은 시리즈의 첫 번째 모델이므로 현재 일부 프롬프트나 스타일(예: 예술 작품)에 어려움을 겪을 수 있습니다. 다음 버전에서는 더 많은 학습이 이루어질 예정입니다. 모델이 무엇을 수행하지 못하는지 알려주세요.
설정 및 워크플로우:
약 30단계, 단순 스케줄러와 함께 Euler로 테스트했습니다. 가이던스는 1.5~3 사이로 설정할 수 있습니다(물론 이 범위 밖에서도 테스트해보세요).
1.8의 가이던스는 사실적인 이미지에 잘 작동합니다.
이 설정들을 자유롭게 실험해보세요. 좋은 결과를 얻으셨다면 공유해주세요.
제공된 색인 이미지를 학습 데이터로 추가했습니다. 여기에는 Comfy용 워크플로우가 포함되어 있습니다. 다운로드 링크: https://civitai.com/articles/7946
"All in one" 모델:

UNET_only:
Clip_L도 다운로드해야 합니다. 240MB 파일입니다.

