UnCanny (Photorealism Chroma)
세부 정보
파일 다운로드
이 버전에 대해
모델 설명
업데이트 V1.2: 더 나은 배경, 덜 잡음/아티팩트, 더 자연스럽고 캐주얼한 포즈, 더 나은 풍경 등. 기본 버전(bf16)과 fp8 버전 모두 업로드되었습니다(오른쪽 파일들: v1.2 fp8 ----->).
Chroma는 사진처럼 생긴 결과물을 생성할 수 있는 훌륭하고 매우 다재다능한 모델이지만, 정교한 프롬프트가 필요합니다. 이 파인튜닝은 Chroma의 광범위한 개념 지식을 유지하면서도 리얼리스틱/사진 기반 스타일의 신뢰성을 향상시키는 것을 목표로 합니다. 플래시 버전에는 랭크-128 LoRA(여기서)가 내장되어 있습니다. v1.2 GGUF 파일이 이제 HuggingFace에 게시됨.
(v1.2) 프롬프트 작성법: Chroma 프롬프트는 잘 작동합니다. 원하는 것을 자연스러운 문장으로 설명하는 것이 효과적입니다. v1.2에서는 사진 관련 용어가 스타일에 강하게 영향을 미칩니다. 예: 캐주얼, 연출, 아마추어, 전문가, 다큐멘터리/시네마틱/풍경/야생동물 사진 등. 기술적 용어(렌즈, 셔터 스피드 등)는 결과를 향상시킬 수 있지만 필수는 아닙니다. 일부 예시 이미지에는 학습에 사용된 캡션 스타일이 포함되어 있습니다(아마추어 기타, 밤하늘, 근접 얼굴, 호랑이). CFG를 1로 설정하면 네거티브 프롬프트가 작동하지 않습니다. CFG가 1보다 높을 때 네거티브 프롬프트는 작동하며 매우 중요할 수 있습니다(좋거나 나쁨에 따라).
v1.2는 인체형 캐릭터를 생성할 때 약간 더 까다로울 수 있으므로 프롬프트를 조정해야 할 수 있습니다. 향후 버전에서 개선할 아이디어는 있지만, 테스트 및 파인튜닝이 느리기 때문에 시간이 좀 걸릴 수 있습니다.
예시 설정(최적은 아닐 수 있음 - v1.2에 대한 추가 테스트 필요):
워크플로우: ComfyUI의 Chroma 템플릿 워크플로우
스텝(베이스): ~30–35 (다른 설정에 따라 다름; CFG, 샘플러 등)
스텝(플래시 LoRA): 랭크-128에서는 15스텝이 잘 작동합니다. 플래시 LoRA 랭크에 따라 다름.
CFG(베이스): ~3.5 (다른 설정에 따라 다름; 스텝, 샘플러 등)
CFG(플래시 LoRA): 랭크-128에서는 1이 잘 작동합니다. 플래시 LoRA 랭크에 따라 다름.
샘플러:
res_2m및dpmpp_sde가 잘 작동합니다.스케줄러: 저는
bong_tangent을 선호합니다 |beta도 좋습니다.
설정 참고사항: 하나의 설정(샘플러, CFG, 스텝)을 변경하면 다른 설정도 조정해야 좋은 결과를 얻을 수 있습니다. CFG는 속도에 영향을 미칩니다.
지원:
돈이 너무 많으신가요? 추가 학습을 지원하고 싶으신가요?
https://ko-fi.com/dawncreates
학습 세부사항
이 모델은 Chroma-HD를 베이스로 로컬에서 학습되었습니다. 각 에포크에는 3–5개의 다양한 해상도 이미지가 포함되었지만, 각 에포크마다 데이터셋의 일부만 사용되었습니다. 추가 해상도를 제외하고는, 24GB Chroma 파인튜닝을 위한 OneTrainer의 기본 설정을 사용했습니다. 데이터셋은 거의 모두 인물과 풍경의 SFW 이미지로 구성되어 있으며, Chroma-HD의 원래 개념 이해를 유지하기 위해 여러 레이어를 다양한 비율로 병합했습니다. 모든 색감, 구성, 주제, 개념은 Chroma 자체에서 유래하며, 제 모델은 단지 그를 현실성 쪽으로 살짝 유도할 뿐입니다. 솔직히 이 버전은 훌륭한 파인튜닝 자체보다 Chroma의 뛰어난 성능을 보여주는 데 초점이 있습니다. 하지만 Chroma가 파인튜닝에 얼마나 큰 잠재력을 지녔는지를 보여주는 좋은 사례라 생각합니다 — Chroma 파인튜너들을 만들어보세요! 정말 큰 잠재력을 가지고 있습니다!
향후에도 파인튜닝과 실험을 계속할 계획입니다.
모든 이미지는 JoyCaption을 사용해 캡션을 작성했습니다: https://github.com/fpgaminer/joycaption
모델은 OneTrainer를 사용해 학습되었습니다: https://github.com/Nerogar/OneTrainer
v1.2 학습 변경사항: 핵심 데이터셋에서 잡음이 많고 보케가 강한 이미지를 줄였습니다. 다음 JoyCaption 프롬프트를 사용해 이미지 재캡션:
"이 사진에 대해 길고 매우 상세한 설명을 작성하세요. 항상 사진의 유형으로 시작하세요(예: “전문 아날로그 풍경 사진”, “아마추어 스트리트 사진”, “전문 일상 사진”, “다큐멘터리 스타일 사진”, “아마추어 풍경 사진”, “전문 풍경 사진” 등). 항상 이 사진이 캐주얼한 사진인지, 연출되거나 포즈를 취한 사진인지 언급하세요. 이어서 주요 주제와 매체를 설명하세요. 나머지 사진을 설명할 때는 색상, 형태, 질감, 공간 관계와 같은 구체적인 세부사항에 집중하세요. 요소 간의 상호작용을 보여주세요. 사람들의 나이, 신체, 특징을 설명하세요. 심도를 명시하고 배경이 선명한지 흐릿한지 밝히세요. 조명 정보를 포함하세요. 카메라 각도 정보를 포함하세요. 이 사진이라면 반드시 어떤 카메라가 사용되었을 가능성이 높은지, 그리고 조리개, 셔터 스피드, ISO 등 세부 정보를 포함하세요. 이미지가 극도의 클로즈업, 클로즈업, 미디엄 클로즈업, 미디엄 샷, 카우보이 샷, 미디엄 와이드 샷, 와이드 샷, 극도의 와이드 샷 중 어떤 것인지 명시적으로 지정하세요. 시점의 높이(눈높이, 낮은 각도, 벌레 시점, 새 시점, 드론, 옥상 등)를 명시적으로 지정하세요. 없는 것, 해상도, 관찰할 수 없는 세부사항은 절대 언급하지 마세요. 문장 구조를 다양화하고 설명을 간결하게 유지하세요. “이 이미지는…” 또는 유사한 표현으로 시작하지 마세요. 예의 바른 완곡 표현은 사용하지 마세요 — 직설적이고 캐주얼한 어조를 사용하세요."




















