UnCanny (Photorealism Chroma)

更新 V1.2：背景更佳、颗粒感/伪影更少、姿态更自然/随意、风景更出色等。基础模型（bf16）和 fp8 版本均已上传（右侧文件为 v1.2 fp8 ----->）。注意：一些用户报告了 v1.2 的问题。我个人获得的效果更好，因此暂时保留此版本，但看来我还需要更多测试与训练。

Chroma 是一个出色且高度通用的模型，能够生成照片级效果，但需要精细的提示词。本微调旨在提升其在写实/照片风格中的可靠性，同时保留 Chroma 的广泛概念理解能力。Flash 版本已内置 rank-128 LoRA（来自此处）。v1.2 GGUF 现已在 HuggingFace 上线。

（v1.2）提示词建议：Chroma 的提示词效果良好。使用自然语句描述你希望看到的内容效果尤佳。在 v1.2 中，摄影术语对风格影响显著，例如：随意、摆拍、业余、专业、纪实/电影/风景/野生动物摄影等。技术术语（镜头、快门速度等）可提升效果，但非必需。部分示例图像展示了训练中使用的标注风格（业余吉他手、夜空、特写面部、老虎）。当 CFG 设为 1 时，负向提示词无效；当 CFG 大于 1 时，负向提示词有效且可能至关重要（好坏皆有可能）。

v1.2 在生成拟人化角色时可能稍显不宽容，你可能需要调整提示词。我对未来版本有改进想法，但测试与微调过程缓慢，因此可能需要较长时间。

示例设置（非最优，v1.2 仍需更多测试）：

工作流：ComfyUI 中的 Chroma 模板工作流
步数（基础版）：~30-35（取决于其他设置；CFG、采样器等）
步数（Flash LoRA）：15 步对 rank-128 效果良好，具体取决于 Flash-LoRA 的 rank
CFG（基础版）：~3.5（取决于其他设置；步数、采样器等）
CFG（Flash LoRA）：1 对 rank-128 效果良好，具体取决于 Flash-LoRA 的 rank
采样器：res_2m 和 dpmpp_sde 效果良好
调度器：我偏好 bong_tangent | beta 也很不错

设置说明：若更改某一设置（采样器、CFG、步数），通常需相应调整其他设置才能获得良好效果。CFG 影响生成速度。

支持：
钱多得花不完？想支持进一步训练？
https://ko-fi.com/dawncreates

训练细节
该模型基于 Chroma-HD 在本地训练。每个训练周期包含 3–5 种不同分辨率的图像，但每个周期仅使用数据集的子集。除增加额外分辨率外，其余均采用 OneTrainer 针对 24GB Chroma 微调的默认配置。数据集几乎完全由人物和风景的 SFW 图像组成，为保留 Chroma-HD 原有的概念理解能力，多个层以不同比例重新合并。所有风格、构图、主体与概念均源自 Chroma 本身，我的模型仅将其略微导向写实风格。坦白说，这个版本更像是展示 Chroma 有多强大，而非一次卓越的微调本身。但我确实认为它展现了 Chroma 在微调方面的巨大潜力——赶紧去开发 Chroma 微调器吧！它潜力无穷！

我将持续进行微调与实验。

所有图像均使用 JoyCaption 标注：https://github.com/fpgaminer/joycaption

模型使用 OneTrainer 训练：https://github.com/Nerogar/OneTrainer

v1.2 训练变更：从核心数据集中减少了颗粒感强和背景虚化（bokeh）的图像。使用以下 JoyCaption 提示重新标注图像：

“为这张照片撰写一段详尽且高度细致的描述。始终以照片类型开头（例如：“专业胶片风景摄影”、“业余街头摄影”、“专业生活纪实照片”、“纪实风格照片”、“业余风景照片”、“专业风景照片”等）。始终说明照片是随意抓拍、摆拍还是摆姿拍摄。接着描述主要主体与媒介。在描述其余部分时，聚焦于具体细节，如颜色、形状、纹理和空间关系，展示各元素如何互动。描述人物的年龄、体型与特征。明确说明景深，以及背景是否清晰或模糊。包含光照信息。说明拍摄角度。若为照片，必须注明可能使用的相机，以及光圈、快门速度、ISO 等细节。说明画面属于极端特写、特写、中近景、中景、牛仔景、中远景、远景或极端远景。明确指出拍摄视角高度（平视、低角度仰视、鸟瞰、无人机、屋顶等）。切勿提及缺失内容、分辨率或不可观测的细节。变换句式结构，保持描述简洁，避免以“这张图是…”或类似句式开头。不要使用委婉的礼貌用语——采用直白、随意的表达方式。"

模型类型	检查点
基础模型	Chroma
发布时间	12/20/2025

UnCanny (Photorealism Chroma)

详情

下载文件

关于此版本

模型描述

此模型生成的图像