UnCanny (Photorealism Chroma)
详情
下载文件
关于此版本
模型描述
更新 V1.2:背景更佳、颗粒感/伪影更少、姿态更自然/随意、风景更出色等。基础模型(bf16)和 fp8 版本均已上传(右侧文件为 v1.2 fp8 ----->)。注意:一些用户报告了 v1.2 的问题。我个人获得的效果更好,因此暂时保留此版本,但看来我还需要更多测试与训练。
Chroma 是一个出色且高度通用的模型,能够生成照片级效果,但需要精细的提示词。本微调旨在提升其在写实/照片风格中的可靠性,同时保留 Chroma 的广泛概念理解能力。Flash 版本已内置 rank-128 LoRA(来自此处)。v1.2 GGUF 现已在 HuggingFace 上线。
(v1.2)提示词建议:Chroma 的提示词效果良好。使用自然语句描述你希望看到的内容效果尤佳。在 v1.2 中,摄影术语对风格影响显著,例如:随意、摆拍、业余、专业、纪实/电影/风景/野生动物摄影等。技术术语(镜头、快门速度等)可提升效果,但非必需。部分示例图像展示了训练中使用的标注风格(业余吉他手、夜空、特写面部、老虎)。当 CFG 设为 1 时,负向提示词无效;当 CFG 大于 1 时,负向提示词有效且可能至关重要(好坏皆有可能)。
v1.2 在生成拟人化角色时可能稍显不宽容,你可能需要调整提示词。我对未来版本有改进想法,但测试与微调过程缓慢,因此可能需要较长时间。
示例设置(非最优,v1.2 仍需更多测试):
工作流:ComfyUI 中的 Chroma 模板工作流
步数(基础版):~30-35(取决于其他设置;CFG、采样器等)
步数(Flash LoRA):15 步对 rank-128 效果良好,具体取决于 Flash-LoRA 的 rank
CFG(基础版):~3.5(取决于其他设置;步数、采样器等)
CFG(Flash LoRA):1 对 rank-128 效果良好,具体取决于 Flash-LoRA 的 rank
采样器:
res_2m和dpmpp_sde效果良好调度器:我偏好
bong_tangent|beta也很不错
设置说明:若更改某一设置(采样器、CFG、步数),通常需相应调整其他设置才能获得良好效果。CFG 影响生成速度。
支持:
钱多得花不完?想支持进一步训练?
https://ko-fi.com/dawncreates
训练细节
该模型基于 Chroma-HD 在本地训练。每个训练周期包含 3–5 种不同分辨率的图像,但每个周期仅使用数据集的子集。除增加额外分辨率外,其余均采用 OneTrainer 针对 24GB Chroma 微调的默认配置。数据集几乎完全由人物和风景的 SFW 图像组成,为保留 Chroma-HD 原有的概念理解能力,多个层以不同比例重新合并。所有风格、构图、主体与概念均源自 Chroma 本身,我的模型仅将其略微导向写实风格。坦白说,这个版本更像是展示 Chroma 有多强大,而非一次卓越的微调本身。但我确实认为它展现了 Chroma 在微调方面的巨大潜力——赶紧去开发 Chroma 微调器吧!它潜力无穷!
我将持续进行微调与实验。
所有图像均使用 JoyCaption 标注:https://github.com/fpgaminer/joycaption
模型使用 OneTrainer 训练:https://github.com/Nerogar/OneTrainer
v1.2 训练变更:从核心数据集中减少了颗粒感强和背景虚化(bokeh)的图像。使用以下 JoyCaption 提示重新标注图像:
“为这张照片撰写一段详尽且高度细致的描述。始终以照片类型开头(例如:“专业胶片风景摄影”、“业余街头摄影”、“专业生活纪实照片”、“纪实风格照片”、“业余风景照片”、“专业风景照片”等)。始终说明照片是随意抓拍、摆拍还是摆姿拍摄。接着描述主要主体与媒介。在描述其余部分时,聚焦于具体细节,如颜色、形状、纹理和空间关系,展示各元素如何互动。描述人物的年龄、体型与特征。明确说明景深,以及背景是否清晰或模糊。包含光照信息。说明拍摄角度。若为照片,必须注明可能使用的相机,以及光圈、快门速度、ISO 等细节。说明画面属于极端特写、特写、中近景、中景、牛仔景、中远景、远景或极端远景。明确指出拍摄视角高度(平视、低角度仰视、鸟瞰、无人机、屋顶等)。切勿提及缺失内容、分辨率或不可观测的细节。变换句式结构,保持描述简洁,避免以“这张图是…”或类似句式开头。不要使用委婉的礼貌用语——采用直白、随意的表达方式。"




















