BoltMonkey-PhotoReal

详情

下载文件

模型描述

BoltMonkey-PhotoReal

HuggingFace 链接

这是我为一个业余时间进行的商业项目开发的超高精度写实 SD1.5 模型。我坚信人工智能的开源本质,因此正逐步发布一些我不会用于当前项目的作品。我已持续开发此模型约一年。

我将此模型标记为“合并”,但实际上它已历经 30 多次迭代,期间包含大量区块合并与多次微调。

  • 该模型非常写实,尤其在 SD1.5 系列中表现突出。

  • 手部通常有五根手指且形态正常,但过于复杂或不佳的提示词可能导致手指残缺或变形。

  • 大多数纹理渲染良好,但我发现极度尘土飞扬的环境(如矿洞)显得过于泛泛,不够自然。

  • 光影是该模型的强项,特别是体积光(如穿过雾气或尘埃的光束)表现得非常出色。

  • 我的大部分展示作品使用动物,但该模型在生成人物、建筑、自然环境、食物等方面同样擅长。不过,我发现我在交通工具方面的训练还不够充分。

使用建议

我从 CivitAI 用户群体中学到很多提示词技巧,以下是我发现效果良好的一些方法:

_TL;DR:

DDIM,15-40 步,CFG 约 2-10,Clipskip 1-4(视使用情况而定),LoRA 效果良好。_

该模型在方形和矩形长宽比下表现良好。分辨率为 768x 及以上效果最佳,但有时在 1024x 附近可能出现重复。不过,512x 及以上仍能生成优质图像。

即使使用极简提示,该模型的输出也已非常写实,而结构良好的提示词则能带来卓越效果。此外,只要注意 LoRA 的训练分辨率(768x 及以上最佳),该模型与 LoRA 配合极佳。我未使用过动漫风格 LoRA,因此无法提供相关建议,但如果你尝试并获得结果,我会很感兴趣。

即使是极其简单的提示(如“猫”)也能生成高质量的写实图像,而模型对优质引导提示和复杂提示响应极佳。

以下是我常用的提示词模板:
“超真实摄影,32k UHD,absurdres,自然光线与阴影,体积光,真实皮肤纹理,细节精准,景深,锐利对焦”

我通常使用 DPM++_3m_SDE_GPU 采样器配合 SGM_uniform 噪声调度,但就我个人偏好而言,该模型配合 DDIM 采样器与 DDIM_uniform 噪声调度效果最佳。

15 步通常足以生成优质图像,但我一般使用 25-40 步。为测试极限,我曾用 ComfyUI 的 999 步进行过几次生成,结果固然出色,但我认为超过 50 步并无实际必要。

CFG 值较难统一推荐。CFG 为 2-4 时效果良好,但根据生成内容,有时我会调至 10。建议从 4 开始,自行调整。显然,较低的 CFG 值赋予模型更大自由度。

该模型即使不使用 Clipskip 也能良好运行,但若需将多个差异较大的概念融合到一张图中,适当跳过 2-3 层可能有助于概念间的自然过渡。

可能对本模型有贡献的模型

Juggernaut
LeoSam FilmGirl Ultra
Realia Photorealistic
MNK Realism
Analog Madness
Photon
EpicPhotogasm

如前所述,我已逐步开发此模型约一年。鉴于大量逐区块混合与中间微调,目前任何参与合并的模型贡献均已非常稀释。

此模型生成的图像

未找到图像。