4k Resolution Upscale (8x) + ControlNet Tile Resample: In depth with resources
详情
下载文件
模型描述
压缩文件中包含了教程中的所有原始图像以及生成数据。
要求:
请按照各自安装说明进行操作。ControlNet 及各种模型的安装都很简单。
Automatic1111 (您已拥有此工具,但可能需要更新)
https://github.com/AUTOMATIC1111/stable-diffusion-webuiControlNet 1.1+ (官方 A1111 发布即将推出)
https://github.com/Mikubill/sd-webui-controlnetTile 模型版本 v11f1e
https://huggingface.co/lllyasviel/ControlNet-v1-1/blob/main/control_v11f1e_sd15_tile.pth
安装路径:...\stable-diffusion-webui\extensions\sd-webui-controlnet\models\Ultimate SD Upscale
https://github.com/Coyote-A/ultimate-upscale-for-automatic1111
安装路径:可通过 GitHub URL 作为扩展加载,也可将 .py 文件复制到脚本目录 ...\stable-diffusion-webui\scripts\
示例生成
A-Zovya Photoreal [7d3bdbad51] - Stable Diffusion 模型
/model/57319/a-zovya-photoreal
安装路径:...\stable-diffusion-webui\models\Stable-diffusion\EasyNegative [C74B4E810B] - 嵌入项
/model/7808/easynegative
安装路径:...\stable-diffusion-webui\embeddings\Image Sharpener [FE5A4DFC4A] - 嵌入项
/model/43286/image-sharpener
安装路径:...\stable-diffusion-webui\embeddings\4x UltraSharp - 超分辨率模型
https://upscale.wiki/wiki/Model_Database#Universal_Models
安装路径:...\stable-diffusion-webui\models\ESRGAN\--xformers
非必需,启用该选项会使最终输出与您的结果略有差异。
安装方式:编辑 webui-user.bat,将 "set COMMANDLINE_ARGS=--xformers" 加入
注意:仅适用于较新显卡,若缺少依赖项,可从此处自行编译(未亲自测试)。
https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Xformers
工作流程:
1) txt2img
我们将生成一张 512x512 的基础图像。 请注意,从 512 放大到 4096 的效果会优于从 256 放大到 2048。

我们的生成数据:
废弃的卡车位于森林中
负面提示:lr, easynegative,
步骤:32,采样器:DPM++ 2S a Karras,CFG 尺度:7,种子:979998160,尺寸:512x512,模型哈希:7d3bdbad51,模型:aZovyaPhotoreal_v1,Clip 跳过:1
注意:两个负面嵌入项并非获得良好结果的必要条件,仅用于复现我的示例。Image Sharpener (lr) 通常能提供更高品质的生成图像。EasyNegative (easynegative) 通常能改善构图。
按以下截图内容发送至 img2img:

2) img2img
在此阶段,您可以基本保持所有设置不变。为演示目的,我将使用高去噪强度(0.75)来展示 ControlNet 的表现及其在拼贴处理中的表现力。您可以将去噪强度降至 0.2,但低于 0.35 时在 4 到 8 倍放大时会出现明显模糊。请确保选择您喜爱的采样器,我的是 DPM++ 2S a Karras,这可能是最佳(个人看法)且最慢的选项之一。

3) ControlNet
向下滑动至 ControlNet 面板,打开标签页并勾选“启用”复选框。选择 tile_resampler 作为预处理器,control_v11f1e_sd15_tile 作为模型。

4) Ultimate SD Upscale
这确实是较复杂的部分。假设您已正确安装脚本,请滑动到底部的脚本选择区域,选择 "Ultimate SD Upscale"。
设置:
目标尺寸类型: 设置为“从图像尺寸缩放”,选择 8(4K)或 4(2K)
超分辨率器: 选择 4x-UltraSharp,或您偏好的超分辨率模型。
类型: 选择 Linear,若发现接缝,可改用 chess 模式,这可能有所帮助(但耗时更长)。
瓦片宽度/高度: 目前保持 512,但更大的瓦片尺寸会产生整体更优图像。参见 512 瓦片与 1024 瓦片的示例对比。
接缝修复: 无。示例中未使用接缝修复。仅当 chess 重绘模式无效时,才建议尝试接缝修复。从示例中可见,虽有接缝存在,但并不明显。

我们的生成数据:
废弃的卡车位于森林中
负面提示:lr, easynegative,
步骤:32,采样器:DPM++ 2S a Karras,CFG 尺度:7,种子:979998160,尺寸:4096x4096,模型哈希:7d3bdbad51,模型:aZovyaPhotoreal_v1,去噪强度:0.75,Ultimate SD upscale 超分辨率器:4x-UltraSharp,Ultimate SD upscale 瓦片宽度:512,Ultimate SD upscale 瓦片高度:512,Ultimate SD upscale 掩码模糊:8,Ultimate SD upscale 填充:32,ControlNet 已启用:是,ControlNet 预处理器:tile_resample,ControlNet 模型:control_v11f1e_sd15_tile [a371b31b],ControlNet 权重:1,ControlNet 起始步骤:0,ControlNet 结束步骤:1,ControlNet 重置模式:裁剪并缩放,ControlNet 像素完美:否,ControlNet 控制模式:平衡,ControlNet 预处理器参数:"(512, 1, 64)",Clip 跳过:1
生成的 4K 图像 (请查看图库图像获取完整分辨率)

生成的 2K 图像

生成的 1K 图像

原始 512 图像

关于 8K 放大说明
从 512 放大至 4096,使用 512 瓦片,共生成 64 个瓦片。这数量相当庞大。
当瓦片数量这么多时,可能出现“鬼影”(ghosting)现象。在上文的 4K 示例中,您可以在不同瓦片中发现“废弃卡车”的隐藏图案。下图是两个瓦片重叠的部分。

去噪修复:可通过降低去噪强度缓解此问题,但问题依然存在。较低去噪强度虽可减轻问题,但会损失细节(增加模糊)。以下是采用 0.35 去噪强度的结果,可见问题已不那么明显,同时图像稍显平滑。

提示修复:另一种解决方法是使用高去噪强度并清空提示词。在无提示词时,系统不会在每个瓦片中重新绘制场景。但缺点是即使在 0.75 去噪强度下,细节也会显著减少。下图中可见“鬼影卡车”效应已完全消失。

但如前所述,无提示词时细节明显减少。下图可清晰对比差异。
带提示词的 4K 图像

不带提示词的 4K 图像
示例中未使用负面嵌入项,但您可加入 lr 以增强细节。也可使用 sharp、detailed 等词语辅助,但若输入 rusty metal,系统会开始在树木等物体上添加锈迹。因此修改提示词时需谨慎考虑。

更大瓦片修复方案:使用 1024 瓦片尺寸(共 16 个瓦片),配合提示词和高去噪强度,问题将显著减轻。瓦片尺寸越大,整体细节也越佳,但问题仍存在。下图裁切可见,一个卡车已消失,另一个则更清晰。总体上,图像中隐藏的卡车数量可能减少一半,但仍存在。问题是当某瓦片不属于主体(废弃卡车)区域时,系统仍会强行注入一辆卡车。此时可手动涂改,或结合低去噪 + 高瓦片尺寸 + 提示词修改,以获得最佳效果。

设置限制
为生成 4096 分辨率图像,您需要在设置中启用更高的图像尺寸。
设置 > 保存图像/网格
宽度/高度限制 - 4096(或 8192,若您愿意)
最大兆像素 - 400(不确定具体测量方式)
启用“保存为缩小的 JPG”复选框后,仍可将图像保存为 PNG。

故障排除:
请确保下载了正确的瓦片模型。此前曾发布一个与 ControlNet 1.1 兼容但无法正常工作的版本,现已移除。若您在 1.1 版本发布时下载,请更新模型。请务必确认您的模型版本号,这一点至关重要。
如遇问题,请更新您的 GPU 驱动、库文件、A1111 等工具。
重启电脑。
尝试其他模型或其它尺寸。
若在 Ultimate SD Upscale 中启用了“接缝修复”,请注意这将生成两张图像:一张带修复,一张不带。请对比查看两张图像。
尽量参照我的示例进行复现,而非自行创建,以确认是否操作有误。
您的生成数据与 ControlNet 图像相差越远,生成图像越易被模糊化。
最终说明:
我也见过有人先将 512 放大至 2048,再将 2048 放大至 4096。我并不推荐此做法,也不认为这是必要的。这种方法耗时将长达三到四倍,远高于直接从 512 放大到 4096。尽管技术上可能获得更好细节,但并非最优方案。
如果发现图像过度模糊,可在 4K 渲染后进行最后一步细节强化处理,方法如之前一样使用高去噪强度,但将比例下调至 1。
您可能希望保存不同设置、接缝处理等的多个渲染版本,随后在 Photoshop(或其他工具)中进行图层叠加。
压缩文件中包含了教程中的所有原始图像以及生成数据。




















