4k Resolution Upscale (8x) + ControlNet Tile Resample: In depth with resources

压缩文件中包含了教程中的所有原始图像以及生成数据。

要求：

请按照各自安装说明进行操作。ControlNet 及各种模型的安装都很简单。

Automatic1111 (您已拥有此工具，但可能需要更新)
https://github.com/AUTOMATIC1111/stable-diffusion-webui
ControlNet 1.1+ (官方 A1111 发布即将推出)
https://github.com/Mikubill/sd-webui-controlnet
Tile 模型版本 v11f1e
https://huggingface.co/lllyasviel/ControlNet-v1-1/blob/main/control_v11f1e_sd15_tile.pth
安装路径：...\stable-diffusion-webui\extensions\sd-webui-controlnet\models\
Ultimate SD Upscale
https://github.com/Coyote-A/ultimate-upscale-for-automatic1111
安装路径：可通过 GitHub URL 作为扩展加载，也可将 .py 文件复制到脚本目录 ...\stable-diffusion-webui\scripts\

示例生成

A-Zovya Photoreal [7d3bdbad51] - Stable Diffusion 模型
/model/57319/a-zovya-photoreal
安装路径：...\stable-diffusion-webui\models\Stable-diffusion\
EasyNegative [C74B4E810B] - 嵌入项
/model/7808/easynegative
安装路径：...\stable-diffusion-webui\embeddings\
Image Sharpener [FE5A4DFC4A] - 嵌入项
/model/43286/image-sharpener
安装路径：...\stable-diffusion-webui\embeddings\
4x UltraSharp - 超分辨率模型
https://upscale.wiki/wiki/Model_Database#Universal_Models
安装路径：...\stable-diffusion-webui\models\ESRGAN\
--xformers
非必需，启用该选项会使最终输出与您的结果略有差异。
安装方式：编辑 webui-user.bat，将 "set COMMANDLINE_ARGS=--xformers" 加入
注意：仅适用于较新显卡，若缺少依赖项，可从此处自行编译（未亲自测试）。
https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Xformers

工作流程：

1) txt2img

我们将生成一张 512x512 的基础图像。 请注意，从 512 放大到 4096 的效果会优于从 256 放大到 2048。

我们的生成数据：

废弃的卡车位于森林中
负面提示：lr, easynegative,
步骤：32，采样器：DPM++ 2S a Karras，CFG 尺度：7，种子：979998160，尺寸：512x512，模型哈希：7d3bdbad51，模型：aZovyaPhotoreal_v1，Clip 跳过：1

注意：两个负面嵌入项并非获得良好结果的必要条件，仅用于复现我的示例。Image Sharpener (lr) 通常能提供更高品质的生成图像。EasyNegative (easynegative) 通常能改善构图。

按以下截图内容发送至 img2img：

2) img2img

在此阶段，您可以基本保持所有设置不变。为演示目的，我将使用高去噪强度（0.75）来展示 ControlNet 的表现及其在拼贴处理中的表现力。您可以将去噪强度降至 0.2，但低于 0.35 时在 4 到 8 倍放大时会出现明显模糊。请确保选择您喜爱的采样器，我的是 DPM++ 2S a Karras，这可能是最佳（个人看法）且最慢的选项之一。

3) ControlNet

向下滑动至 ControlNet 面板，打开标签页并勾选“启用”复选框。选择 tile_resampler 作为预处理器，control_v11f1e_sd15_tile 作为模型。

4) Ultimate SD Upscale

这确实是较复杂的部分。假设您已正确安装脚本，请滑动到底部的脚本选择区域，选择 "Ultimate SD Upscale"。

设置：

目标尺寸类型： 设置为“从图像尺寸缩放”，选择 8（4K）或 4（2K）
超分辨率器： 选择 4x-UltraSharp，或您偏好的超分辨率模型。
类型： 选择 Linear，若发现接缝，可改用 chess 模式，这可能有所帮助（但耗时更长）。
瓦片宽度/高度： 目前保持 512，但更大的瓦片尺寸会产生整体更优图像。参见 512 瓦片与 1024 瓦片的示例对比。
接缝修复： 无。示例中未使用接缝修复。仅当 chess 重绘模式无效时，才建议尝试接缝修复。从示例中可见，虽有接缝存在，但并不明显。

我们的生成数据：

废弃的卡车位于森林中
负面提示：lr, easynegative,
步骤：32，采样器：DPM++ 2S a Karras，CFG 尺度：7，种子：979998160，尺寸：4096x4096，模型哈希：7d3bdbad51，模型：aZovyaPhotoreal_v1，去噪强度：0.75，Ultimate SD upscale 超分辨率器：4x-UltraSharp，Ultimate SD upscale 瓦片宽度：512，Ultimate SD upscale 瓦片高度：512，Ultimate SD upscale 掩码模糊：8，Ultimate SD upscale 填充：32，ControlNet 已启用：是，ControlNet 预处理器：tile_resample，ControlNet 模型：control_v11f1e_sd15_tile [a371b31b]，ControlNet 权重：1，ControlNet 起始步骤：0，ControlNet 结束步骤：1，ControlNet 重置模式：裁剪并缩放，ControlNet 像素完美：否，ControlNet 控制模式：平衡，ControlNet 预处理器参数："(512, 1, 64)"，Clip 跳过：1

生成的 4K 图像 (请查看图库图像获取完整分辨率)

生成的 2K 图像

生成的 1K 图像

原始 512 图像

关于 8K 放大说明

从 512 放大至 4096，使用 512 瓦片，共生成 64 个瓦片。这数量相当庞大。

当瓦片数量这么多时，可能出现“鬼影”（ghosting）现象。在上文的 4K 示例中，您可以在不同瓦片中发现“废弃卡车”的隐藏图案。下图是两个瓦片重叠的部分。

去噪修复：可通过降低去噪强度缓解此问题，但问题依然存在。较低去噪强度虽可减轻问题，但会损失细节（增加模糊）。以下是采用 0.35 去噪强度的结果，可见问题已不那么明显，同时图像稍显平滑。

提示修复：另一种解决方法是使用高去噪强度并清空提示词。在无提示词时，系统不会在每个瓦片中重新绘制场景。但缺点是即使在 0.75 去噪强度下，细节也会显著减少。下图中可见“鬼影卡车”效应已完全消失。

但如前所述，无提示词时细节明显减少。下图可清晰对比差异。

带提示词的 4K 图像

不带提示词的 4K 图像
示例中未使用负面嵌入项，但您可加入 lr 以增强细节。也可使用 sharp、detailed 等词语辅助，但若输入 rusty metal，系统会开始在树木等物体上添加锈迹。因此修改提示词时需谨慎考虑。

更大瓦片修复方案：使用 1024 瓦片尺寸（共 16 个瓦片），配合提示词和高去噪强度，问题将显著减轻。瓦片尺寸越大，整体细节也越佳，但问题仍存在。下图裁切可见，一个卡车已消失，另一个则更清晰。总体上，图像中隐藏的卡车数量可能减少一半，但仍存在。问题是当某瓦片不属于主体（废弃卡车）区域时，系统仍会强行注入一辆卡车。此时可手动涂改，或结合低去噪 + 高瓦片尺寸 + 提示词修改，以获得最佳效果。

设置限制

为生成 4096 分辨率图像，您需要在设置中启用更高的图像尺寸。

设置 > 保存图像/网格

宽度/高度限制 - 4096（或 8192，若您愿意）

最大兆像素 - 400（不确定具体测量方式）

启用“保存为缩小的 JPG”复选框后，仍可将图像保存为 PNG。

故障排除：

请确保下载了正确的瓦片模型。此前曾发布一个与 ControlNet 1.1 兼容但无法正常工作的版本，现已移除。若您在 1.1 版本发布时下载，请更新模型。请务必确认您的模型版本号，这一点至关重要。

如遇问题，请更新您的 GPU 驱动、库文件、A1111 等工具。
重启电脑。
尝试其他模型或其它尺寸。
若在 Ultimate SD Upscale 中启用了“接缝修复”，请注意这将生成两张图像：一张带修复，一张不带。请对比查看两张图像。
尽量参照我的示例进行复现，而非自行创建，以确认是否操作有误。
您的生成数据与 ControlNet 图像相差越远，生成图像越易被模糊化。

最终说明：

我也见过有人先将 512 放大至 2048，再将 2048 放大至 4096。我并不推荐此做法，也不认为这是必要的。这种方法耗时将长达三到四倍，远高于直接从 512 放大到 4096。尽管技术上可能获得更好细节，但并非最优方案。

如果发现图像过度模糊，可在 4K 渲染后进行最后一步细节强化处理，方法如之前一样使用高去噪强度，但将比例下调至 1。

您可能希望保存不同设置、接缝处理等的多个渲染版本，随后在 Photoshop（或其他工具）中进行图层叠加。