Simplified t2i Workflow for Flux2D

工作流应运行在 DisTorch2MultiGPUv2 节点上，以控制 VRAM（内存）分配，防止 VRAM 溢出和随之而来的交换。不幸的是，由于最新的 ComfyUI 更新，这些节点目前存在故障。作为替代方案，使用较旧的 MultiGPUv1 节点（与 DisTorch2 相比，推理速度最高降低 10–15%）。

GitHub：pollockjj/ComfyUI-MultiGPU

如果您的系统已成功配置 SageAttention，则使用 fp8.safetensors 的工作流应能顺利运行，具体取决于可用的 VRAM（内存）。

使用 GGUF 格式时：

SageAttention 提供的加速效果远低于 FP8 模型，

有时甚至完全无效，因为 GGUF 格式主要为 CPU 优化推理设计，

并未充分利用 SageAttention 的 GPU 内核。

-> 禁用 --use-sage-attention

-> 使用 --fast（标准 PyTorch 优化）

-> 依赖 GGUF 节点（后端）的内部优化

对于 RTX30xx、RTX40xx（及 RTX50xx） 系统且 VRAM 小于 24 GB 的情况，请参阅我 Hugging Face 模型页面上的表格 “快速参考：FLUX.2 + Mistral-3-Small GGUF”。

GegenDenTag/comfyUI-Flux2D-t2i-workflow · Hugging Face

您还可在那里找到有关内存管理、run_nvidia_gpu.bat、SageAttention 安装指南 以及一些 CMD 控制台输出的说明（性能如下所示）。

性能

测试环境：RTX3090 24GB VRAM + 32GB RAM：

Flux2 fp8mixed.safetensors Nvidia（35.5GB），Mistral 文本编码器 fp8.safetensors（18GB）
Flux2 Q8_0（35GB），Mistral 文本编码器 Q8_K（29GB）
flux2-vae.safetensors（336MB）
指导强度：4 | 步数：20（生产环境：指导强度：2-2.5，步数：30-40）
基于：约 80 次不同分辨率的运行

首次运行：将所需层首次加载至 VRAM/内存，执行第一次推理；后续推理速度显著提升，因为内存管理已初始化。具体时间、部分加载等信息请参阅控制台输出/截图。

FP8 格式

首次运行

832×1216px：~380-400 秒

后续运行：

832×1216px：75-80 秒（~3.70-3.90 秒/步）
1080×1920px：135-150 秒（~6.75-7.50 秒/步）
1440×2160px：225-240 秒（~11.00-11.50 秒/步）

GGUF 格式（预期运行时间更长）

首次运行

832×1216px：~420-440 秒

后续运行：

832×1216px：105-120 秒（~5.30-5.50 秒/步）
1440×2160px：250-260 秒（~12.00-12.75 秒/步）

附注：示例图像中未嵌入任何元数据。我正在使用自动化流程 n8n-upscayl_1440px_ultrasharp-4x 运行该工作流，但尚未成功阻止上采样器覆盖元数据。

模型类型	工作流
基础模型	Flux.2 D
发布时间	12/5/2025

Simplified t2i Workflow for Flux2D

详情

下载文件

模型描述

性能

FP8 格式

GGUF 格式（预期运行时间更长）

此模型生成的图像