UltraFlux VAE (Mirrored from Hugging Face Repo)
详情
下载文件
模型描述
UltraFlux VAE 是一种高性能变分自编码器,专为解决 Flux 生态系统中原生 4K 图像生成所面临的“柔和化”和内存瓶颈问题而设计。标准 Flux 模型通常使用 F8 VAE,导致高分辨率下产生巨大的潜在网格并造成缓慢的处理速度;而 UltraFlux 采用了更高效的 F16(16 倍下采样)架构,显著降低了计算负载并提升了吞吐量。但由于过度压缩常会导致微细节丢失,开发者实施了一种特殊的非对抗性后训练方案:在此阶段,解码器使用一个包含百万张 4K 图像的独特数据集进行微调,目标函数为一种新颖的 SNR 感知 Huber 小波损失,专门优先保障高频细节的保真度。这使得 VAE 能够重建传统压缩方法通常会模糊的锐利纹理——如头发、皮肤毛孔和精细文字。除了技术效率外,UltraFlux VAE 被设计为一种“即插即用”解决方案,适用于 ComfyUI 等高保真工作流,可直接用于即时锐化图像,无需耗时的高分辨率修复步骤或外部放大器。通过将繁重计算转移到更紧凑的 F16 潜在空间,同时依靠微调解码器实现超精细重建,它有效弥合了速度与感知质量之间的鸿沟。这使其成为更广泛的 UltraFlux 项目的核心组件,该项目旨在提供一个统一框架,以在多种长宽比(宽幅、正方形、竖幅)下生成高质量图像,并达到甚至超越专有 4K 模型的清晰度。
UltraFlux VAE 是一种专用的变分自编码器,旨在在 Flux 架构内实现高保真、原生 4K 图像生成。该 VAE 显著提升了你的 Flux 和 Z-Image Turbo 输出质量。我是在 Hugging Face 上浏览资源时偶然发现它的,看到其效果如此出色,便觉得应该让更多人知晓、使用并称赞它,因此我在此处(CivitAI)进行了镜像上传。
标准 Flux 和 Z-Image Turbo 模型通常因内存限制和细节丢失而在 4K 分辨率下表现不佳,而 UltraFlux VAE 通过以下关键创新解决了这些问题:
- 高分辨率优化
- F16 压缩:与标准 Flux VAE(通常使用 F8 下采样)不同,UltraFlux 采用 F16 VAE,将潜在网格尺寸减半(例如从 512×512 降至 256×256),使 4K 生成过程显著更快、更节省内存。
- 4K 后训练:为弥补 F16 压缩带来的信息损失,解码器在 MultiAspect-4K-1M 数据集(包含一百万张 4K 图像)的高细节子集上进行了非对抗性后训练。
- 细节保留
- 小波重建损失:该 VAE 使用“小波损失”目标函数进行微调,专门针对高频信息,确保在解码过程中皮肤纹理、头发和精细环境元素等微细节保持清晰。
- 微观对比增强:用户指出,该 VAE 几乎像一个“非锐化掩模”或高端锐化滤镜,能还原标准 VAE 在高分辨率下可能模糊的柔和细节。
- 实际应用
- 即插即用:常作为 ComfyUI 等工作流中标准 Flux VAE 的独立替代品,可即时“锐化”图像,无需复杂的高分辨率修复步骤。
- 原生 4K 专注:它是更广泛 UltraFlux 项目的一部分,该项目协同设计数据、架构(采用 Resonance 2D RoPE)和 VAE,以在多种长宽比(宽幅、竖幅、正方形)下保持一致的高质量输出。
此为从以下 Hugging Face 仓库重新上传的资源:




