FLUX.DEV DEDISTILLED

详情

下载文件

模型描述

5月27日:更新支持Flux的SVD INT4量化 https://github.com/mit-han-lab/ComfyUI-nunchaku

特别感谢 @theunlikely 在量化方面的工作(在H100 GPU上耗时6小时),以及JIB(J1B创作者档案 | Civitai)提供的工作流和使用该模型的说明:

要使用此模型,您需要按照说明安装nunchaku项目,并安装nunchaku的ComfyUI自定义节点才能正常运行。请从Civitai下载并解压归档文件至:\comfyui.git\app\models\diffusion_models\svdq-int4-flux-dev-de-distill — 可用的Nunchaku工作流:/model/617562

这是来自Hugging Face的转载,我完全未参与nyanko7创作这一划时代模型的任何工作。我只是必须尽快发布,因为它实在太棒了!

截至目前我们所知的Flux.dev是一个蒸馏模型,即由flux.pro作为教师模型训练而成。而这些新模型彻底改变了这一切!这是首个实验性的、真正去蒸馏的Flux.dev版本,意味着它更接近flux.pro本身的能力。而这仅仅是开始!

(注:这并非说明它是由flux.pro直接训练的——我不清楚确切方法)

/!\ 请务必阅读以下重要信息(在示例之后),否则您将失败 /!\

我亲自制作的示例
蒸馏CFG 8 对比 真实CFG 8 — 固定种子,仅更改文本,其余完全一致
每张图均为模型首次生成,无挑选,无作弊

耳环LoRa: “可爱的金发派对女孩微笑面向观众,带有情绪妆容和蓬松的情绪发型,绿色闪亮发色。3argauge,双耳耳垂均有大型圆形耳环插件。她穿着黑色连帽衫,上面用金色字母写着“DEDISTILLED MAKES MY LORAS WORK””

面部喷射LoRa(去蒸馏后可在任何地方生效): “COF,年轻女性面部覆盖白色粘稠精液,面部布满白色粘稠精液,面部被白色粘稠精子覆盖。她穿着黑色连帽衫,上面印有银色字体的“DISTILLED”字样”

无LoRa: “荷兰视角:一辆黑色汽车在未来的城市街道上疾驰,远离一场巨大的爆炸,朝向观众逃离爆炸冲击波。汽车周围有运动线条,表现出速度感。车前牌照上写着“DISTILLED”字样。”

无LoRa: “通过一间农舍旧木窗,可以看到一只小猫正在玩毛线球。室内场景温馨,摆放着陈旧的木质家具,午后的柔和阳光透过窗户洒下,投下轻柔的阴影。远处,一位摄影师手持相机正走向此处,准备捕捉小猫嬉戏的瞬间。摄影师穿着棕色夹克,被金色时刻的柔和光晕勾勒,为画面增添温暖与宁静感。整体氛围平和,带着复古场景的怀旧气息。”

重要信息摘要(当前已知内容)

免责声明: 这些模型非常新,目前仅汇总已知信息。请在评论区分享您的使用体验,以便我们共同更新。

参数

  • 现在可以忽略“蒸馏CFG”,直接使用真实CFG(我已尝试至14)。
  • 切勿使用 CFG = 1 —— 此举将导致完全失败,这也是您通常得不到结果的主要原因。
  • 您应至少使用 40–60 步,具体取决于您使用的CFG值。 虽然耗时更长,但绝对值得。
  • 不幸的是,当前的hyperdev 8步LoRa似乎无法用于缩短步数。
  • 去蒸馏模型支持负向提示词

优势

  • 提示词遵循度极佳,即使使用LoRa。
  • 面部LoRa表现更好,细节更丰富,文字生成大幅提升
  • 基本上,所有来自提示的内容都得到显著增强。

/!\ 如果您未看到与蒸馏模型相比的任何改进:请确认您没有无意中使用了真实CFG = 1(非Flux引导)。这很容易被忽略 /!\

由于所有工作流均针对蒸馏模型优化,如在ComfyUI中效果不佳,建议尝试Forge?

在Forge UI中使用指南

  • 在Forge中无需任何修改即可运行,系统会将其加载为Schnell模型,自动禁用蒸馏CFG(很棒)。

编辑:已上传所有新量化版本,您至少能找到一个适合您的版本

如果您是Forge新手,请确保使用类似设置:

  • Flux工作流
  • 检查点选择:DeDistilled
  • 在VAE/文本编码器文件中,提供vae(ae.sft / ae.safetensors)+ clip_l(或修改版clip)+ t5xxl(根据您使用的量化版本,如fp16、fp8等) 因为这些文件并未打包在模型文件中,必须单独提供。
  • 请将“Diffusion Low Bits”设置为“Automatic (FP16 LoRA)”,否则您在使用LoRA时可能会遇到问题。此设置适用于Forge中任何检查点。

我推荐为DeDistilled设置以下参数:

在ComfyUI中使用指南

  • 在ComfyUI中使用标准工作流即可运行,下述工作流使用GGUF加载器、Dual CLIP加载器(用于t5xxl和clip_l提示)以及KSampler Efficient。

Comfy推荐设置:

Dual CLIP加载器引导:3.5
KSampler CFG:2 至 10
步数:50 至 60
负向提示:可留空,也可按需提供(提供后会影响图像)

采样器:DDIM 或 euler
调度器:beta 或 exponential

工作流链接: https://gist.github.com/dasilva333/87bdd5b5b8ebba5515a9919ede0e3c05

在Reddit上也发现一个(可拖拽至ComfyUI):https://files.catbox.moe/y99yl7.png

训练与LoRA

  • 我刚刚使用De-distilled(引导=6)训练了我第一个LoRA,此前使用蒸馏模型(引导=1)时彻底失败。结果令人惊艳,这几乎挽救了我的LoRA!它在De-distilled和蒸馏模型中均表现良好(但De-distilled更佳)。
    从此我将使用它进行训练。

  • 首个使用De-distilled微调的检查点已在Civitai发布:/model/690991/sapianf-nude-men-and-women-for-flux-now-de-distilled
    正等待作者回复以更新此处信息。

来源

此模型生成的图像

未找到图像。