Hunyuan YAW 6.7 (Yet another workflow) T2V I2V V2V audio, extend, random-lora, preview pause, upscale, multi-res, interpolate,prompt save/load,teacache,new interface, Fast

详情

模型描述

V6.9 修复了错误,移除了更多不兼容的节点。跟上 ComfyUI 和自定义节点频繁的更新非常困难。希望这个版本对您有用。

V6.7 修复了 I2V 错误,增加了通过组合扩展视频的功能,并为系统中已启用 Triton 加速的用户添加了支持。希望这一版能在一段时间内保持无 Bug。要跟上 ComfyUI、模型和自定义节点的所有变更真的非常艰难。目前仍认为 Wan 在 I2V 方面更优。请确保您已更新至最新版 ComfyUI 和最新自定义节点以运行此工作流。

** 5090/5080/5070 50xx 系列 Nvidia GPU 的修复请见下方故障排除部分。

V6.6 I2V 原生运行,移除了 SkyReels,为随机堆栈添加了辅助 LoRA。支持 GGUF 低显存模式、使用系统内存作为 VRAM,并进行了显著的界面更新。非常适合初学者,对高级用户也十分灵活。ComfyUI 不断更新并破坏功能、更改节点大小等,很难跟上节奏。请更新至最新版 ComfyUI 和最新自定义节点。

V6 新增功能!全面重构。界面大幅更新。包含双随机 LoRA 堆栈与 LoRA 辅助器、触发器/提示词与通配符。大幅提升夜间生成效率!新增提示词保存/加载与历史记录、人脸修复。音频生成得到改进,支持独立音频生成、T2V、I2V 通过 SkyReels、GGUF 支持、可使用系统内存作为 VRAM。

** Wan 2.1 测试版已上线:/model/1306165

更多信息请阅读下方完整说明。

工作流亮点:

  • 音频生成 — 通过 MMaudio:为视频渲染音频,还提供独立插件用于纯音频后处理。

  • 快速预览生成(可选暂停)

    • 在进行完整渲染前几秒内预览视频效果。
  • LoRA 随机器 — 两组各 12 个 LoRA,可随机混合搭配。包含通配符、触发词或提示词。想象随机角色 + 随机动画/风格,再加入通配符,即可打造完美的夜间生成系统。

  • 提示词保存/加载/历史记录

  • 多分辨率支持

    • 通过选择器快速选择 5 种常用分辨率,还可自定义最多 5 种分辨率。
  • 多种放大方法

    • 标准放大
    • 插值(翻倍帧率)
    • V2V 方法
  • 多种 LoRA 选项

    • 传统 LoRA 使用标准权重
    • 双区块(更适合多 LoRA 组合,无需担心权重调整)
  • 支持通配符的提示词功能

  • Teacache 加速(速度提升 1.6–2.1 倍)

  • 所有选项均为开关式,无需手动连接节点

  • 详细的设置说明

  • 人脸修复

  • 文本转视频、视频转视频、图像转视频

  • 已在 3090(24GB VRAM)上全面测试

本工作流旨在为初学者提供易用性,同时为高级用户保留高度灵活性。

这是我首个工作流。我本人希望拥有更多视频创作选项,于是尝试了这个方案。

额外细节:

我是 AI 和 ComfyUI 的新手,这是我第一个工作流。我非常喜欢 “Hunyuan 2步 T2V 与放大” 工作流 — /model/1092466/hunyuan-2step-t2v-and-upscale,本工作流大量借鉴了它的结构,因此应能在相同的配置下运行。

** 故障排除节点或 ComfyUI Manager 请见本文档底部。

快速入门指南:

默认设置已根据 Hunyuan 2步 T2V 与放大工作流进行调优。

工作流程如下:

第 0 步:在“加载模型”部分设置您的模型,并在分辨率选择器中选择分辨率。

第 1 步:生成低分辨率预览,检查 LoRA/动效提示是否正常工作。

第 2 步:暂停并根据预览决定是否继续完整渲染。

第 3 步:使用低质量渲染结果作为输入,引导生成中等质量的渲染,将分辨率翻倍。

第 4 步:使用逐帧放大器再次翻倍分辨率。

第 5 步:将帧率从 24 fps 提升至 48 fps,使运动更流畅。

(可选步骤)启用 MMaudio 生成 — 将根据您的文本提示和视频内容生成配套音频。在文本提示中描述场景中的声音以获得更好效果。此功能会占用更多 VRAM,因此默认关闭。您也可以在结束后使用独立的 MMaudio 插件添加音频。

从这里开始,您可以调整步数、视频长度和分辨率,以找到适合您可用 VRAM 的最佳平衡。

所有开关与选项:

请确保第 1 步仅选择一种方法。

* 这些是默认设置。

您应永远无需重新连接本工作流中的任何节点。工作流内已包含详细说明与注释。

V2V — 视频转视频:

在控制面板中启用:

您可以使用视频作为输入或引导。在控制面板中启用此选项,点击上传源视频。请注意,输出将采用您所选的分辨率。

要调整与输入视频的相似度,请在主控制面板中调整“去噪”值。较低值(0.5–0.75)将更贴近原始视频,较高值将更富创意。

I2V — 图像转视频(原生)

此方法使用原生 Hunyuan 进行 I2V。

在主控制面板中启用,然后在此设置模型:

同时请确保在进行 I2V 前选择选项 #3:

使用“加载图像”功能上传源图。图像将自动缩放以避免破坏插件。输出分辨率将采用分辨率选择器中选定的值。I2V 对分辨率非常敏感,否则会出现闪烁或伪影。

您有两种分辨率选项:若想使用源图像分辨率,请将“使用原图分辨率”滑块设为 1。但此方法仅保持宽高比,不会裁剪。另一种是基础缩放(默认 384),由于视频引擎的限制,尝试以原生分辨率渲染高分辨率图像会迅速耗尽显存。此选项将根据基础缩放值调整渲染尺寸。建议从 384–500 开始,查看您的显存是否能承受,尤其当源图像为高分辨率时。如果源图分辨率较低,可大幅提升滑块值。

I2V 方法 1:单次完成放大/插值/音频

使用此方法的主要方式是:在主工作流中禁用 1a、1b、3,它将使用您的图像作为输入,以选定分辨率渲染视频,然后送入第 4/5 步进行放大和插值。我们仍需社区协助确定最支持的 I2V 分辨率,建议多尝试几种。

视频扩展功能:

  • 选择一个与 I2V 兼容的分辨率(如有人整理出 Hunyuan 的兼容列表,请在评论区分享)。因第一帧使用 I2V。

  • 在控制面板中启用 1d、2、4、5(跳过 3)。

  • 此时务必使用低或中等分辨率的输入源,否则将耗尽显存。*规则同 I2V。

  • 使用 T2V 两阶段的中间渲染结果,或手动设置低至中等分辨率视频 — 您可手动设定。也可选择使用原始视频分辨率。若使用中间源或 T2V 两阶段的中间渲染结果,将完美适用 — 本功能正是为此设计。

  • 选择仅渲染扩展部分,还是完整合并视频。若需完整视频(原始视频+扩展视频),请选择“True”。这也会将完整合并视频传递给下一阶段放大器。因此使用中间级视频至关重要,因为其将再次放大和插值。

  1. 第一阶段 — 按选定步数和分辨率进行单次完整渲染。

  2. 暂停,让您决定是否继续放大,或取消并重试。

  3. 放大 — 使用您的中间渲染结果,将分辨率翻倍。

  4. 插值 — 将帧率翻倍。

选择模型(低显存选项):

尽管我已在 24GB VRAM 环境中测试,但许多用户请求支持更低显存。我未亲自测试,希望以下功能能帮到他们。

将您的标准 BF16/FP8 或 FP8 模型加载至“1. 加载标准扩散模型”。

将您的 GGUF 模型加载至“2. 加载 GGUF 模型(多 GPU/系统内存作为 VRAM)”。

据我所知,GGUF 模型加载稍慢,但可根据所选模型显著节省 VRAM。

使用绿色选择框选择您在工作流中要使用的模型。

为节省显存,在 DualCLIP 加载器中将“device”设为 CPU — 如果未看到选项,请右键点击,选择“显示高级设置”即可出现。

若使用 GGUF 模型,可将“use_other_vram”设为“true”,这将允许您使用系统内存作为 VRAM,以避免部分 OOM 错误。您可在上方设置虚拟 VRAM 数量。请注意,使用系统内存时渲染时间将大幅延长,但至少可保证生产不中断。

** 我还注意到存在一个 24GB 大小的 GGUF 模型 — 有人知道它是否与 BF16 模型质量相当吗?我不想牺牲画质,但很想使用虚拟 VRAM 功能。若有人了解,请在评论区告知。

LoRA 选项:

可使用传统 LoRA 和双区块,双区块为默认。

双区块在组合多个 LoRA 时表现更好,无需频繁调整权重。

主 LoRA 堆栈为标准叠加式 LoRA 树。可添加或组合最多 5 个不同 LoRA,并根据所用 LoRA 设置 all、single_blocks、double_blocks。您可同时运行这些 LoRA 与随机 LoRA。在主 LoRA 区域添加风格,再添加随机角色 LoRA 和随机角色动画。

通过右键点击并选择“绕过”启用/禁用 LoRA。

分辨率选项:

从 5 种常用分辨率中选择,或编辑另外 5 种自定义分辨率。使用“分辨率选择器”切换分辨率。默认选择最快最小的分辨率,以便继续进入工作流的下一阶段 V2V。分辨率越大,渲染时间将显著延长。

预览后暂停(默认开启)

视频生成耗时过长,尝试多个 LoRA 或调整提示词时,若渲染速度慢将非常痛苦。使用此功能可快速预览视频,再决定是否进入耗时的放大流程。默认开启。启动工作流后,将快速渲染预览,随后会发出提示音。请滚动至视频预览旁的中间区域查看下一步操作。

放大您喜欢的预览,或取消后重新尝试!

  1. 继续完整渲染/工作流 — 选择任意图片(哪个都行),点击“继续所选图片”

  2. 取消 — 点击“取消当前运行”,然后重新排队预览

要禁用此功能,请在“选项选择器”下将其关闭。

MMaudio - 为您的视频自动添加音频

默认情况下,它仅向超分辨率视频添加音频。但您可以通过一个开关将其启用为整个渲染流程的所有部分。请确保在提示中加入任何音频细节以获得更好的生成效果。

注意: MMaudio 会占用额外的显存,使用 MMaudio 时您可能需要在视频长度和质量之间进行平衡。v5.2 中提供了一个独立插件,您可以在主工作流中完成视频后,再添加音频。这使您可以根据您的显存最大化质量和视频长度,然后在后期处理中简单地将音频作为额外步骤添加。使用独立模式可为您提供更大的灵活性,以便多次生成,为您的视频找到完美的音频。

超分辨率后的插值

此选项可使您渲染的视频帧率翻倍,默认“已启用”。

您可以在“选项选择器”中禁用它。如果您不需要此功能,它可能会减慢渲染速度。

我需要速度,迫切需要速度

运行太慢了吗?您可以通过牺牲极小的质量,将 Teacache 速度提高至 2.1 倍。默认为“快速”(1.6 倍)。请注意,有两个 Teacache 采样器节点。

T2V - 文本到视频 - 提示与通配符

请在绿色的“输入提示”节点中输入您的提示。*** 请确保您的提示中没有换行符或新行,否则将改变系统处理工作流的方式。

使用通配符是一项功能,可让您自动更改提示或在夜间生成时使用不同变体。要创建通配符,您需要在文件夹 /custom_nodes/ComfyUI-Easy-Use/wildcards 中创建一个 .txt 文件。每行创建一个通配符,按回车键分隔每个通配符。您可以使用单词或短语,只要它们用“回车”分隔即可。请勿使用双空格。以下是两个示例通配符文件:

color.txt

red

blue

green


locations.txt

一个美丽的绿色森林,阳光透过树木洒下,光线漫射形成微弱的丁达尔效应,背景中可听到树叶沙沙作响的声音

一个夜间城市景观,正在下雨,可听到雨水滴落在附近屋顶上的噼啪声

森林中的一片空地,悬崖边缘有一座小巧而美丽的瀑布,旁边有一个小池塘和绿树,远处可听见瀑布声,背景中鸟儿在鸣叫


要在提示中使用这些通配符,您可以点击“选择添加通配符”,然后在提示的适当位置添加它们。

ellapurn3ll 穿着一件 color 夹克,她身处 locations

此自定义节点的完整详情请参见:https://github.com/ltdrdata/ComfyUI-extension-tutorials/blob/Main/ComfyUI-Impact-Pack/tutorial/ImpactWildcard.md

随机 LoRA 和触发词

通过同时使用通配符和随机 LoRA 提升您的夜间生成效果。

选择最多 12 个随机 LoRA 进行组合匹配。请注意,默认情况下仅启用前 5 个。更改相应设置中的“最大值”以设定您所配置的 LoRA 数量。系统始终从上至下计数。因此,如果您只想在 3 个 LoRA 之间随机化,请将“最大值”设为 3,并填充前 3 个 LoRA 的信息。

非常重要:为了让触发词生效,您必须在提示字段中包含以下文本:

(LORA-TRIGGER) 或 (LORA-TRIGGER2)。在使用随机 LoRA 生成时,系统将自动填充其值。此为区分大小写,请注意。

请注意,您可以输入完整提示、单个触发词或触发短语,系统将自动为您填充。

要为此添加通配符,请使用 {} 括号和 | 分隔符。例如:她戴着一顶 {红色|绿色|蓝色} 帽子。或者您可以使用完整提示:{她站在时代广场吻别|她坐在公园里吻别}

仅在“随机 LoRA 堆栈 2”上可用的辅助 LoRA。

辅助 LoRA 现已可用。通常某些 LoRA 与运动或风格 LoRA 结合效果更佳。启用辅助 LoRA 仅在第二个随机堆栈上生效,且仅当该 LoRA 在随机化过程中被选中时才有效。例如,如果 LoRA 1 与运动或风格 LoRA 结合效果更好,请启用 LoRA 1 的辅助选项。当随机化过程中选中 LoRA 1 时,系统将同时应用这两个 LoRA(主 LoRA 和辅助 LoRA)。

这主要是一项高级功能,但某些用户可能会觉得有用。

使用“提示保存器”加载和保存您最爱的提示

运行您的工作流时,系统会自动将最新提示填充至“提示保存器”。您可以将其保存以供日后使用。请注意,要加载并使用提示,请选择您之前保存的提示,然后点击“加载已保存”。但重要的是,您必须将“使用输入”切换为“使用提示”,才能使用已加载的提示。使用完毕后请别忘了切换回“使用输入”以恢复常规提示使用。

默认为“使用输入”:这意味着您的提示将由正常的输入通配符提示字段生成,仅在“提示保存器”中显示提示数据。

一个种子统御一切:

一个单一种子可处理所有 LoRA 随机化、通配符和生成。只需复制并重复使用您喜欢的种子,搭配随机 LoRA 和通配符,无需担忧。

* 小技巧:点击回收按钮即可重复使用上一个种子。您是否想微调或优化刚刚重新生成的视频?在第二阶段遇到 OOM(内存溢出)?使用上一个种子,调整参数后再次尝试!

独立 MM-Audio:

为最大化质量和视频长度,您可能希望在主工作流中禁用 MM-audio,然后在后期处理中再添加音频。此插件专为后期单独添加音频而设计。

启用 MMAudio - 独立模式,并禁用工作流中所有其他部分。

只需上传您要添加音频的视频,所有计算将自动完成。建议使用空白/空提示,但我也提供了提示保存器,供您加载之前保存的提示。

(可选)您可以增强提示,专注于描述声音或与声音相关的场景。

可多次生成,直到获得完美的音效!

独立超分辨率与插值:

只想对现有视频文件进行超分辨率或插值?只需上传它们,禁用工作流中除超分辨率和插值外的所有部分。

上传框需在相应位置启用。

点击“启用”设为“是”以使用此功能。使用常规工作流时请别忘了关闭此功能。默认情况下,这两项功能均应为禁用状态。

使用工作流的提示

快速、V2V 方法、LoRA(默认) - 此为原始工作流

  • 使用快速低分辨率视频进行预览:使用

    • (分辨率 1 - 368x208)用于横向视频

    • (分辨率 3 - 320x416)用于纵向视频

  • 暂停以决定是否进行完整渲染

  • 完整渲染包含音频、超分辨率和插值

直接到超分辨率的 T2V 方法

  • 以中等或高分辨率渲染,然后使用超分辨率和音频功能

  • 使用分辨率 2、4、5 选项以获得更高分辨率(渲染较慢)。我个人在大多数生成中使用分辨率 4

  • 将进行超分辨率并添加音频

设置

从选项菜单中禁用“中间 V2V”

在超分辨率选择器中选择输入 2

在主窗口的 BetaSamplingScheduler 中,将“步骤”增至 25 或更高

提升您的生成质量

增加步骤数:

对于默认的 V2V 方法,在控制面板(设置)中,将步骤从 24 增加到 35 或更高(最高可达 50)。每个步骤都会消耗更多时间和内存,因此请在分辨率和步骤之间找到平衡。

对于主渲染视频预览或绕过中间步骤,将步骤从 12 提高到更高的数值,例如 30/35

为获得最佳质量,请运行 35 步或更高,并将两个 Teacache 节点(主/中间)均设为“原始 1X”,而非“快速 1.6”!

尝试更高分辨率:

将分辨率更改为较大的较高分辨率,例如分辨率 2 或 4,然后排队。通常,我得到的是同一视频,仅分辨率更高。请注意,默认情况下,大分辨率是小分辨率的两倍,这有助于在此方法中保持一致性。请始终使用相同的宽高比,例如:1→2,3→4

在视频长度与质量之间取得完美平衡

以下是我在 3090 24GB 显存上测试过的几种平衡视频长度与质量的设置。

最长视频长度(16:9):

使用分辨率 1,视频长度设为 201 帧,在基本调度器中将 I2V 中间步骤设为“23”或“24”,调度器设为“beta”。禁用 MM-audio,使用超分辨率和插值。

对于更长的视频,建议将主视频渲染步骤设为 15,以获得更好的引导效果。

** 小贴士:201 帧是 Hunyuan 视频的最大尺寸,通常在此长度下能形成完美的循环。

高质量(16:9)(3:4):

使用分辨率 1 或 3,视频长度设为 97 帧,在主视频渲染的 BetaSamplingScheduler 中将步骤设为“15”,在基本调度器中将 I2V 中间步骤设为“35”,调度器设为“beta”。禁用 MM-audio,使用超分辨率和插值。

带音频的平衡设置(16:9,3:4):

使用分辨率 1 或 3,视频长度为 73 或 97 帧,在基本调度器中将 I2V 中间步骤设为“28”,调度器设为“beta”。启用 MM-audio,使用超分辨率和插值。


故障排除:

5090/5080/5070 50xx 系列 NVIDIA 显卡修复

50xx 系列 NVIDIA 显卡仍在开发中。以下是使用捆绑了 Python 3.12.X 的标准 ComfyUI 便携版时的几点建议:

您刚升级到 NVIDIA 50xx 系列显卡,却发现一切都不工作了吗?!

以下是我在 3090 24GB 显存上测试过的几种平衡视频长度与质量的设置。

下载标准 ComfyUI 便携版,或使用您现有的文件夹。

(Triton 3.3 预发布版)

现在你应该可以正常运行了。一些之前能正常工作的节点由于某些原因停止工作了,我不确定原因。我将在不久后更新两个工作流,以修复对 5090、5080、5070 系列显卡的支持。

请注意:我不是这方面的专家,无法帮你排查问题。这只是我在自己的系统上成功运行的方法。

模型加载或缺失问题:

工作流假设你已下载了每种绿色和紫色模型各一个,并已正确设置和分配。对于 T2V、V2V,你应选择 #1 或 #2 GGUF(适用于较低 VRAM)。对于 I2V,应选择 #3。请确保所有这些模型均已正确定义。例如,如果你不使用 GGUF,可以右键单击第 2 个方框,选择“绕过”,这样工作流就不会报错缺少模型。

节点缺失:

MMaudio —— 如果你的音频节点无法加载,请前往 ComfyUI Manager,使用以下地址执行“通过 Git URL 安装”:https://github.com/kijai/ComfyUI-MMAudio,然后重启。

如果出现安全错误,你需要前往:ComfyUI/user/default/ComfyUI-Manager,打开 config.ini 文件,用记事本查看并找到 "security_level = normal",将其改为 "security_level = weak",然后重新尝试安装。安装完成后,可将设置改回 normal。更多关于 MMaudio 的信息请参阅其 GitHub 页面。

UnetLoaderGGUFDisTorchMultiGPU 缺失……请在 ComfyUI Manager 中搜索 "ComfyUI-MultiGPU"。

你还需要在 ComfyUI 中安装 "ComfyUI-GGUF"。请确保这两个插件均通过 ComfyUI Manager 搜索并加载。

如果以上方法无效,你可以尝试在 ComfyUI Manager 中通过 Git URL 安装:https://github.com/pollockjj/ComfyUI-MultiGPU

如果出现安全错误,请前往:ComfyUI/user/default/ComfyUI-Manager,打开 config.ini 文件,用记事本查看并找到 "security_level = normal",将其改为 "security_level = weak",然后通过 ComfyUI Manager 重新尝试安装。

作为最后手段,如果你想完全禁用 MultiGPU(不推荐):进入“加载模型”区域,确保你的绿色选择开关“Diffusion Model”设置为 1,然后直接删除名为“2. Load Model GGUF(multiGPU/System Ram as VRAM)”的节点。一切仍可正常运行,只是你将失去使用 GGUF 及其 VRAM 优化的选项。

删除此节点。

ReActor 或 Face Enhanced 节点缺失:

如果你遇到 Re-Actor 节点的问题,可以轻松移除它。理论上,由于默认已绕过,工作流在没有它的情况下仍可运行。

  1. 进入红色的“恢复人脸”框,点击灰色区域任意位置,搜索“reroute”并添加该节点。

  2. 将“恢复人脸”左侧的输入线拖到新节点的左侧。

  3. 从 reroute 节点的右侧拖出一条新连线,连接到“上采样视频”的图像输入端,然后即可彻底删除“恢复人脸”节点。


就这样了,所有功劳归于这些项目的原始作者。

希望你能享受这个流程!很高兴能成为这样一个开放和共享社区的一员!

欢迎分享你使用此工作流的创作和设置!

此模型生成的图像

未找到图像。