WAN Video YAW Workflow 1.6 V2V T2V I2V, upscale, extend, audio, interpolate, random-lora, preview pause, upscale, multi-res, interpolate,prompt save/load
详情
下载文件
关于此版本
模型描述
Beta 1.6 - 新实验性质量/选项。跳过引导(质量)、CFGZeroSTar(提示一致性)、Enhance-A-Video(质量)。Re-Actor(面部修复)已重新添加。如有问题,请保持禁用,工作流仍可运行;禁用方法见页面底部。

** Torch Compile 可能破坏 LoRA,已在最新版 Torch 和 Blackwell NVIDIA 显卡上发现此问题。
Beta 1.5 - 更快、更多 QOL 和错误修复、额外测试的分辨率、兼容 NVIDIA Blackwell 50XX 的节点。
** 5090/5080/5070 50xx 系列 NVIDIA GPU 的修复详见故障排除部分。
这是一个基于我的 Hunyuan YAW(Yet another workflow)的 WAN 视频工作流。虽为初步版本,但已能正常运行。随着 WAN 开发继续推进,我希望逐步实现与 Hunyuan 等效功能的对齐。Beta 1.2 新增了 V2V、GGUF 多 GPU 使用系统内存作为显存。更多测试分辨率、Teacache 加速功能。
快速观察:
我注意到增加步数可提升质量;对于 I2V,使用非标准分辨率时会出现奇怪的颜色和闪烁问题。请参见分辨率选择器中部分测试过的 I2V 分辨率。我仅通过更改分辨率就修复了颜色闪烁问题。仍在努力实现与原始工作流的功能对齐。
如果遇到模型错误且未下载所有模型,请前往“模型加载器”,右键点击并“绕过”未下载的模型。例如,若不使用 GGUF 模型,请右键绕过绿色和浅灰色的两个 #2 模型。
* 工作流的 Hunyuan 版本功能更完整:/model/1134115/
更多信息请阅读下方完整说明。
工作流亮点:
音频生成 - 通过 MMaudio:为视频渲染音频,提供独立插件用于纯音频后处理。
放大前暂停(可选)
- 在进行完整渲染前预览视频。
LoRA 随机器 - 两组共 12 个 LoRA,可随机混合搭配。包含通配符、触发词或提示。想象随机角色 + 随机动作/风格,再加入通配符,即可构建完美的夜间自动生成系统。
提示保存/加载/历史记录
多种分辨率
- 通过选择器快速选择 6 种常用分辨率,还可使用最多 6 种自定义分辨率。
多种放大方法:
标准放大
插值(帧率翻倍)
多种 LoRA 选项:
- 双区块(更适合多个 LoRA 组合,无需担心权重调整)
支持通配符的提示功能
所有选项均为开关,无需手动连接节点
详细设置说明
面部修复
文本转视频、图像转视频
已在 3090(24GB 显存)上测试
本工作流注重为初学者提供易用性,同时为高级用户保留灵活性。
这是我第一个工作流。我本人希望拥有视频创作的选项,因此尝试了这一简易方案。
额外细节:
** 故障排除节点或 ComfyUI 管理器见本文档底部。
快速入门指南:
默认设置已调优为可运行的工作流。
有两种方式使用本工作流进行 T2V(主要功能):
#1 - 简单单阶段渲染至放大/插值:
启用工作流中的 1abc、2、4、5。(跳过 3)
在分辨率选择器中选择一种测试过的浅蓝色分辨率(这些是官方支持的 WAN 分辨率,480p/720p,尺寸更大,因此第一阶段耗时更长)。
将第一阶段步数设为 25 或更高,将执行单次渲染。
#2 - 两阶段渲染(推荐):
启用工作流中的 1abc、2、3、4、5。
在分辨率选择器中选择一种紫色(LQ)分辨率。
将第一阶段步数设为 14。
将第二阶段步数设为 25。
此流程会先生成快速预览渲染,以确认您的概念和 LoRA 是否正常工作(在 3090 上约 1 分钟)。应使用低分辨率(如 272x368),以加快处理速度。预览完成后,工作流会暂停,让您决定是否继续完整渲染。完整渲染将自动将输出分辨率翻倍(第二阶段),然后进入放大器再次翻倍分辨率,最后通过插值器将帧率翻倍。这正是 Hunyuan 版本工作流的核心理念:快速原型制作,渲染最佳概念。即使从 272x368 的低分辨率开始,第二阶段会提升至 544x736,放大后达到 1088x1472。
工作流功能细节:
第 0 步:在“加载模型”部分设置您的模型并选择分辨率。(遗憾的是,我尚未有时间确定 WAN 的优质支持分辨率。我知道 512x512、640x480、1280x720 均可工作,具体取决于您的显存和是否需要横屏或竖屏。16:9 通常更通用,3:4 可能质量更高但视频长度受限,具体取决于您的 GPU 显存。从默认步数和视频长度开始。)
第 1 步:使用 1a/1b/1c 进行 T2V 或 I2V
第 2 步:暂停并根据预览决定是否继续进入放大器
第 3 步:使用逐帧放大器再次将分辨率翻倍
第 4 步:将帧率从 16fps 提升至 32fps,实现更平滑的运动
(可选步骤)启用 MMaudio 生成:它将根据您的文本提示和视频内容生成配套音频。在文本提示中描述场景中的声音以获得更好的生成效果。此功能消耗更多显存,因此默认禁用。您始终可通过独立的 MMaudio 插件在最后添加音频。
从此处开始,您可以调整步数、视频长度和分辨率,以找到与您可用显存相匹配的最佳平衡。
I2V 推荐方法:单阶段
选择浅蓝色(I2V)分辨率。分辨率至关重要,否则将出现伪影和色块。
在控制面板中启用 1b、2、4、5(跳过 3)
在工作流的 I2V 部分将步数设为 25 或更高。
可选择使用输入视频的缩放分辨率(此选项常失效,但仍保留)。
1)第一阶段:按您选择的步数和分辨率执行单次完整渲染
2)暂停并让您决定是否继续放大,或取消重试
3)放大:将中间渲染结果再次翻倍分辨率
4)插值:将帧率翻倍
视频扩展:
选择浅蓝色(I2V)分辨率
在控制面板中启用 1d、2、4、5(跳过 3)
此时使用低或中等分辨率输入源至关重要,否则将耗尽内存。
使用 T2V 两阶段的中间渲染结果,或手动设置低至中等分辨率视频(可手动设定);也可选择使用原始视频分辨率。若使用中间源或 T2V 两阶段的中间渲染,将完美运行——专为此设计。
选择仅渲染扩展部分,还是完整合并视频:若需完整合并视频,请选择“True”。这会将整个合并视频传递至下一阶段放大器。因此,使用中间级别视频至关重要,因为系统将再次进行放大和插值。
1)第一阶段:按您选择的步数和分辨率执行单次完整渲染
2)暂停并让您决定是否继续放大,或取消重试
3)放大:将中间渲染结果再次翻倍分辨率
4)插值:将帧率翻倍
所有开关和选项:
请确保在第 1 步中只选择一种方法。
* 这些是默认设置。
您无需在此工作流中重新连接任何节点。工作流内含详细说明与注释。
V2V - 视频转视频:
在控制面板中启用:

您可将视频作为输入或引导。在控制面板启用此选项并点击上传源视频。请注意,输出将使用您所选的分辨率。
为调整与输入视频的相似度,请在主控制面板中调节“去噪”参数。数值较低(0.5 - 0.75)将更贴近输入视频,数值较高则更具创意。
I2V - 图像转视频

使用“加载图像”导入源图像。图像将自动缩放以避免破坏插件。输出分辨率将使用分辨率选择器中选定的分辨率。
您有两种分辨率选项:若想使用源分辨率,只需将“使用原始图像分辨率”滑块设为 1。但此选项仅保持宽高比,不进行裁剪。另一种是基础缩放(默认 384),由于视频引擎限制,尝试以原生分辨率渲染高分辨率图像将迅速耗尽内存。此选项将根据基础缩放值调整渲染尺寸。建议从 384-500 开始,测试您的显存能否处理,尤其当源图像分辨率很高时。若源图分辨率较低,可大幅上调滑块。

I2V 方法 1:单次渲染至放大/插值/音频
使用此方法的主要方式是:在主工作流中禁用 1a、1b、3,系统将直接使用您的图像作为输入。设置高步数后,将其送入放大器或插值器。
** 请记住,I2V 对分辨率非常敏感,请尽量使用分辨率选择器中标注“I2V”的浅蓝色分辨率。若出现闪烁、伪影或颜色异常,说明您正在使用不支持的分辨率。
I2V 方法 2:双阶段渲染至放大/插值/音频(未充分测试)
选择低质量紫色分辨率。设置第一阶段步数 = 14,第二阶段步数 = 25。系统将使用您的图像作为预览渲染,确保效果符合预期,然后在双倍分辨率下生成完整版本。此方法在 T2V 中效果良好,I2V 仍在测试中。
选择模型(低显存选项):
请按如下方式设置您的模型:
默认情况下,每个模型使用模型 1:标准扩散模型。如需使用 GGUF,请选择模型 2。如不使用标准模型或 GGUF,可右键并绕过这些框。
若使用 GGUF 模型,请将 "virtual_vram_gb" 设置为一个数值,例如 "4.0",这将允许使用该数量的系统内存作为虚拟显存,以尽量避免 OOM 错误。您可在此处设置所用虚拟显存的量。请注意,一旦使用系统内存,渲染时间将显著变慢,但至少您的生产流程不会中断。

模型获取地址:
https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/split_files
LoRA 选项:
可使用传统 LoRA 和双区块,双区块为默认设置。
双区块在使用多个 LoRA 时表现更佳,无需频繁调整权重。
主 LoRA 栈为标准加法 LoRA 树。可添加或组合最多 5 个不同 LoRA,根据您使用的 LoRA 设置 all、single_blocks、double_blocks。您可同时运行这些 LoRA 与随机 LoRA。在主 LoRA 部分添加风格,再添加随机角色 LoRA 和随机角色动画。
通过右键点击并选择“绕过”来启用/禁用你的LoRA。
分辨率选项:
从5种常用分辨率中选择,或编辑另外5种自定义分辨率以满足你的需求。使用“分辨率选择器”更改分辨率。默认情况下,选中的是速度最快、尺寸最小的分辨率,旨在进入工作流的下一个V2V阶段。随着你选择更大的分辨率,渲染时间将显著延长。
预览后暂停 ——(默认开启)
视频生成耗时过长,当渲染速度缓慢时,尝试多种LoRA或调整提示词会非常耗时。使用此功能可快速预览视频,然后再进行耗时的上采样过程。默认情况下此功能已启用。启动工作流后,系统将快速渲染预览版,随后你会听到提示音。请确保滚动到视频预览旁边的中间部分,查看下一步操作。
选择你喜欢的预览进行上采样,或取消并重新尝试!
继续完整渲染/工作流 —— 选择任意一张图像(选哪张都行),然后点击“进度选中图像”
取消 —— 点击“取消当前运行”,然后重新排队生成另一组预览。
要禁用此功能,请在“选项选择器”中关闭它。

MMaudio —— 自动为视频添加音频
默认情况下,仅对已上采样的视频添加音频。但可通过开关启用在渲染全过程添加音频。为获得更好效果,请在提示词中加入具体的音频描述。
** 注意:MMaudio 会消耗额外的VRAM,使用时需在视频长度和质量间取得平衡。在 v5.2 版本中提供了独立插件,你可在主工作流完成后,再单独添加音频。这能让你根据VRAM最大化视频质量和长度,然后在后期处理中作为额外步骤加入音频。使用独立插件可更灵活地多次生成,直到获得最理想的音频效果。

上采样后插值
此选项可将你渲染视频的帧率翻倍,默认“已启用”。
你可以在“选项选择器”中禁用它。如果你不需要该功能,启用它可能会减慢渲染速度。
我需要速度,迫切需要速度!
运行太慢?你可以启用TeaCache以提升速度。该功能仍处于实验阶段。在“加载模型”下切换开启或关闭。

T2V - 文本转视频 - 提示词与通配符
请在绿色的“输入提示词”节点中输入你的提示词。*** 请确保你的提示词中不包含任何换行符或回车,否则会影响系统处理工作流的方式。
使用通配符功能可自动更改你的提示词,或实现夜间批量生成不同变体。要创建通配符,请在文件夹 /custom_nodes/ComfyUI-Easy-Use/wildcards 中创建一个 .txt 文件。每行写一个通配符,按回车键分隔每个通配符。你可以使用单词或短语,只要它们之间用“回车”分隔即可,不要使用双空格。以下是两个示例通配符文件:
color.txt
red
blue
green
locations.txt
一片美丽的绿色森林,阳光穿过树冠,光线散射,形成细微的光柱,背景中可听见树叶沙沙作响
一座夜景都市,正在下雨,可听见雨水滴落在附近屋顶的噼啪声
森林中的一片空地,悬崖边缘有一座美丽的小瀑布,旁边是一个小池塘和绿树,远处可听见瀑布声,背景中鸟儿在鸣叫
在提示词中使用这些通配符时,点击“选择添加通配符”,然后在提示词的适当位置插入它们。

ellapurn3ll 穿着一件 __color__ 夹克,她身处 __locations__。
有关此自定义节点的完整详情,请参见:https://github.com/ltdrdata/ComfyUI-extension-tutorials/blob/Main/ComfyUI-Impact-Pack/tutorial/ImpactWildcard.md
随机LoRA与触发词
结合使用通配符和随机LoRA,可大幅提升你夜间批量生成的效果。
选择最多12个随机LoRA进行组合。请注意,默认情况下仅启用前5个。请在相应设置中修改“最大数量”,以设定你所配置的LoRA数量。系统总是从上至下计数。因此,如果你只想在3个LoRA中随机选择,请将“最大数量”设为3,并填写前3个LoRA的信息。
** 重要提示:为了让触发词生效,你必须在提示词字段中包含以下文本:
(LORA-TRIGGER) 或 (LORA-TRIGGER2)。系统将在使用随机LoRA生成时自动填充对应值。此选项区分大小写,请小心输入。
请注意,你可以使用完整提示词、单个触发词或触发短语,系统会自动为你填充。
要在此处添加通配符,请使用 {} 括号和 | 分隔符。例如:她戴着一顶{红色|绿色|蓝色}的帽子。或使用完整提示词:{她站在时代广场吻着飞吻|她坐在公园里吻着飞吻}
** 如果这些LoRA不起作用,请确保将你的模块类型设置为“全部”
仅在“随机LoRA堆栈2”中可用的辅助LoRA
辅助LoRA现已可用。某些LoRA搭配运动或风格LoRA效果更佳。启用辅助LoRA仅在第二个随机堆栈中生效,且仅当该LoRA被随机选中时才应用。例如,如果LoRA 1搭配运动或风格LoRA效果更好,请启用LoRA 1辅助项,当随机过程中选中LoRA 1时,系统将同时应用主LoRA和辅助LoRA。
此功能主要面向高级用户,但部分用户可能会觉得它很有用。
使用“提示词保存器”加载和保存你喜爱的提示词(*** 此功能因不兼容暂时移除***)
运行工作流时,系统会自动将最新提示词填充到“提示词保存器”中,你可以稍后保存以备使用。请注意,加载并使用提示词时:选择你之前保存的提示词,然后点击“加载已保存”。但重要的是,你必须将“使用输入”切换为“使用提示词”才能应用已加载的提示词。别忘了使用完毕后,再切回“使用输入”以恢复常规提示词输入方式。

** 默认为“使用输入”——这意味着你的提示词将由常规输入通配符字段生成,仅在“提示词保存器”中显示提示词内容。
一个种子,统御一切:
单一种子可统一管理所有LoRA随机化、通配符和生成过程。你可以放心复制并重复使用你喜爱的种子,配合随机LoRA和通配符,无需担心结果不一致。
* 小贴士:点击回收按钮即可重复使用上一个种子。你想微调刚刚生成的视频?或在第二阶段遇到OOM错误?使用上一个种子,稍作调整后再次尝试!
独立MM-Audio:
为最大化质量和视频长度,你可能希望在主工作流中禁用MM-Audio,而在后期处理中单独添加音频。此插件专为独立运行设计,用于后续添加音频。
启用“MM-Audio-独立模式”,并禁用工作流中其他所有部分。
只需上传你希望添加音频的视频,所有计算将自动完成。建议使用空白提示词,但我也保留了提示词保存器功能,供你加载之前保存的提示词。
(可选)你可以优化提示词,重点描述声音或与声音相关的场景。
可多次生成,直到获得完美的音频效果!
独立上采样与插值:
只想对现有视频文件进行上采样或插值?只需上传文件,仅保留上采样和插值功能,禁用工作流中其他所有部分。
上传框需在正确位置启用。
点击“启用”设置为“是”以使用此功能。使用常规工作流时别忘了关闭它。默认情况下,这两项功能都应为禁用状态。
使用工作流的小贴士
提高生成质量
增加步数:
对于默认方法 1a/b,在控制面板(设置)中,将步数从20增加到35或更高(最高可达50)。每一步都会消耗更多时间和内存,因此请在分辨率和步数之间找到平衡。

尝试更高分辨率:
将分辨率改为其中一种较大的选项。
** 更多分辨率建议,待进一步测试后补充。
平衡视频长度与质量,打造完美视频
以下是我用于平衡视频长度和质量的设置,已在3090 24GB显存上测试:
故障排除:
5090/5080/5070 50xx系列NVIDIA显卡修复
50xx系列NVIDIA显卡仍在开发中。以下是针对随附Python 3.12.X的Standard ComfyUI可移植版的一些设置建议。
你刚升级到NVIDIA 50xx系列显卡,却发现一切都不工作了?!
以下是我用于平衡视频长度和质量的设置,已在3090 24GB显存上测试。
下载标准ComfyUI可移植版,或使用你现有的文件夹。
安装 Cuda 12.8
(安装 Torch 2.7 开发版)
进入 python_embedded 文件夹
python.exe -s -m pip install --force-reinstall torch==2.7.0.dev20250307+cu128 torchvision==0.22.0.dev20250308+cu128 torchaudio==2.6.0.dev20250308+cu128 --index-url https://download.pytorch.org/whl/nightly/cu128 --extra-index-url https://download.pytorch.org/whl/nightly/cu128
或者,你也可以使用以下命令获取最新版本:
Python.exe -m pip install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cu128
(Triton 3.3 预发布版)
python.exe -m pip install -U --pre triton-windows
python.exe -m pip install sageattention==1.0.6
(Sage Attention)
SET CUDA_HOME=C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.8
cd sageattention
..\python.exe setup.py install
如果以上方法无效,请访问此文章,并用此处代码替换你的 setup.py:https://github.com/thu-ml/SageAttention/issues/107
现在你应该可以正常运行了。一些之前能正常工作的节点因未知原因停止工作,我会很快更新两个工作流,以包含针对5090、5080、5070系列显卡的修复。
** 请注意,我并非这方面的专家,无法协助你排查此部分问题……即使Sage和Triton安装成功,它们仍可能与ComfyUI存在兼容性问题。我相信随着更多开发者获得50xx显卡,这些bug很快会被解决。
缺失的节点:
MMaudio - 如果您的音频节点无法加载,请前往 ComfyUI Manager,使用以下地址执行“通过 Git URL 安装”:https://github.com/kijai/ComfyUI-MMAudio
然后重启。
如果您遇到安全错误,需要前往:ComfyUI/user/default/ComfyUI-Manager,打开 config.ini 文件,用记事本查看并找到 "security_level = normal",将其更改为 "security_level = weak"。然后尝试安装。安装完成后,您可以将此设置改回 normal。更多关于 MMaudio 的信息请参阅其 GitHub 页面。
ReActor 或面部增强节点缺失:
如果您在使用 Re-Actor 节点时遇到问题,可以轻松将其移除。理论上,工作流在默认绕过该节点的情况下仍可正常运行。
进入 RED 恢复面部框,双击灰色区域任意位置,搜索 "reroute" 并添加该节点。
将“恢复面部”左侧的输入线拖到新节点的左侧。
从 reroute 节点的右侧拖出一条新连线,连接到“上采样视频”的图像输入,然后即可完全删除“恢复面部”节点。

就这样了,所有功劳归于这些内容的原始作者。
希望您喜欢!能参与如此开放和共享的社区真好!
欢迎分享您使用此工作流的创作和设置。

