WAN 2.2 14B Multi-Phase I2V/T2V Workflow
详情
下载文件
关于此版本
模型描述
WAN 2.2 14B 多阶段 I2V/T2V 工作流:让专业视频生成触手可及
同一优化架构支持图像转视频与文本转视频生成
突破硬件限制
你是否曾想创建更长、更高品质的AI视频,却总因内存错误而受阻?本工作流通过将视频生成拆分为四个独立阶段,以接力赛的形式协同工作,彻底解决了这一难题。每个阶段各司其职,完成任务后清理自身资源,再将“接力棒”传递给下一阶段。
新增功能:本工作流内置自定义的 WanSettingsController 节点,将所有视频设置集中于单一控制点,彻底告别手动更新数十个节点以调整分辨率或宽高比的繁琐流程。
本工作流的独特优势
双模式:图像转视频 + 文本转视频
本工作流专为同时处理**I2V(图像转视频)与T2V(文本转视频)**而设计:
图像转视频模式:加载输入图像后,工作流通过四个精炼阶段为其添加动态效果、提升分辨率并插值帧,各阶段无缝衔接,层层递进。
文本转视频模式:使用**CR Image Input Switch(四路)**节点禁用图像输入,仅凭文本提示生成视频。此时,WildcardPromptFromString节点至关重要——T2V的质量完全取决于提示词,而通配符能让你在大批量生成中获得多样且高质量的变体。
重要T2V限制:与I2V模式中各阶段可扩展或增强视频不同,T2V模式不适合多阶段生成。每个阶段都会根据文本提示重新生成全新场景,而非延续前一阶段内容,导致视觉连续性断裂。因此,T2V生成时通常仅使用第一阶段,并通过 Fast Groups Bypasser 节点禁用第2–4阶段。
两种模式下,内存管理与批量处理能力完全一致——你仍可夜间运行30+次T2V生成而无崩溃风险。
多阶段架构:以少胜多
本工作流摒弃一次性生成完整视频(易导致系统崩溃),采用智能四阶段式架构:
四阶段系统:每个阶段独立运行完整的WAN视频生成周期,实现:
- 通过串联多个生成周期,生成更长视频
- 分块处理,突破VRAM限制
- 阶段间清理内存,防止批量处理崩溃
工作原理:每个 WanImageToVideo 节点生成一段视频片段,前一阶段的输出可作为下一阶段的输入,从而突破单次生成的长度限制。每阶段之间,RAM清理器与模型卸载器会释放内存,为下一周期做好准备。
实际生产应用:
- 1阶段:快速单次生成,T2V工作流(约6–8秒)
- 2阶段:标准生产最佳平衡点(约12秒,配合闪电模型约15–20分钟)
- 3–4阶段:长展示视频(约20–34秒,生成时间延长)
日常生产多采用1–2阶段以追求效率。使用闪电模型配合2阶段,每小时可生成约3个12秒视频,夜间批量可生成30–50+个视频。3–4阶段则专为特殊项目中需要更长内容时保留。
独立控制的力量:通过 Fast Groups Bypasser 节点,可单独或分组禁用任一阶段。只需快速生成?启用第1阶段即可。想延长视频?启用多个阶段。这种模块化设计让你精准调配资源,避免浪费算力。
注意:这种灵活性在I2V工作流中尤为强大,因各阶段可相互增强。而在T2V中,通常仅使用第1阶段,因每轮生成均为全新场景,非延续前文。
内存管理:核心秘诀
工作流在关键节点内置激进的RAM与VRAM清理机制:
RAM清理器(SoftFullCleanRAMAndVRAM):置于各阶段之间,清除系统内存,防止内存缓慢累积导致批量处理崩溃。确保每个阶段均从“干净状态”启动。
模型卸载器(SoftModelUnloader):主动移除不再使用的模型,是夜间大规模批量运行时不耗尽显存的关键。
执行顺序控制器(ImpactExecutionOrderController):确保清理操作在精确时机触发,强制完成当前阶段后再进入下一阶段。
权衡代价:这些清理节点会增加每个生成周期的时间——下一阶段需重新从磁盘加载模型。但这是战略性取舍:每段视频多花几秒加载,远胜于批量运行至第15个视频时因内存耗尽而彻底崩溃。当你夜间运行30+视频时,稳定性永远优先于速度。
这些机制共同构建了一个可在单次批量中处理数十乃至数百个视频而不崩溃的系统——区别在于,你是守着电脑,还是醒来时看到已完成的作品。
LoRA 管理系统
LoRA 加载器(LoraManager):一套先进的LoRA管理系统,可追踪已应用的LoRA、强度及触发词。这不仅是加载,更是智能管理。
调试元数据(LoraManager):自动将所有LoRA信息写入元数据,兼容Civitai等平台。上传视频后,他人可清晰看到你使用的LoRA。
触发词开关:无需修改提示词,即可一键启用或禁用LoRA触发词,轻松实现A/B测试。
中央控制:WAN设置控制器(自定义节点)
WanSettingsController 是为本工作流专属定制的节点,解决了复杂视频工作流中最头疼的问题:在数十个相连节点中手动修改设置。
它解决的问题:传统工作流中,调整分辨率需在画布上逐个查找并手动更新每个涉及宽高/帧数的节点。漏改一个,流程即崩溃。想换宽高比?重新开始“寻宝”。
它的解决方案:此节点是你的指挥中心。无需翻找数十个节点,只需调整一个下拉菜单,整个工作流自动同步更新。
核心功能:
- 24种预验证分辨率:全部经测试兼容WAN 2.2 14B,涵盖移动端576×1024竖屏至影院级1920×1080横屏
- 尺寸锁定:所有分辨率均为16的倍数(WAN技术要求),杜绝因无效设置导致流程崩溃
- 宽高比标注:每个分辨率清晰标注比例(9:16、16:9、1:1等),一目了然
- 优化默认值:960×1216(10:16)被标记为画质与性能的最佳平衡点
- 五输出,一源头:宽度、高度、长度(帧数)、帧率、批量大小均从此单一节点同步输出至全工作流
实际影响:一秒切换宽高比,而非五分钟。无需重连节点即可测试不同分辨率。一键从竖屏切换至横屏。
这不仅是便利——这是实现生产级测试与迭代的基石。当你每日生成50+视频时,此节点可为你节省数小时的流程管理时间。
节点类型详解(构建模块)
自定义工作流控制
WanSettingsController - 专为本工作流定制的节点。将所有视频设置集中于单一控制点,内含24种经验证的WAN兼容分辨率。如同将分散在控制面板上的十几个旋钮,整合为一个主控旋钮。当你更改分辨率下拉菜单时,宽度、高度、长度、帧率与批量大小将自动同步至全工作流。彻底消除手动更新多个节点的繁琐与易错。支持竖屏(576×1024 至 1080×1920)、正方形(768×768、1024×1024)与横屏(832×480 至 1920×1080),全部锁定为16像素倍数,兼容WAN 2.2 14B。这一创新将工作流迭代从苦差变为一键操作。
核心处理节点
KSamplerAdvanced(8个实例) - 使用扩散模型实际生成图像与视频帧的主力节点。负责AI的创意过程,逐步将噪声优化为连贯画面。
WanImageToVideo(4个实例) - 专用于使用WAN 2.2 14B模型将图像转为视频的节点。每个实例对应视频生成流程中的一个阶段。
VAEDecode(4个实例) - 将AI内部使用的压缩潜空间表示还原为可见像素。每张图像都必须经过VAE解码才能显示。
视频创建与导出
CreateVideo(5个实例) - 将单帧图像组装为视频文件,处理帧率、编码与时间轴。
SaveVideo(5个实例) - 将完成的视频以正确命名与元数据保存至磁盘。
RIFE VFI - 帧插值引擎,利用光流估算创建平滑中间帧,使有效帧率翻倍(或更高)。
工作流组织
ReroutePrimitive|pysssss(46个实例) - 类似电路中的接线盒,可连接远距离节点,避免画布上线缆缠绕。是保持复杂工作流清晰可读的关键。
Fast Groups Bypasser(rgthree) - 你的阶段控制面板。通过单个节点即可启用或禁用整组节点,轻松测试特定阶段或跳过冗余处理。
Power Primitive(rgthree) - 更智能的原始节点,可同时向多个输入端口传递值,减少杂乱。
ImpactExecutionOrderController(4个实例) - 强制执行特定顺序,确保内存清理在阶段间精确发生,而非随机执行。
图像处理
ImageScale - 在升频阶段保持画质的图像缩放节点。
ImageFromBatch - 从批量处理中提取单张图像,便于预览与质量检查。
ImageBatchMulti(3个实例) - 将多张图像合并为批量,提升处理效率。
CR Image Input Switch(4路) - 关键路由节点,可在四种输入图像间切换,或完全禁用图像输入以启用纯文本转视频模式。这是你的I2V/T2V模式选择器——切换至T2V时,该节点自动切断图像输入,仅依赖提示词生成,无需重连。
PreviewImage(3个实例) - 在生成过程中实时显示图像,无需等待最终输出即可监控进度。
文本与提示词处理
CLIPTextEncode(2个实例) - 将你的文字描述转换为AI可理解的数学格式(嵌入向量)。
Power Prompt - Simple(rgthree) - 增强型提示词节点,提供更优的格式与组织选项。
WildcardPromptFromString - T2V生成的核心。支持使用通配符(如 {形容词}、{动作}、{光照})实现提示词随机化,让你在大批量生成中获得多样化的高质量结果。在文本转视频模式下,提示词质量决定一切——平庸提示产生平庸结果,而精心设计并巧妙使用通配符的提示词,则能生成引人入胜的视频。此节点是批量多样性秘密武器:你不是生成30个相同视频,而是通过随机组合描述元素,生成30个独特变体。对维持T2V工作流的质量与多样性至关重要。
JoinStringMulti - 将多个文本字符串合并为一,便于从模块化组件构建复杂提示词。
模型加载
UNETLoader(2个实例) - 加载WAN 2.2 14B模型组件。WAN 14B需两个独立模型:一个“高”模型与一个“低”模型协同工作。两个UNET加载器分别负责加载WAN工作流所需的这两个组件。
CLIPLoader - 加载将文字转换为AI理解概念的文本编码器。
VAELoader - 加载VAE(变分自编码器),用于在潜在空间与像素空间之间转换。
CLIPSetLastLayer - 控制使用文本编码器的层数,可精细调整AI对提示词的解读方式。
ModelSamplingSD3(2个实例) - 配置Stable Diffusion 3架构模型的采样行为,控制生成质量和特性。
工具节点
MathExpression|pysssss(3个实例) - 对工作流中的数值进行计算,适用于动态帧数、分辨率缩放和参数调整。
VHS_GetImageCount(3个实例) - 统计视频序列中的帧数,对阶段协调和批量处理至关重要。
活动阶段数量 - 关键控制节点,必须设置为与您实际使用的阶段数一致(1-4)。若您仅使用第1阶段,请设为1;若使用第1-3阶段,请设为3。此节点协调工作流的执行,必须与“快速组旁路器”设置匹配。若未正确设置,将导致工作流错误。
MarkdownNote - 一个文档节点,可用于记录工作流各部分的功能说明。对于复杂设置极为宝贵。
ShowText|pysssss - 显示文本值,用于调试并确认设置是否正确。
SaveImageWithMetaData - 保存带有嵌入生成参数的图像,以便随时重现结果。
内存管理(关键!)
SoftFullCleanRAMAndVRAM|LP(2个实例) - 主动释放系统RAM和GPU VRAM,防止批量处理时内存累积。是的,这会在每次新生成开始时增加几秒的模型重载时间,但这是可靠性的代价——若没有这些清理器,您可能在中途崩溃,而无法在夜间完成30多个视频的批量生成。
SoftModelUnloader|LP - 在模型不再需要时将其从VRAM中移除,为后续阶段释放空间。模型重载时间相比因崩溃而丢失数小时的批量任务而言微不足道。
总体概览:各部分如何协同工作
将此工作流想象成工厂中的生产线:
原材料进入(来自WanSettingsController的输入图像/提示词与设置)
工作站1(阶段1) 执行完整的视频生成循环
清洁团队 清理工作区(RAM/VRAM清理)
工作站2(阶段2) 执行另一个视频生成循环(可选,可禁用)
清洁团队 再次清理
工作站3(阶段3) 执行另一个生成循环(可选,可禁用)
最终清理
工作站4(阶段4) 执行最终生成循环(可选,可禁用)
质量检查(预览节点显示结果)
发货(SaveVideo写入最终文件)
每个工作站独立运行完整的WAN生成循环。若无需某工作站,可通过“快速组旁路器”关闭。若进行多任务批量处理,清洁团队确保各生成之间工作区始终保持整洁。
为何重要
对于新手:您获得一个专业级工作流,复杂性被后台自动处理。只需更改一个设置,即可获得稳定结果。建议从1-2个阶段起步,快速获得成果。
对于资深用户:您可以对每个阶段进行精细控制,禁用不需要的部分,并在大规模批量处理时避免崩溃。根据您的需求优化:为大量内容生成12秒短片,或为追求质量制作更长的展示视频。
对于所有人:您能获得更长视频、更高分辨率、更流畅的运动效果,并能在夜间无间断运行,无需担心内存耗尽。使用闪电模型,预计每小时可生成约3个12秒视频(使用2个阶段),实现每晚30-50+个视频的批量生成。
此工作流凝聚了数月的优化、测试与问题解决,最终形成一个“开箱即用”的系统。无论您是为社交媒体制作内容、测试LoRAs,还是探索AI视频生成的边界,此工作流都能为您提供高效可靠的工具。
技术要求
支持WAN 2.2 14B模型的ComfyUI
WAN 2.2 14B模型:您需要“高”和“低”两个模型文件(WAN 14B为双模型系统)
VRAM:基础运行至少12GB,推荐16GB以上以支持更高分辨率
RAM:批量处理推荐32GB以上
必需自定义节点:
ComfyUI-Impact-Pack(用于执行控制器)
ComfyUI-Custom-Scripts(用于数学表达式)
rgthree-comfy(用于高级节点与旁路器)
LitePicker/ComfyUI-MemoryManagement(用于RAM/VRAM清理器)
LoraManager节点
WAN设置控制器(自定义节点——随本工作流附带!)
RIFE VFI节点
Video Helpers Suite
快速上手
安装WAN设置控制器(自定义节点)
自定义节点WanSettingsController已包含为wan_settings_controller.py。安装步骤如下:
将
wan_settings_controller.py复制到您的ComfyUI/custom_nodes/目录重启ComfyUI
该节点将出现在
video/settings类别中
完成! 该节点为独立模块,内置24种已验证分辨率,无需任何基础ComfyUI之外的依赖。
运行工作流
图像转视频(I2V):
安装所有必需的自定义节点(见上文技术要求)
安装WanSettingsController自定义节点
在ComfyUI中加载工作流
在WanSettingsController下拉菜单中选择所需分辨率
将“活动阶段数量”节点设置为与您实际使用的阶段数一致(1-4)
若仅使用阶段1,设为1
若使用阶段1-3,设为3
此设置必须与通过“快速组旁路器”启用的阶段匹配
使用CR图像输入切换器加载输入图像
使用“快速组旁路器”启用/禁用所需阶段
队列并运行!
文本转视频(T2V):
按上述步骤1-4操作
将“活动阶段数量”节点设为1(T2V仅使用阶段1)
使用CR图像输入切换器禁用图像输入
通过“快速组旁路器”禁用阶段2-4
每个阶段都会根据提示词生成新场景,破坏连续性
T2V生成仅使用阶段1
使用WildcardPromptFromString节点编写提示词
使用通配符实现变化:
{lighting|golden hour|dramatic shadows|soft diffused}构建模块化提示:
{subject} in {location}, {camera angle}, {mood}记住:T2V质量高度依赖提示词质量——请在此投入时间
队列批量任务并查看结果
T2V高级技巧:由于仅使用阶段1,生成速度远快于多阶段I2V。这使得T2V非常适合快速迭代与测试——您可以迅速生成并评估提示词,待通配符调优后,再扩展至大规模批量生成。
工作流将自动处理其余部分:管理内存、协调阶段、生成高质量视频,无需持续人工干预。
此工作流专为学习与生产双重目的设计。研究各阶段如何交互,尝试禁用不同模块,待准备就绪后扩展至批量处理。模块化设计让您能逐个理解组件,同时从第一天起就拥有一个完整可用的系统。
