WAN 2.2 4-Stage SVI Promptorama for Nice Long Videos
详情
下载文件
关于此版本
模型描述
错误 #1:我知道我在潜在变量切换上搞砸了……在不继续时,绕过最顶部的“潜在目录”节点——它会在全新运行时破坏 SVI 嵌入。抱歉,我需要修复这个问题。我想我之前因为空值问题删除了切换开关,现在改用绕过方式好了——SVI 特定的提示词拼接也可以从第一阶段嵌入堆栈中移出,我或许能同时处理这两处。真不明白为什么它突然出问题了……之前一直运行得好好的。真是见鬼。
好吧,我终于把这套流程整理得差不多可以分享了。目前网上已经有很多 SVI 工作流了,其中大多数肯定比我做得更好,我确信。但我真的很喜欢 SVI,所以越多越好。本流程的核心理念是自动化提示词和 LoRA 的切换,你只需选择一个预设场景,然后一键生成即可。无需手动输入,无需下拉选择,也不会出现“天啊我搞反了”这种状况。在尝试 SVI 之前,你必须熟练掌握 ComfyUI 和 WAN——如果你是初学者,千万别直接跳进来。你会掉头发的。这套流程目前仍然相当混乱,当然也远不是这种宏伟巨作。我的起点是这个,它很棒,如果你需要入门 SVI,这是个更简单的选择。 但现在它已是我主要的工作流,我对最终效果非常满意。独立切换四个提示词和四个 LoRA 简直烦透了。
以下是主要功能:
每个阶段都有自己的提示词集合——你可以从 16 组中选择(目前我只完成了 7 组,其余为空)。你只需使用两个开关就能完成此操作。先选一种颜色:棕色、红色、黄色或青色。这些是包含四组提示词的大模块。然后选一个数字——无需担心索引,我已经标注为“右上”、“左上”、“右下”、“左下”,这样你就能清楚地在颜色组内选择一组。选择通过两个“快速组静音器”节点完成。我相信,如果我以后更新这个工作流,会填满更多槽位。设置并锁定一组提示词确实很烦人,但一旦完成,就一劳永逸了。
你无需将图像质量或 SVI 特定的运动提示词加入这些集合中——我已提前处理好了。这些会在各阶段内部自动完成。如果你确实需要修改这些内容,请查看两个连接 GET 节点并输入 T5 编码器的拼接节点。每个阶段都有这两个节点,你可以在那里添加特定的过渡或画质调整内容。因此,请将你的提示词限制在动作和描述上。
这里有个很棒的地方:设置提示词的同时,也会自动设置对应的 LoRA。 所以你只需为每组设置一次。深入子图中进行配置。这些组的布局与提示词组完全一致,只需将语法填入对应的节点即可。所有子子图最初是 Manager 加载器,但造成了巨大延迟,因此现在都改成了字符串。我在旁边保留了加载器,如果你需要预览和自动补全,可以在那里操作,然后将字符串复制到对应位置。我截取了过滤后的 2.2 LoRA 列表,并放入了一个加载图像节点——我建议你也这么做,当你有大量缩略图时,设置组会方便得多。当然,你也可以不用 LManager——数据在到达阶段前都是字符串,只有在阶段中才需要更换加载器。
你可以通过 INPUT 单选按钮,从一张图片或视频的一帧开始。
要从“潜在目录”中上一次保存的潜在变量继续,点击“使用上一个潜在变量”单选按钮。显然,你必须先保存过一个。默认目录是 ComfyUI 输出文件夹下的 'latents'。我仍在完善这个阶段——可能有 bug。如果输出从原始帧开始,而不是上一帧,那就手动选取你想要的帧,放入第一个 SVI 节点的锚点位置,并确保潜在变量被传入 'prev_latent' 输入。这个位置在首次运行时通常是空的。如果它不工作,我会修复它;我还会添加一个选项,支持从已编码的视频中嵌入帧(就像我的 SVI FLF 工作流那样),这样你就能直接从视频继续(从而获取运动数据,而不是仅仅抓取一帧——这正是 SVI 的意义所在)。
默认模型是 /model/2053259?modelVersionId=2477539,我非常喜欢它,镜头提示效果很棒。此外当然还有 SVI PRO。如果你想使用完整模型搭配 Lightning LoRA,里面已经提供了对应的加载器(默认关闭)。Lightning 和 SVI 的强度在左上角的加载器处统一设置。哦,别忘了那个能配合 Wrapper 使用的 T5 编码器——它是个“坏编码器”。
我预设了自己的首选分辨率,并通过开关和宽高比翻转器控制,如果你觉得麻烦,可以全部删掉。输入调整大小会经过“对比度自适应锐化”(CAS),这非常重要。我强烈建议你试试。我敢保证,你一半的生成失败都是因为输入质量差——问我怎么知道的。CAS 不能修复垃圾输入,但它能解决因缩放导致的奇怪模糊问题。我还在里面加了一个对比节点,你可以滑到中间,腾出一只手来拍自己额头。
嗯,还有别的吗……哦对了,文件名:检查字符串节点和拼接节点,按你的喜好设置前缀、后缀等。如果你想直接保存为视频,也可以,但我建议保存为帧。这是默认设置——会创建一个唯一文件夹(用递增数字后缀避免覆盖之前的文件夹,数字本身无意义)。视频会在最后生成,但被标记为预览,并使用高 CRF 值。
不幸的是,这个设置的资源需求迫使我们省略了超分和插值阶段。你可以自行添加,但这需要大量额外卸载和清理,可能会干扰下一次生成。我把这个阶段移到了另一台机器上——Mac Studio 配 M2 Ultra 实际表现非常好,我都很惊讶。4x 超分模型在大批量时会崩溃,但大部分时候运行得不错。不过这是题外话。重点是:输出是原始 WAN。
第一、二、三阶段各自有独立预览,最后一个预览是拼接而成的。1+2、1+2+3 等中间预览也存在,但被隐藏并最小化在各自阶段组内——预览太多了。
还有别的吗?啊对了,左下角的提示词框旁边有 LoRA 加载器(会显示预览缩略图)。这样你就可以在不进入子图的情况下做实验,随意调整,确定好后再复制到空闲槽位。
显然,这套流程使用了 WRAPPER 节点和 LoRA Manager,共 13 个自定义节点包。这其实不算多。把它们全装上。像我这种笨蛋都能做出节点,你这么聪明,没理由做不到。有时你可以用核心节点替代,有时不行。有些人是真的懂行。我希望自己长大后也能成为那样的人。
工作流中附有大量注释,任何值得注意的地方都有说明。如果你使用这套流程并发现 bug,请一定告诉我。我很乐意被羞辱。毕竟,调试所有可能的设置组合太难了,这里肯定埋着不少地雷。
哦,我有没有提过,这套工作流是个怪物?它会输出 309 帧。我用一台 Cray X-MP 配神经网络处理器、学习型计算机运行 ComfyUI。但运行它时机器热到我连椅子都不敢坐——你被警告了:千万别坐在电脑上——你会被烫伤的。
128GB 内存能让你安全运行。最后可能还剩几个百分点的余量,但请先卸载你能卸载的东西。使用我的任何工作流时,务必关闭 Defender、防火墙和杀毒软件——它们像吸尘器一样吸走内存。
也试试 VRAM。你需要一些,但不如内存那么关键。如果你是那种 GGUF 小白鼠,我帮不了你,走开吧。

