Swiss Army Knife AV Studio WAN 2.2 ++
详情
下载文件
关于此版本
模型描述
注意:本文档旨在详尽全面。虽然内容可能显得冗长,但它将帮助您充分挖掘工作流的价值。
引言
本指南记录了一套功能完备的多场景AV片段编辑工作流,该工作流建立在我此前的Poser和多段场景工作流集合之上。尽管核心理念保持不变,但已进行了重大改进。此前我未发布使用说明,本文件即为完整手册。
当前工作流支持快速、模板化且可自定义地访问多种场景,同时让您随时掌握经过验证的工具,以生成高质量、一致的AV视频。
功能
包含17个场景,涵盖女上位、深喉、狗仔式、传教士式和摆姿。部分场景为完整故事,其他则为独立片段,可混合使用以构建包含多种姿势的长篇引人入胜的叙事。
每个场景均提供提示模板和推荐的LORA。可随意覆盖模板或添加自定义LORA。
场景可基于同一张源图生成,或以上一场景的最后一帧作为输入。
尽管模板默认仅支持单个主体,但多数场景支持多个主体,请发挥您的想象力。
一键禁用所有模板,改用“提示覆盖”节点作为主提示。提示覆盖节点同样支持占位符,因此您可以将场景模板作为起点。
配置选项 —— 场景选择、视频编辑与优化均可一键调整,并针对任意场景进行精细调节。
Torch Compile 与 Sage Attention —— 如不可用,请绕过或静音 Torch Compile 节点,改用 SDPA。
一键启用 Painter I2V(增强运动)或默认 WAN 编码器。
一键启用 LightX2V 模型:seko v1(低噪);或在 1022 与 1030 之间选择(高噪)。
GGUF 支持 —— 在加载器中选择合适的 GGUF 模型,并禁用量化。
预定义场景 LORA —— 可向场景 LORA 堆栈或专用自定义 LORA 堆栈(绿色节点)添加更多 LORA。
竖屏/横屏、放大、插值与提示覆盖将根据您的输入图像自动处理。
快捷键 —— 按 1–5 键可快速跳转至配置选项、输入、LORA 等。
视频编辑功能与工具
2合1 I2V & FLF 工作流
通过 Painter I2V 和高LORA选项提升运动效果(可快速切换以找到最佳组合)
帧裁剪 —— 在拼接序列时移除不想要的过渡或重复帧
TensorRT 放大 —— 4倍放大,远优于 FlashVSR/SeedVR2
重置尺寸 —— 可独立使用 lanczos 放大,或在 TensorRT 放大后缩小(例如:720p -> 1080p 或 720p -> 5K -> 1080p)
RIFE 插值 或 快速 TensorRT RIFE
多种输出选项:原始视频、帧图像序列、下一场的起始帧、后期制作版本
如何使用该工作流
工作流默认设置允许您立即开始逐场景迭代。
配置选项
提示:按 1 键可快速跳转至配置选项
处理选项(第一部分)
本部分包含所有后处理设置,可同时启用任意多个选项。
首帧与末帧 —— 在单张起始图像与双帧(首帧+末帧)工作流之间切换。若您已拥有场景所需的两张图像,或希望复用前一场景的结尾帧(同时更改种子以使故事走向不同但结局符合预期),此功能非常有用。
帧跳过 —— 移除不想要的过渡或剪辑。例如,在传教士场景中,角色可能从坐/躺过渡到跪姿以完成面部射精。跳过这些帧可使过渡变为干净的场景切换。
TensorRT 放大 —— 一种快速的4倍放大工具,支持多种模型(Remacri、ClearReality、UltraSharp等)。结果通常优于其他放大方法。该节点也可缩小至 HD、FHD、2K、4K、2倍或3倍,但建议保留默认“无”设置,改用“0 4. 重置尺寸”节点。内置节点使用双三次插值,而本工作流的重置尺寸使用Lanczos插值——效果通常显著提升,且您对输出尺寸拥有更多控制权。
重置尺寸 —— 一种独立的 Lanczos 放大或缩小工具,可在 TensorRT 放大后使用,或单独使用。
插值选项(第二部分)
一次仅可启用一种插值方法,或完全不启用。
RIFE
TensorRT 优化的 RIFE(极快)
注意:当前 RIFE 节点仅支持整数倍率。我正在探索一种新 RIFE 节点,未来可能支持分数倍率,甚至 GIMM 插值。
输出选项(第三部分)
原始输出在帧跳过、放大和插值之前生成。
处理后输出在所有后处理步骤完成后生成。
对每项输出选项,您可以:
将每一帧保存为图像。
仅保存最后一帧(适合作为下一场的起始图像)。
导出视频。
若未启用任何后处理,同时选择“原始”和“处理后”将生成重复文件。此时,仅保留“处理后”即可,除非您需要未处理版本(例如用于其他应用中的额外放大,或为高效 LLM/音频生成降低分辨率)。
I2V 编码器选择(第四部分)
一次仅可启用一种编码器。
Painter I2V —— 较新的编码器,可增强运动效果,但可能引入构图或解剖结构伪影。
WanVideo I2V —— 默认编码器。
高LORA版本(第五部分)
一次仅可启用一种高 LightX2V LORA。
10/30,强度0.5 —— 增强运动,但与 Painter I2V 一样,可能影响构图与解剖结构。
10/22,强度0.8 —— 提供稳健的基准性能。
默认设置:10/22 LORA + Painter I2V。该组合在所有场景中通常效果最佳,但部分场景可能受益于其他搭配,请自行实验以找到最优组合。
工作流提示
在您初次迭代并寻找理想种子时:
仅启用“处理后视频”选项,可选地同时启用“处理后最后一帧”输出,其余处理、插值和输出选项均保持关闭。
一旦找到可接受的种子,将其锁定。
启用后处理;此后工作流将仅运行后处理步骤与输出,大幅节省时间。
场景与提示
提示:按 2 键可快速跳转至输入节点
在配置选项旁,您将看到可用场景列表。一次仅可选择一个场景。
提示输入行为
若选择了场景,提示覆盖将替换该场景的模板。
若未选择场景,提示覆盖将作为普通正向提示使用(占位符仍有效)。
负向提示默认为 WAN 列表,可在处理部分进行调整。
每个场景均包含:
提示模板 —— 可编辑或覆盖的基础模板。
占位符 —— 用于在场景间共享通用信息。
支持的占位符包括:
,例如 “woman” ,例如 “beautiful, slender” ,例如 “she” ,例如 “her” ,例如 “wavy blonde hair in a ponytail, blue eyes” ,例如 “wide-brim hat, white dress”(通常仅应用于第一帧;如需角色保持着装或半裸,请覆盖) ,例如 “large perky breasts with puffy nipples” ,(请谨慎使用) ,例如 “at a beach” 或 “on a sofa in the living room”(应用于动作,不一定是第一帧) ,例如 “standing”,“sitting”(同样指动作,非第一帧)
注意:大写占位符(如 <Subject>)在替换时将自动将值的首字母大写。
LORA 设置
提示:按 3 键可快速跳转至自定义 LORA 堆栈
每个场景定义了一组高/低 LORA。
您可直接向场景模板添加最多五组 LORA,另可添加额外的自定义 LORA 堆栈(显示为绿色),这些堆栈将在场景切换时由工作流调用。
当未选择场景时,您可使用绿色 LORA 堆栈指定自己的高/低 LORA。场景专属 LORA 将自动切换,不会产生干扰。
关键输入参数
短边 / 长边(视频尺寸)
为获得最佳质量:
720 × 1280 → 16:9 或 9:16
720 × 960 → 4:3 或 3:4
方向将根据上传图像的宽高比自动确定。若图像与所选尺寸不符,将被调整大小并居中裁剪以匹配。
尺寸必须为16的倍数,数值将自动向下取整(例如:725 → 720)。
放大倍数
尺寸将根据输入的倍数值按比例计算以保持宽高比。
时长与帧率
默认为5秒、16帧/秒。
更长的视频生成耗时更久,可能触发内存不足错误。WAN 模型通常在5秒后循环回原始图像,这对重复动作很有用。如使用 10/22 LORA 和默认 WAN 编码器,可使用 24 帧/秒以获得更流畅的运动。
跳过帧数
若在配置选项中启用,可指定从片段开头和/或结尾裁剪多少帧。
步数
保持为8。如需尝试其他值,可自行调整。
Shift
8–10 效果良好。
较低的 shift 值(如5)通常会导致此类视频效果不佳。
其他注意事项
负向提示
可在处理部分(红色节点)调整。
调度器
可调整蓝色节点。实践中,Euler(稳定)和 UniPC(创意)效果最佳。
添加占位符
修改“占位符替换”子图。这是一个由多个“字符串大写”和“替换”节点组成的大但直观的堆栈。
添加场景
可行,但较繁琐。每个场景是一个子图,可连同其组(组必须为特定颜色才能出现在“场景”堆栈中)一并复制。难点在于将其接入现有的提示与 LORA 切换器,而这些切换器已相当庞大,且与场景节点距离较远。
未来计划
更多场景与更优的模板管理
- 我正在探索更灵活地管理模板与 LORA 的方式。曾考虑使用 Boyonodes,但其无法处理 LORA 强度——这对某些场景至关重要。若您知道能更好管理提示与 LORA 的节点,请告知我。
额外工具
某些选项(如使用 LLM 自动提示、大规模视频拼接)被刻意省略,因为“一站式”工作流在需要迭代与片段编辑时往往表现不佳。
我计划在后续版本中集成艺术滤镜、色彩匹配、音频生成(mmaudio/Ovi)及其他工具。若您有具体需求,欢迎提出。
依赖项
自定义节点
https://github.com/kijai/ComfyUI-WanVideoWrapper
https://github.com/rgthree/rgthree-comfy
https://github.com/kijai/ComfyUI-KJNodes
https://github.com/chflame163/ComfyUI_LayerStyle
https://github.com/Kosinkadink/ComfyUI-VideoHelperSuite
https://github.com/Fannovel16/ComfyUI-Frame-Interpolation
https://github.com/yuvraj108c/ComfyUI-Upscaler-Tensorrt
https://github.com/yuvraj108c/ComfyUI-Rife-Tensorrt
https://github.com/princepainter/ComfyUI-PainterI2VforKJ
若在安装 TensorRT 节点时遇到困难,请参考此指南:
/model/2122077/rifetensorrt-interpolation-using-tensortcore-and-upscaler?modelVersionId=2402144
若在安装 triton 和 sage attention 时遇到困难,请参考此指南:
https://github.com/Tavris1/ComfyUI-Easy-Install
模型
文本编码器
https://huggingface.co/eddy1111111/Wan_toolkit/tree/main
WAN 2.2 高与低模型
https://huggingface.co/Kijai/WanVideo_comfy_fp8_scaled/tree/main/I2V
LORAs
LightX2V 10/30
https://huggingface.co/Kijai/WanVideo_comfy/tree/main/LoRAs/Wan22_Lightx2v
LightX2V 10/22
https://huggingface.co/lightx2v/Wan2.2-Distill-Loras/tree/main
LightX2V Seko v1
https://huggingface.co/lightx2v/Wan2.2-Lightning/tree/main/Wan2.2-I2V-A14B-4steps-lora-rank64-Seko-V1
场景 LORAs
https://huggingface.co/JustAnotherCibrarian/base_wan22/tree/main/1879839?not-for-all-audiences=true
https://tensor.art/models/902621070467587542

