Swiss Army Knife AV Studio WAN 2.2 ++

详情

模型描述

注意:本文档旨在详尽全面。虽然内容可能显得冗长,但它将帮助您充分挖掘工作流的价值。

引言

本指南记录了一套功能完备的多场景AV片段编辑工作流,该工作流建立在我此前的Poser和多段场景工作流集合之上。尽管核心理念保持不变,但已进行了重大改进。此前我未发布使用说明,本文件即为完整手册。

当前工作流支持快速、模板化且可自定义地访问多种场景,同时让您随时掌握经过验证的工具,以生成高质量、一致的AV视频。

功能

  • 包含17个场景,涵盖女上位、深喉、狗仔式、传教士式和摆姿。部分场景为完整故事,其他则为独立片段,可混合使用以构建包含多种姿势的长篇引人入胜的叙事。

    • 每个场景均提供提示模板和推荐的LORA。可随意覆盖模板或添加自定义LORA。

    • 场景可基于同一张源图生成,或以上一场景的最后一帧作为输入。

    • 尽管模板默认仅支持单个主体,但多数场景支持多个主体,请发挥您的想象力。

    • 一键禁用所有模板,改用“提示覆盖”节点作为主提示。提示覆盖节点同样支持占位符,因此您可以将场景模板作为起点。

  • 配置选项 —— 场景选择、视频编辑与优化均可一键调整,并针对任意场景进行精细调节。

    • Torch Compile 与 Sage Attention —— 如不可用,请绕过或静音 Torch Compile 节点,改用 SDPA。

    • 一键启用 Painter I2V(增强运动)或默认 WAN 编码器。

    • 一键启用 LightX2V 模型:seko v1(低噪);或在 1022 与 1030 之间选择(高噪)。

    • GGUF 支持 —— 在加载器中选择合适的 GGUF 模型,并禁用量化。

    • 预定义场景 LORA —— 可向场景 LORA 堆栈或专用自定义 LORA 堆栈(绿色节点)添加更多 LORA。

    • 竖屏/横屏、放大、插值与提示覆盖将根据您的输入图像自动处理。

    • 快捷键 —— 按 1–5 键可快速跳转至配置选项、输入、LORA 等。

  • 视频编辑功能与工具

    • 2合1 I2V & FLF 工作流

    • 通过 Painter I2V 和高LORA选项提升运动效果(可快速切换以找到最佳组合)

    • 帧裁剪 —— 在拼接序列时移除不想要的过渡或重复帧

    • TensorRT 放大 —— 4倍放大,远优于 FlashVSR/SeedVR2

    • 重置尺寸 —— 可独立使用 lanczos 放大,或在 TensorRT 放大后缩小(例如:720p -> 1080p 或 720p -> 5K -> 1080p)

    • RIFE 插值 或 快速 TensorRT RIFE

    • 多种输出选项:原始视频、帧图像序列、下一场的起始帧、后期制作版本

如何使用该工作流

工作流默认设置允许您立即开始逐场景迭代。

配置选项

提示:按 1 键可快速跳转至配置选项

处理选项(第一部分)

本部分包含所有后处理设置,可同时启用任意多个选项。

  • 首帧与末帧 —— 在单张起始图像与双帧(首帧+末帧)工作流之间切换。若您已拥有场景所需的两张图像,或希望复用前一场景的结尾帧(同时更改种子以使故事走向不同但结局符合预期),此功能非常有用。

  • 帧跳过 —— 移除不想要的过渡或剪辑。例如,在传教士场景中,角色可能从坐/躺过渡到跪姿以完成面部射精。跳过这些帧可使过渡变为干净的场景切换。

  • TensorRT 放大 —— 一种快速的4倍放大工具,支持多种模型(Remacri、ClearReality、UltraSharp等)。结果通常优于其他放大方法。该节点也可缩小至 HD、FHD、2K、4K、2倍或3倍,但建议保留默认“无”设置,改用“0 4. 重置尺寸”节点。内置节点使用双三次插值,而本工作流的重置尺寸使用Lanczos插值——效果通常显著提升,且您对输出尺寸拥有更多控制权。

  • 重置尺寸 —— 一种独立的 Lanczos 放大或缩小工具,可在 TensorRT 放大后使用,或单独使用。

插值选项(第二部分)

一次仅可启用一种插值方法,或完全不启用。

  • RIFE

  • TensorRT 优化的 RIFE(极快)

注意:当前 RIFE 节点仅支持整数倍率。我正在探索一种新 RIFE 节点,未来可能支持分数倍率,甚至 GIMM 插值。

输出选项(第三部分)

原始输出在帧跳过、放大和插值之前生成。

处理后输出在所有后处理步骤完成后生成。

对每项输出选项,您可以:

  • 将每一帧保存为图像。

  • 仅保存最后一帧(适合作为下一场的起始图像)。

  • 导出视频。

若未启用任何后处理,同时选择“原始”和“处理后”将生成重复文件。此时,仅保留“处理后”即可,除非您需要未处理版本(例如用于其他应用中的额外放大,或为高效 LLM/音频生成降低分辨率)。

I2V 编码器选择(第四部分)

一次仅可启用一种编码器。

  • Painter I2V —— 较新的编码器,可增强运动效果,但可能引入构图或解剖结构伪影。

  • WanVideo I2V —— 默认编码器。

高LORA版本(第五部分)

一次仅可启用一种高 LightX2V LORA。

  • 10/30,强度0.5 —— 增强运动,但与 Painter I2V 一样,可能影响构图与解剖结构。

  • 10/22,强度0.8 —— 提供稳健的基准性能。

默认设置:10/22 LORA + Painter I2V。该组合在所有场景中通常效果最佳,但部分场景可能受益于其他搭配,请自行实验以找到最优组合。

工作流提示

在您初次迭代并寻找理想种子时:

  • 仅启用“处理后视频”选项,可选地同时启用“处理后最后一帧”输出,其余处理、插值和输出选项均保持关闭。

  • 一旦找到可接受的种子,将其锁定。

  • 启用后处理;此后工作流将仅运行后处理步骤与输出,大幅节省时间。

场景与提示

提示:按 2 键可快速跳转至输入节点

在配置选项旁,您将看到可用场景列表。一次仅可选择一个场景。

提示输入行为

  • 若选择了场景,提示覆盖将替换该场景的模板。

  • 若未选择场景,提示覆盖将作为普通正向提示使用(占位符仍有效)。

  • 负向提示默认为 WAN 列表,可在处理部分进行调整。

每个场景均包含:

  • 提示模板 —— 可编辑或覆盖的基础模板。

  • 占位符 —— 用于在场景间共享通用信息。

支持的占位符包括:

  • ,例如 “woman”

  • ,例如 “beautiful, slender”

  • ,例如 “she”

  • ,例如 “her”

  • ,例如 “wavy blonde hair in a ponytail, blue eyes”

  • ,例如 “wide-brim hat, white dress”(通常仅应用于第一帧;如需角色保持着装或半裸,请覆盖)

  • ,例如 “large perky breasts with puffy nipples”

  • ,(请谨慎使用)

  • ,例如 “at a beach” 或 “on a sofa in the living room”(应用于动作,不一定是第一帧)

  • ,例如 “standing”,“sitting”(同样指动作,非第一帧)

注意:大写占位符(如 <Subject>)在替换时将自动将值的首字母大写。

LORA 设置

提示:按 3 键可快速跳转至自定义 LORA 堆栈
  • 每个场景定义了一组高/低 LORA。

  • 您可直接向场景模板添加最多五组 LORA,另可添加额外的自定义 LORA 堆栈(显示为绿色),这些堆栈将在场景切换时由工作流调用。

  • 当未选择场景时,您可使用绿色 LORA 堆栈指定自己的高/低 LORA。场景专属 LORA 将自动切换,不会产生干扰。

关键输入参数

短边 / 长边(视频尺寸)

为获得最佳质量:

  • 720 × 1280 → 16:9 或 9:16

  • 720 × 960 → 4:3 或 3:4

  • 方向将根据上传图像的宽高比自动确定。若图像与所选尺寸不符,将被调整大小并居中裁剪以匹配。

  • 尺寸必须为16的倍数,数值将自动向下取整(例如:725 → 720)。

放大倍数

尺寸将根据输入的倍数值按比例计算以保持宽高比。

时长与帧率

默认为5秒、16帧/秒。

更长的视频生成耗时更久,可能触发内存不足错误。WAN 模型通常在5秒后循环回原始图像,这对重复动作很有用。如使用 10/22 LORA 和默认 WAN 编码器,可使用 24 帧/秒以获得更流畅的运动。

跳过帧数

若在配置选项中启用,可指定从片段开头和/或结尾裁剪多少帧。

步数

保持为8。如需尝试其他值,可自行调整。

Shift

8–10 效果良好。

较低的 shift 值(如5)通常会导致此类视频效果不佳。

其他注意事项

负向提示

可在处理部分(红色节点)调整。

调度器

可调整蓝色节点。实践中,Euler(稳定)和 UniPC(创意)效果最佳。

添加占位符

修改“占位符替换”子图。这是一个由多个“字符串大写”和“替换”节点组成的大但直观的堆栈。

添加场景

可行,但较繁琐。每个场景是一个子图,可连同其组(组必须为特定颜色才能出现在“场景”堆栈中)一并复制。难点在于将其接入现有的提示与 LORA 切换器,而这些切换器已相当庞大,且与场景节点距离较远。

未来计划

  • 更多场景与更优的模板管理

    • 我正在探索更灵活地管理模板与 LORA 的方式。曾考虑使用 Boyonodes,但其无法处理 LORA 强度——这对某些场景至关重要。若您知道能更好管理提示与 LORA 的节点,请告知我。
  • 额外工具

    • 某些选项(如使用 LLM 自动提示、大规模视频拼接)被刻意省略,因为“一站式”工作流在需要迭代与片段编辑时往往表现不佳。

    • 我计划在后续版本中集成艺术滤镜、色彩匹配、音频生成(mmaudio/Ovi)及其他工具。若您有具体需求,欢迎提出。

依赖项

自定义节点

https://github.com/kijai/ComfyUI-WanVideoWrapper

https://github.com/rgthree/rgthree-comfy

https://github.com/kijai/ComfyUI-KJNodes

https://github.com/chflame163/ComfyUI_LayerStyle

https://github.com/Kosinkadink/ComfyUI-VideoHelperSuite

https://github.com/Fannovel16/ComfyUI-Frame-Interpolation

https://github.com/yuvraj108c/ComfyUI-Upscaler-Tensorrt

https://github.com/yuvraj108c/ComfyUI-Rife-Tensorrt

https://github.com/princepainter/ComfyUI-PainterI2VforKJ

若在安装 TensorRT 节点时遇到困难,请参考此指南:

/model/2122077/rifetensorrt-interpolation-using-tensortcore-and-upscaler?modelVersionId=2402144

若在安装 triton 和 sage attention 时遇到困难,请参考此指南:

https://github.com/Tavris1/ComfyUI-Easy-Install

模型

文本编码器

https://huggingface.co/eddy1111111/Wan_toolkit/tree/main

WAN 2.2 高与低模型

https://huggingface.co/Kijai/WanVideo_comfy_fp8_scaled/tree/main/I2V

LORAs

LightX2V 10/30

https://huggingface.co/Kijai/WanVideo_comfy/tree/main/LoRAs/Wan22_Lightx2v

LightX2V 10/22

https://huggingface.co/lightx2v/Wan2.2-Distill-Loras/tree/main

LightX2V Seko v1
https://huggingface.co/lightx2v/Wan2.2-Lightning/tree/main/Wan2.2-I2V-A14B-4steps-lora-rank64-Seko-V1

场景 LORAs

/model/1648982

/model/2048863

/model/2121111

/model/2007166

/model/1874811

/model/1986500

https://huggingface.co/JustAnotherCibrarian/base_wan22/tree/main/1879839?not-for-all-audiences=true

https://tensor.art/models/902621070467587542

/model/1811313?modelVersionId=2176505

/model/2048121

/model/2131565

/model/2118407

/model/1983608

/model/2031069

此模型生成的图像

未找到图像。