WAN 2.2 5b WhiteRabbit InterpLoop

详情

下载文件

模型描述

喜欢中文的你看这边:英文看完后就是中文版

WAN 2.2 5b WhiteRabbit 插值循环

这个开箱即用的 ComfyUI 工作流可将一张图片转换为使用 WAN 2.2 5b 生成的短循环视频。随后,它会清理循环衔接处的“接缝”,让过渡更自然。可选地,你还可以提升帧率并用 ESRGAN 进行放大。

换句话说,这是一个利用 WAN 2.2 5b 生成循环效果的“图像转视频”工作流!

为什么会这么复杂?!

WAN 2.2 5b 并不完全支持在首帧之后继续注入帧。如果你尝试注入最后一帧,它虽会生成循环动画,但最后 4 帧会出现“脏帧”,在循环结束处出现奇怪的“闪烁”。

此工作流通过我设计的自定义节点来规避这一限制。我们先裁掉脏帧,然后对接缝进行插帧插值。工作流内同时提供了“简单版”和“进阶版”的裁剪/插值流程,并配有切换开关,便于你分别试用。

模型设置(WAN 2.2 5b)

按常规 ComfyUI 目录安装这些文件。FP16 = 质量最佳;FP8 = 更快更省显存,但有一定取舍。

扩散模型models/diffusion_models/

文本编码器models/text_encoders/

VAEmodels/vae/

可选 LoRAmodels/lora/

提示:保留子文件夹如 models/vae/wan2.2/,以便你的模型库保持整洁。

工作原理

  • 接缝预处理:我们取最后一帧和第一帧,生成新的中间帧以平滑连接两者。仅添加这些新帧——不会重复第一帧。
  • 全片插值(可选):在整个视频中增加中间帧,然后重新采样到任意帧率。
  • 放大(可选):在全片插值前,使用你选择的 ESRGAN 模型进行放大处理。
  • 输出:保存至你的 ComfyUI/output/ 文件夹,文件名前缀为 LoopVid

你需要注意的控制项

默认设置适用于“大多数显卡安全运行”。如果你显存充足,可适当调整。

全片插值

  • Roll & Multiply:在全视频中增加更多中间帧(例如 ×3)。
  • 重采样帧率:转换为精确帧率(例如 60)。在 Multiply 后使用效果极佳,也可单独使用。

其他实用调节项

  • 时长:WAN 成本随时长上升,超过约 3 秒后明显增加(2.2 优化至约 5 秒)。
  • 工作尺寸:长边像素数(形状由输入图像决定)。
  • 步数:~30 是 WAN 2.2 的最佳值。
  • CFG:WAN 默认为 5,我略微调高。值越高 = 提示强度越强,有时运动更剧烈。
  • 调度偏移:控制运动与稳定性。值越高 = 运动更强烈。
  • 放大:选择模型/目标尺寸;如遇 OOM,可减小分块或批量大小。

有关这些设置的更详细说明,请参阅工作流本身。

使用视觉模型生成提示(可选但实用)

如果撰写运动提示让你感到困难,你可以借助视觉模型获得一个出色的起点。你有几种选择。

免费云端选项

Google 的 Gemini 或 OpenAI 的 ChatGPT 免费且对大多数人足够使用。

  • 上传你的图像,并粘贴以下提示。
  • 复制模型的描述,粘贴到本工作流的“提示”字段中。

...但这些服务并非完全私密,可能对色情/NSFW 请求进行审查。这就是为什么你可能更倾向于尝试另外两种选项。

付费云端选项

有许多服务提供云端模型访问,能更可靠地获得无审查的模型访问权限。

例如,你可以在 OpenRouter 上购买积分。我个人更喜欢 Featherless,因为他们收取固定月费,使我的开销可预测,且他们有严格的无日志政策。如果你决定试用,欢迎使用 我的推荐链接,这将帮助我!

如果你选择 API/付费云端路线,你可能会发现我的应用 CloudInterrogator 很有用。它专为简化云端视觉模型提示而设计,完全免费且开源!

本地推理选项

我知道许多 CivitAI 用户坚持本地运行。对你们来说,Ollama 是个不错的选择。

这是我能找到的最佳设置指南。你应关注 Google 的 Gemma-3 系列模型,并根据你的显卡选择合适大小的版本。

如果你使用 Ollama,完全可以使用 CloudInterrogator 作为接入点,因为 Ollama 会创建兼容 OpenAI 的端点;或者你也可以用 ComfyUI 的 Ollama 节点 来定制本工作流。但我除非你能设置锁定提示,否则不推荐后者。

许多 WAN 工作流将 Gemma3/Ollama 节点直接集成进流程。我决定不这样做,因为我相信 99% 的用户通过 Gemini 或 ChatGPT 已能获得极佳效果。

建议提示:

分析此视频帧的内容,用一段简洁的段落描述你对后续视频序列中将发生的动作的预测。

你的描述应包含角色和场景的整体细节,但仅限于与场景中发生的运动相关的内容。此外,请注意粒子的运动、眼睛的眨动(如有)、头发的飘动……这是被捕捉的瞬间,你正在描述图像所涵盖的几秒钟。所有能动的东西都会动——即使是最微小的细节。

不要描述“暂停”。不要用“轻微”或“细微”等词弱化运动。避免隐喻性语言。你的描述必须直接、果断。使用简单、常见的语言。具体描述场景中每个细节如何运动,但不要冗长;每个词都必须有明确目的。使用现在时态,仿佛你边打字边见证预测成真。

你只需交付一段文字,不添加任何额外信息,不使用任何格式化特殊字符,避免使用“图像序列描绘了角色”这类句式,直接描述发生了什么,不要说“视频……”"

你也可以尝试使用 AmazingSeek 的工作流 中建议的提示,具体效果取决于你使用的模型或目标!

小贴士与故障排除

WAN 帧率:WAN 2.2 为 24 fps。若你尝试 WAN 2.1,请将帧率设为 12。模型加载节点附近有滑块可调节。本工作流会根据此数值自动计算如何处理帧率(用于倍增和重采样)。

接缝看起来不自然? 尝试在“简单版”与“进阶版”接缝插值间切换;在“进阶版”中增加自动裁剪搜索范围;或用稍不同的提示/CFG 重新渲染。

显存不足(OOM)?

  • 降低 WanVideo Decode 节点中的分块大小(x 和 y)。
  • 降低放大分块大小和/或批量大小。
  • 减小工作尺寸或时长。
  • 启用“使用分块编码器”。

AttributeError: type object 'CompiledKernel' has no attribute 'launch_enter_hook'

我不确定此错误的根源,但我猜测与 WAN Video 节点有关。以下方法应可修复:

  1. 打开 “🧩 Manager”
  2. 点击 “Install PIP Packages”
  3. 安装以下两个包(不要带引号):"SageAttention", "Triton-Windows"

3.1 显然,Triton-Windows 仅适用于 Windows 用户。若你在 Linux 上遇到此错误,我猜 Triton 包名仅为 "Triton"。

如果上述方法无效,可能是你的 ComfyUI Python 环境出了问题,或你使用的 ComfyUI 版本与 Manager 的 “Install PIP Packages” 模块不兼容。此时,以下评论区建议可能对你有帮助:

来自 alex223:
“我花了一整天时间,终于搞定了。这个方法帮了大忙,但不知为何,我嵌入式 Python 缺少 include 和 libs 文件夹,我从独立版本中复制了它们——这对 Triton 正常运行至关重要。也许我的评论能帮到其他人。”

如果你仍有问题,欢迎留言。我乐意帮忙排查,但我认为问题不在我的工作流或 WhiteRabbit(我的自定义节点)上。

致谢

  • 最初我尝试时,想到通过插值解决循环接缝问题或许能应对“脏帧”,但真正让我下定决心的是 AmazingSeek这个工作流
  • Ekafalain 也应获得认可,因为 AmazingSeek 的工作流基于他们制作的 无缝循环工作流
  • 虽然我没有直接使用他们的想法,但我想特别提到 Caravel 的出色多步骤流程,你可以在 这里 查看,该流程主要面向 WAN 2.2 14b。仅此工作流的文档水平就值得称赞。
  • 我推荐的视觉提示基于 NRDX。你可以在他的 Patreon 上找到原始工作流。他同时也是为多个 WAN 模型训练 LiveWallpaper LoRA 的人!

P.S. 💖

如果这个工作流帮到了你,我非常期待看到你的作品!我为此付出了大量心血,包括设计自定义节点、尽可能详尽地记录流程,只为让你用得顺手。

链接

  • 查看 WhiteRabbit 仓库 获取节点文档和原子工作流,以便更好地理解如何使用这里的自定义节点或调整本工作流。
  • 我的网站与社交平台:在 artificialsweetener.ai 查看我的艺术、诗歌及其他开发更新。
  • 请我喝杯咖啡:你可通过我的 Ko-fi 页面 帮助我继续开发此类项目!

本工作流献给我挚爱的 Cubby 🥰

  • 全网 发现她的艺术作品
  • 她在 CivitAI 上有许多杰出的 LoRA 等你探索 :3

VAEmodels/vae/

可选 LoRAmodels/lora/

提示:使用如 models/vae/wan2.2/ 这类子文件夹,便于管理不断增长的模型集合。

工作原理

  • 接缝准备:取最后一帧与第一帧,生成新的过渡中间帧以实现平滑衔接。只会追加这些新帧——不会重复追加第 1 帧。

  • 全片插值(可选):在整段视频中增加倍数级的中间帧,然后重采样到任意 FPS。

  • 放大(可选):在全片插值之前加入一次放大流程,使用你选择的 ESRGAN 模型。

  • 输出:保存到你的 ComfyUI/output/ 文件夹,文件名前缀为 LoopVid。

你会关心的控制项

默认设置为“对多数 GPU 安全”。如果你显存更充裕,可以适当调高。

全片插值

  • 滚动倍增 ("Roll & Multiply"):在全片范围增加更多中间帧(例如 ×3)。

  • 重采样帧率 ("Resample Framerate"):转换到精确的 FPS(例如 60)。在倍增后使用效果更佳,但也可单独使用。

其他实用旋钮

  • 时长 ("Duration"):超过 ~3 秒成本上涨(2.2 调校到 ~5 秒)。

  • 工作尺寸 ("Working Size"):以长边像素为准(纵横比来自输入图)。

  • 步数 ("Steps"):~30 是 WAN 2.2 的甜点区。

  • CFG:WAN 默认 5,这里略微上调。数值越高=“提示强度”更高,有时也会带来更多运动。

  • 日程偏移(Schedule Shift):运动 vs 稳定。数值越高=运动更强。

  • 放大 ("Upscale"):选择模型/目标尺寸;如遇 OOM,降低 tile/batch。

关于这些设置的更多细节,可在工作流中直接查看。

使用视觉模型来生成提示(可选但好用)

如果编写“运动提示”让你犯难,可以借助视觉模型获得一个很好的起点。你有多种选择。

免费云端方案

Google 的 Gemini 或 OpenAI 的 ChatGPT 是免费的,对多数人来说足够用了。

  • 上传你的图片并粘贴下方提示词。

  • 复制模型给出的描述,将其粘贴到本工作流的 Prompt 字段。

……不过,这些服务的私密性并不理想,并且可能会审查低俗/NSFW 类请求。这也是你或许想尝试其他两种方案的原因。

付费云端方案

有很多服务提供云端模型访问,这是获取未审查模型的更可靠方式。

例如,你可以在 OpenRouter 购买点数。就我个人而言更偏好 Featherless,因为它按月固定收费、成本可预期,而且有严格的“无日志”政策。如果你想试试,也可以使用我的推荐链接来支持我!

如果你选择 API/付费云路线,我的应用 CloudInterrogator 可能会对你有用。它旨在尽可能简化云端视觉模型的提示流程,而且完全免费开源!

本地推理方案

我知道 CivitAI 上有不少“只用本地”的用户。你可以选择 Ollama

这里有我能找到的最佳安装指南。你可以关注 Google 的 Gemma-3 模型家族,并选择与你显卡匹配的规模。

如果使用 Ollama,你完全可以把 CloudInterrogator 当作访问入口,因为 Ollama 提供 OpenAI 兼容的端点;或者你也可以为 ComfyUI 加上 Ollama 节点来定制本工作流。除非你能把提示锁定,否则我并不推荐后者。

许多 WAN 工作流会把 Gemma3/Ollama 节点直接内置进去。我选择不这样做,因为我认为 99% 的人用 Gemini 或 ChatGPT 就已经足够。

建议的提示词

分析该视频帧的内容,用一个简洁的单段落描述你对随后的整段视频序列中将发生哪些运动的预测。

你的描述应覆盖角色与场景的整体细节,但只限于与场景中“运动”相关的部分。另外,请记录粒子的运动、如果有的话眼睛的眨动、头发的摆动……这是一个被时间定格的瞬间,你要描述的是这张图像所涵盖的这几秒内发生的事。凡是可能运动的,都在运动——包括场景中微小的细节。

不要描述“停顿”。不要用“轻微”“细微”这类词来弱化运动。不要使用隐喻性语言。你的描述必须直接而明确。使用简单、常用的语言。要具体,说明场景中每个细节是如何运动的,但不要冗长;你写下的每个词都要有用处。使用现在时,好像你的预测在你输入时正在成真。

你将输出一个段落,不包含任何额外信息,也不要使用会改变格式的特殊字符;避免用“图像序列描绘了角色……”之类的说法,直接描述发生了什么,不要说“视频……”。

根据你所用的模型或目标,你也许会发现 AmazingSeek 工作流提示提供的提示词同样好用!

技巧与故障排查

WAN 帧率:WAN 2.2 为 24 fps。若尝试 WAN 2.1,请将 fps 设为 12。模型加载节点附近有对应滑块。工作流会基于该数值自动计算帧率相关流程(倍增与重采样)。

接缝看起来不对?试试在“简单/进阶”接缝插值之间切换;在进阶模式中增加自动裁剪搜索范围;或用略微不同的提示/CFG 重新渲染。

显存不足?

  • 在 WanVideo Decode 节点降低 tile 尺寸(x 和 y)。

  • 降低放大(Upscale)的 tile 尺寸和/或批大小。

  • 减小工作尺寸或时长。

  • 启用“Use Tiled Encoder”。

致谢

  • 最初试验时,我想到在循环接缝处做插值可能解决“脏帧”问题,但真正让我决定上手的是 AmazingSeek这个工作流

  • 看起来 Ekafalain 也应在此获得一些认可,AmazingSeek 的无缝循环工作流是基于其成果之上的。

  • 虽然我最终没有直接采用他们的想法,但仍想致敬 Caravel——他们面向 WAN 2.2 14b 的多步流程非常出色,你可以在这里查看,文档水准就值得称赞。

  • 我推荐的视觉提示是基于 NRDX 的版本改写而来。你可以在他 Patreon 上找到原始工作流。他也是为多种 WAN 模型训练 LiveWallpaper LoRA 的那位!

附言 💖

如果这个工作流对你有帮助,我很想看看你的作品!我为此投入了大量精力,包括设计自定义节点把一切串起来,并尽量详细地撰写文档,以便它对你尽可能有用。

链接

  • 若想更好地了解如何用这些自定义节点搭建,或如何微调本工作流,请查看 WhiteRabbit 仓库中的节点文档与原子工作流。

  • 个人网站与社交:在 artificialsweetener.ai 查看我的艺术、诗歌及开发动态

  • 请我喝咖啡:在我的 Ko-fi 页面支持更多类似项目

本工作流献给我挚爱的 Cubby 🥰

  • 你可以在全网各处看到她的作品

  • 她在 CivitAI 上也有许多优秀的 LoRA 供你探索 :3

此模型生成的图像

未找到图像。