IT'S ALIVE! | Ultimate IMAGE to VIDEO suite | LTX/Cog/PyramidFlow

详情

模型描述

不需要给我发消息,我很好。谢谢 💗 更欢迎反馈。
查看旧版本以获取更多视频示例。
致谢与鸣谢见下方。


此 ComfyUI 工作流通过使用 6 个视频模型提供多种 I2V 方法:

  • LTX

  • CogVideoX-5B-1.5-I2V

  • Pyramid Flow

  • CogVideoX-Fun-v1.1-InP (2B)

  • CogVideoX-Fun-v1.1-InP (5B)

⚠️⚠️⚠️⚠️⚠️⚠️⚠️⚠️⚠️⚠️⚠️⚠️⚠️⚠️⚠️⚠️⚠️⚠️⚠️⚠️⚠️

此工作流专为快速与易用而设计,内置前端界面(控制台),集成了所有必要设置,可快速生成高质量视频,无需频繁在众多模块间切换。同时整合了我使用的多种实验性方法,需安装多个自定义节点。
因此,此工作流不推荐初学者使用。
如需更简洁的体验,请尝试压缩包中包含的 MINI 版本,它是完整工作流的简化版。

该工作流中的设置基于我对各类视频模型的实际操作经验,可能与每个模型的标准配置有所不同。


- - - | 它活了 | - - -

这是超过一个月、几乎每天持续工作的成果。
我仍在不断改进它,优化设置,并添加我通过实验发现的实用功能。

该工作流的设计宗旨是:你无需离开控制台(控制界面);

所有你需要的功能都触手可及。

部分额外微调命令可通过快捷键访问(详情见下文)。


提供多种方法,可通过滑块选择:

  • 创意模式: 此模式仅使用一张图像作为输入,模型将完全自由地生成视频,并自行决定结尾。
    *此方法适用于菜单中 所有视频模型

  • 粘性模式: 此模式使用一张图像作为输入,工作流会自动生成一个与输入图像高度相似的结束帧,但视角或面部表情略有不同(若检测到人物)。这个新图像(保留输入图像的特征)可通过“微调”部分的便捷滑块进一步调整,以确保视频整体构图保持稳定。
    *此方法目前仅适用于 COG 模型,务必在控制台中激活。

  • 缩放模式: 此模式使用一张图像作为输入,视频的结束帧是输入图像的放大版本,缩放级别可在“微调”菜单中调整。*此方法目前仅适用于 COG 模型

  • Img1Img2(自定义起止模式):此模式允许使用两张或三张图像作为输入,使模型能够在图像间生成过渡动画。特别适用于可控动画,且在 5B COG 模型上表现优异。*此方法目前仅适用于 COG 模型

  • Img1Img1:此模式使用同一张图像作为起始与结束帧,更侧重于维持输入图像的构图。*此方法目前仅适用于 COG 模型


快捷键:

你可以通过三个键盘按键快速切换所需模块:

1 = 控制台

按“1”键进入控制台,所有设置均在此集中且易于访问。

2 = 轨迹(TORA - COG)

按“2”键进入 Tora 轨迹设置。

该方法仅适用于 COG 模型。

本工作流中唯一支持 TORA 的模型是 “5BInP”,需按以下方式选择:


提供四种可组合的轨迹。
你可通过控制台中的专用滑块选择激活 1、2、3 或全部四种:


请注意:每次更改基础分辨率或输入图像后,必须重新设置所有轨迹。

3 = 微调

按“3”键进入“微调”模块。
在此可调整“粘性模式”的结束帧,使其与输入图像相似,但视角/角度或面部表情/头部姿态略有变化,从而确保最终帧与初始帧保持高度一致,同时融入细微变化。
右侧提供自动外绘功能,你可复制结果并重新粘贴为输入(需在控制台中激活外绘功能)。


切换模型时建议清理 VRAM:




### 故障排除:
控制台中出现以下错误信息完全正常:

### 最低硬件要求:

低分辨率下需 12GB VRAM。

### 渲染时间:

在 3090 显卡上,每段视频的渲染时间为 5 秒至 2 分钟或更长,具体取决于模型、分辨率和步数。

### 重要 COG 建议与示例:

- 为获得良好且一致的结果,使用“首帧/末帧”模式时,两张图像需相似(相同场景、人物、物体位置几乎一致),例如:你可以选择任意图像,但若使用两张高度相似的图像(如随机网络视频的两张截图、两个不同姿势的 3D 角色、或两张相似的 AI 生成图像)效果最佳 🙄

- 建议使用 10–15 步,数值更高可提升质量(低于此数值结果不稳定,但我也曾用 5 步获得过不错效果)。

- 快速测试时,可使用较低基础分辨率(如 320),在 3090 上大约耗时 10 秒。

- 若结果出现大量噪点,切换为“仅自定义提示词”模式,避免自动提示,简化提示词以获得更稳定一致的动画。只需写简单的描述。

(请参考工作流内附的手册)

类似“一个人摆姿势、眨眼、摄像机抖动”或关键词 晃动、地震、镜头光晕、眨眼、摄像机抖动、手持摄像机 等提示词已在本系统中测试并取得良好效果。欢迎分享你的成果!

- 若视频播放速度过快,请开启插值组并提高“额外插值倍数”,或根据工作流内手册调整 COG 设置组中的视频长度。

### 其他注意事项:

我已大量测试 Cog 模型,并将设置值从默认值调整为我认为更高效/更快的版本,至少基于我的测试结果。

欢迎自行调整设置(若发现更优参数,请务必告知我们)!

不需要给我发消息,我很好。谢谢 💗 更欢迎反馈。


*请注意:

不要混淆不同的 Cog 模型,因为它们数量众多且彼此不同。

建议你花些时间了解其他 Cog 模型的能力,目前存在一些误解,

Kijay 制作了一份电子表格帮助澄清:
https://docs.google.com/spreadsheets/d/16eA6mSL8XkTcu9fSWkPSHfRIqyAKJbR1O99xnuGdCKY/edit?gid=0#gid=0

总体而言,若你希望快速生成视频,并追求最丰富的选项(分辨率、比例、首末帧、轨迹等),我建议你使用本工作流,或至少采用本工作流所使用的模型。

由于 TORA 现已兼容此 XFUN 版本的 Cog,我已将其加入工作流中。



更新日志:

V8.0

更新内容:

  • 完全重构整个工作流 + 清理与逻辑优化。

  • 新增 3 个视频模型

  • 新增自动外绘功能

  • 新增 LivePortrait 支持

  • 创意模式现已正常工作,无需选择结束帧图像

  • 天啊,这花了我整整一周才完成


V7.0

更新内容:

  • 工作流清理,修复了若干 Bug。

V6.0

更新内容:

  • 新增 4 个 Tora 轨迹

  • 增加更多 UI 控件

  • 优化设置、添加更多提示与建议

要使用 Tora,请确保使用的是 5B 模型(提供切换按钮从 2B 切换至 5B)

然后:

  1. 在组中取消激活“让我们 Cog”

  2. 加载一张图像,运行

  3. 设置 4 条轨迹(按住 Control + 点击可将样条线拆分为多个控制点)

  4. 激活“让我们 Cog”并运行(激活“让我们 Cog”时,“延长视频”将自动开启,但请暂时禁用它,直到我搞清楚如何扩展此 Tora 模式)


V5.0

更新内容:

  • 新增扩展功能(可加载第三张图,用三张图生成视频)

  • 增加更多 UI 控件

  • 优化设置、添加更多提示与建议


V4.0

更新内容:

  • 扩展功能现已支持所有模式(首帧/末帧模式除外)

  • 改进的用户界面

+ LoRA强度滑块

+ 种子管理

+ 提示强度

+ COG帧数控制

+ 模型选择器 2B/5B

+ 负向提示

其他更改:

  • 效率提升

  • 完全重构的链式系统

  • 一些次要修复


V3.0

|更新日志|:

改进的用户界面:

  • 添加了LoRA加载器和强度滑块

  • 模型选择器 2B/5B

  • 负向提示

  • 一些工作流效率改进

其他更改:

  • 切换到更快的插值方法

  • 一些次要修复

  • 更新了用户手册


V2.0

|更新日志|:

  • 更精细的工作流

  • 更多选项

  • 简洁的用户界面

  • 添加了用户手册



特别感谢 KijaiPurz 以及 RgthreeDreamProjectVideoHelperSuite 团队,他们投入时间帮助我解决了我认为不可能完成的步骤。
我鼓励大家访问他们的页面并支持他们的项目。



📽️玩得开心📽️

此模型生成的图像

未找到图像。