FramePack 已支持首尾帧 by Lvmin Zhang based Hunyuan Video - Best practices by Kijai nodes

详情

模型描述

更新首尾帧关键帧参考(已支持ComfyUI0421

nirvash关键帧支持仓库(ComfyUI 无需额外权重):

nirvash/ComfyUI-FramePackWrapper

[ WEBP 格式的示例图可直接拖入ComfyUI,内含Workflow ]

[ 也可下载右侧组件包,其中 example_workflows 目录包含工作流 ]

功能

  • Set end frame 支持设定结束帧

  • Assign weighted keyframes 支持加权中间帧

  • Use different prompts per section 每个FramePack分别设定提示词

基于 kijai 的 ComfyUI-FramePackWrapper:

https://github.com/kijai/ComfyUI-FramePackWrapper


Pytorch Gradio Webui 上的结束帧支持

FramePack_SETTPlanetPig 基于 lllyasviel/FramePack 开发


用图像生成模型一样玩转视频大模型敏神&Kijai 的节点

在下一帧预测模型中打包输入帧上下文以实现视频生成

算法组:Lvmin Zhang Maneesh Agrawala

斯坦福大学

论文 代码

lllyasviel 的 FramePack ComfyUI 封装

最佳实践:ComfyUI 节点 kijai/ComfyUI-FramePackWrapper

本页右侧下载链接包含 BF16/FP8 safetensors 格式的模型文件及 Kijai 节点的工作流

FramePack

  • 使用 6GB 笔记本 GPU 内存,以 30fps 全帧率通过 13B 模型扩散数千帧。

  • 在单个 8xA100/H100 节点上以批次大小 64 微调 13B 视频模型,用于个人/实验室实验。

  • 个人 RTX 4090 可在未优化下以 2.5 秒/帧、或启用 teacache 时以 1.5 秒/帧的速度生成。

  • 无时间步蒸馏。

  • 视频扩散,却如图像扩散般流畅。

  • 敏神的 FramePack 基于 Hunyuan Video Diffuse,6GB 显存的笔记本 GPU 即可连续生成数千帧、全 fps 的 13B 模型视频。

  • 在 8xA100/H100 服务器上以 BS64 微调 13B 视频模型,适用于个人或实验室。

  • 个人 RTX 4090 生成速度为 2.5 秒/帧(未优化)或 1.5 秒/帧(teacache)。

  • 无时间步蒸馏。(仅使用 CFG 蒸馏,保证高质量)

  • 像图像扩散模型一样玩转视频大模型!

大部分功能已实现,为提升速度做了一些优化。

使用所有原生文本编码器、VAE 和 SigCLIP 模型:

https://huggingface.co/Comfy-Org/HunyuanVideo_repackaged/tree/main/split_files

https://huggingface.co/Comfy-Org/sigclip_vision_384/tree/main

变换器模型本身可自动从以下地址下载至:

ComfyUI\models\diffusers\lllyasviel\FramePackI2V_HY

https://huggingface.co/lllyasviel/FramePackI2V_HY/tree/main

或从单文件下载至 ComfyUI\models\diffusion_models

https://huggingface.co/Kijai/HunyuanVideo_comfy/blob/main/FramePackI2V_HY_fp8_e4m3fn.safetensors
https://huggingface.co/Kijai/HunyuanVideo_comfy/blob/main/FramePackI2V_HY_bf16.safetensors

要求

请注意,本仓库是一个具备最小化独立高质量采样系统与内存管理功能的桌面软件。

请先从本仓库开始,再尝试其他方案!

lllyasviel/FramePack: 让视频扩散变得实用!

要求:

  • 支持 fp16 与 bf16 的 NVIDIA RTX 30XX、40XX、50XX 系列 GPU(GTX 10XX/20XX 未测试)。

  • Linux 或 Windows 操作系统。

  • 至少 6GB GPU 显存。

使用 13B 模型生成 30fps(1800 帧)、1 分钟(60 秒)视频,最小显存需求为 6GB。(没错,就是 6GB,非笔误,笔记本 GPU 也可运行。)

关于速度:在我的 RTX 4090 台式机上,未优化时为 2.5 秒/帧,启用 teacache 时为 1.5 秒/帧。在 3070Ti 或 3060 笔记本电脑上,速度慢 4 至 8 倍。

无论如何,由于采用下一帧(或下一节)预测机制,您将直接看到生成的帧,因此在完整视频生成前即可获得大量视觉反馈。

引用

@article{zhang2025framepack,
    title={Packing Input Frame Contexts in Next-Frame Prediction Models for Video Generation},
    author={Lvmin Zhang and Maneesh Agrawala},
    journal={Arxiv},
    year={2025}
}

Kijai 的模型仓库

Kijai/HunyuanVideo_comfy · Hugging Face

此模型生成的图像

未找到图像。