FramePack 已支持首尾帧 by Lvmin Zhang based Hunyuan Video - Best practices by Kijai nodes
详情
下载文件
关于此版本
模型描述
更新首尾帧及关键帧参考(已支持ComfyUI)0421
nirvash 的关键帧支持仓库(ComfyUI 无需额外权重):
nirvash/ComfyUI-FramePackWrapper
[ WEBP 格式的示例图可直接拖入ComfyUI,内含Workflow ]
[ 也可下载右侧组件包,其中 example_workflows 目录包含工作流 ]
功能
Set end frame 支持设定结束帧
Assign weighted keyframes 支持加权中间帧
Use different prompts per section 每个FramePack分别设定提示词
基于 kijai 的 ComfyUI-FramePackWrapper:
https://github.com/kijai/ComfyUI-FramePackWrapper
Pytorch Gradio Webui 上的结束帧支持:
FramePack_SE 由 TTPlanetPig 基于 lllyasviel/FramePack 开发
用图像生成模型一样玩转视频大模型!敏神&Kijai 的节点
在下一帧预测模型中打包输入帧上下文以实现视频生成
算法组:Lvmin Zhang Maneesh Agrawala
斯坦福大学
lllyasviel 的 FramePack ComfyUI 封装
最佳实践:ComfyUI 节点 kijai/ComfyUI-FramePackWrapper
本页右侧下载链接包含 BF16/FP8 safetensors 格式的模型文件及 Kijai 节点的工作流
FramePack

使用 6GB 笔记本 GPU 内存,以 30fps 全帧率通过 13B 模型扩散数千帧。
在单个 8xA100/H100 节点上以批次大小 64 微调 13B 视频模型,用于个人/实验室实验。
个人 RTX 4090 可在未优化下以 2.5 秒/帧、或启用 teacache 时以 1.5 秒/帧的速度生成。
无时间步蒸馏。
视频扩散,却如图像扩散般流畅。
敏神的 FramePack 基于 Hunyuan Video Diffuse,6GB 显存的笔记本 GPU 即可连续生成数千帧、全 fps 的 13B 模型视频。
在 8xA100/H100 服务器上以 BS64 微调 13B 视频模型,适用于个人或实验室。
个人 RTX 4090 生成速度为 2.5 秒/帧(未优化)或 1.5 秒/帧(teacache)。
无时间步蒸馏。(仅使用 CFG 蒸馏,保证高质量)
像图像扩散模型一样玩转视频大模型!
大部分功能已实现,为提升速度做了一些优化。
使用所有原生文本编码器、VAE 和 SigCLIP 模型:
https://huggingface.co/Comfy-Org/HunyuanVideo_repackaged/tree/main/split_files
https://huggingface.co/Comfy-Org/sigclip_vision_384/tree/main
变换器模型本身可自动从以下地址下载至:
ComfyUI\models\diffusers\lllyasviel\FramePackI2V_HY
https://huggingface.co/lllyasviel/FramePackI2V_HY/tree/main
或从单文件下载至 ComfyUI\models\diffusion_models:
https://huggingface.co/Kijai/HunyuanVideo_comfy/blob/main/FramePackI2V_HY_fp8_e4m3fn.safetensors
https://huggingface.co/Kijai/HunyuanVideo_comfy/blob/main/FramePackI2V_HY_bf16.safetensors
要求
请注意,本仓库是一个具备最小化独立高质量采样系统与内存管理功能的桌面软件。
请先从本仓库开始,再尝试其他方案!
lllyasviel/FramePack: 让视频扩散变得实用!
要求:
支持 fp16 与 bf16 的 NVIDIA RTX 30XX、40XX、50XX 系列 GPU(GTX 10XX/20XX 未测试)。
Linux 或 Windows 操作系统。
至少 6GB GPU 显存。
使用 13B 模型生成 30fps(1800 帧)、1 分钟(60 秒)视频,最小显存需求为 6GB。(没错,就是 6GB,非笔误,笔记本 GPU 也可运行。)
关于速度:在我的 RTX 4090 台式机上,未优化时为 2.5 秒/帧,启用 teacache 时为 1.5 秒/帧。在 3070Ti 或 3060 笔记本电脑上,速度慢 4 至 8 倍。
无论如何,由于采用下一帧(或下一节)预测机制,您将直接看到生成的帧,因此在完整视频生成前即可获得大量视觉反馈。
引用
@article{zhang2025framepack,
title={Packing Input Frame Contexts in Next-Frame Prediction Models for Video Generation},
author={Lvmin Zhang and Maneesh Agrawala},
journal={Arxiv},
year={2025}
}






