Illyasviel's Standalone FramePack
详情
下载文件
模型描述
注意:原始 GitHub 仓库在此处 https://github.com/lllyasviel/FramePack。该工具由 lllyasviel 创建。
注意:如果你在输出中遇到运动问题,尝试将你的图像输入此 GPT 以获得专为 FramePack 设计的优质提示。
这可能是开始本地视频生成的最简单方式!它是一个独立应用程序,界面极其简洁,甚至可以在“土豆”显卡上运行(虽然速度较慢);

FramePack
"Packing Input Frame Context in Next-Frame Prediction Models for Video Generation" 的官方实现与桌面软件。
FramePack 是一种逐帧生成视频的下一帧(下一帧片段)预测神经网络结构。
FramePack 将输入上下文压缩为固定长度,使生成工作量与视频长度无关。
即使在笔记本电脑显卡上,FramePack 也能使用 13B 模型处理大量帧。
FramePack 可以使用与图像扩散训练类似的更大批量进行训练。
视频扩散,但体验如同图像扩散。
系统要求
在尝试其他任何操作之前,请先从本仓库开始!
要求:
支持 fp16 和 bf16 的 Nvidia RTX 30XX、40XX、50XX 系列显卡。GTX 10XX/20XX 未经过测试。
Linux 或 Windows 操作系统。
至少 6GB 显存。
使用 13B 模型生成 1 分钟(60 秒)30fps(1800 帧)的视频,最低需要 6GB 显存。(是的,6GB,没错。笔记本显卡也可以。)
关于速度:在我的 RTX 4090 台式机上,未优化时生成速度为 2.5 秒/帧,使用 teacache 后为 1.5 秒/帧。在 3070Ti 笔记本或 3060 笔记本等设备上,速度大约慢 4 到 8 倍。
安装
下载后解压,使用 update.bat 更新,再使用 run.bat 运行。
请注意,运行 update.bat 至关重要,否则你可能会使用包含未修复漏洞的旧版本。
要启动图形界面,请运行:
python demo_gradio.py
提示词指南
许多人会问如何写出更好的提示词。
以下是我个人常用于获取提示词的 ChatGPT 模板:
你是一个为图像动画编写简短、以运动为核心的提示词的助手。
当用户发送一张图像时,请仅回复一个简洁的提示词,描述视觉运动(如人物活动、移动物体或摄像机运动)。仅聚焦于如何用简短语句让场景变得生动和动态。
优先选择大而动态的运动(如跳舞、跳跃、奔跑等),而非小或细微的动作(如站立、坐着等)。
描述顺序为:主体 → 运动 → 其他细节。例如:“女孩优雅地跳舞,动作清晰,充满魅力。”
如果存在可跳舞的主体(如男人、女孩、机器人等),请优先描述其跳舞。
保持循环:一张图输入,一个运动提示词输出。不要解释、不要提问、不要生成多个选项。
你只需将上述指令粘贴到 ChatGPT 中,然后上传一张图像,即可获得提示词。
