FramePack 已支持首尾帧 by Lvmin Zhang based Hunyuan Video - Best practices by Kijai nodes

詳細

モデル説明

更新首尾フレームおよびキーフレームの参照(ComfyUI対応済み)0421

nirvashによるキーフレーム対応リポジトリ(ComfyUIは追加の重み不要):

nirvash/ComfyUI-FramePackWrapper

[ WEBP形式の例画像はComfyUIに直接ドラッグアンドドロップ可能で、Workflowを含みます ]

[ 右側のコンポーネントパックをダウンロードすることもでき、そのexample_workflowsディレクトリにワークフローが含まれています ]

機能

  • Set end frame:終了フレームの設定に対応

  • Assign weighted keyframes:重み付き中間フレームの設定に対応

  • Use different prompts per section:各FramePackごとに異なるプロンプトを設定可能

kijaiのComfyUI-FramePackWrapperをベースに:

https://github.com/kijai/ComfyUI-FramePackWrapper


Pytorch Gradio WebUIでのEnd Frame対応:

FramePack_SE by TTPlanetPiglllyasviel/FramePackをベースに


画像生成モデルと同じ感覚で動画大モデルを活用!敏神Kijaiのノード

動画生成のためのNext-Frame予測モデルへの入力フレームコンテキストのパッキング

アルゴリズムチーム:Lvmin ZhangManeesh Agrawala

スタンフォード大学

論文コード

lllyasvielによるFramePackのComfyUIラッパー

ベストプラクティス:ComfyUIノード kijai/ComfyUI-FramePackWrapper

このページの右側のダウンロードリンクには、BF16/FP8 safetensors形式のモデルファイルとKijaiノードのワークフローが含まれています

FramePack

  • 6GBのラップトップGPUメモリで、13Bモデルを用いてフルfps-30で数千フレームを拡散可能。

  • 単一の8xA100/H100ノードで、バッチサイズ64で13B動画モデルを微調整し、個人/研究室実験に利用可能。

  • 個人用RTX 4090では、未最適化で2.5秒/フレーム、teacacheで1.5秒/フレームの速度で生成。

  • タイムステップディスティレーションは不要。

  • 動画拡散だが、画像拡散のように感じられる。

  • 敏神のFramePackはHunyuan Video Diffuseをベースに構築され、6GBのGPUメモリを持つラップトップでも13Bモデルでフルfpsで数千フレームの動画を連続生成可能。

  • 8xA100/H100サーバーでバッチサイズ64で13B動画モデルを微調整し、個人または研究室で利用可能。

  • 個人用RTX 4090では、未最適化で2.5秒/フレーム、teacacheで1.5秒/フレームの速度で生成。

  • タイムステップディスティレーションは不要(CFGディスティレーションのみ、高画質)。

  • 画像拡散モデルと同じ感覚で動画大モデルを操作可能!

動作は主に問題ありませんが、高速化のため一部の処理を工夫しています。

テキストエンコーダー、VAE、SigCLIPにはすべてネイティブモデルを使用:

https://huggingface.co/Comfy-Org/HunyuanVideo_repackaged/tree/main/split_files

https://huggingface.co/Comfy-Org/sigclip_vision_384/tree/main

トランスフォーマーモデル自体は以下から自動ダウンロードされます:

https://huggingface.co/lllyasviel/FramePackI2V_HY/tree/main

ComfyUI\models\diffusers\lllyasviel\FramePackI2V_HY

または、単一ファイル形式でComfyUI\models\diffusion_modelsに配置:

https://huggingface.co/Kijai/HunyuanVideo_comfy/blob/main/FramePackI2V_HY_fp8_e4m3fn.safetensors
https://huggingface.co/Kijai/HunyuanVideo_comfy/blob/main/FramePackI2V_HY_bf16.safetensors

要件

このリポジトリは、最小限のスタンドアロン高品質サンプリングシステムとメモリ管理を備えた機能的なデスクトップソフトウェアです。

他の試みをする前に、まずこのリポジトリから始めましょう!

lllyasviel/FramePack: 動画拡散を実用的にしましょう!

要件:

  • fp16およびbf16をサポートするNvidia GPU(RTX 30XX、40XX、50XXシリーズ)。GTX 10XX/20XXは未検証。

  • LinuxまたはWindowsオペレーティングシステム。

  • 最低6GBのGPUメモリ。

13Bモデルで30fps(1800フレーム)の1分動画を生成するには、最低6GBのGPUメモリが必要です。(はい、6GBです。誤りではありません。ラップトップGPUでも問題ありません。)

速度に関して、私のRTX 4090デスクトップでは、未最適化で2.5秒/フレーム、teacacheで1.5秒/フレームの速度で生成されます。3070Tiまたは3060のラップトップでは、約4〜8倍遅くなります。

いずれにせよ、次フレーム(次セクション)予測のため、生成されたフレームを直接確認できます。そのため、動画全体が生成される前に、多数のビジュアルフィードバックを得ることができます。

引用

@article{zhang2025framepack,
    title={Packing Input Frame Contexts in Next-Frame Prediction Models for Video Generation},
    author={Lvmin Zhang and Maneesh Agrawala},
    journal={Arxiv},
    year={2025}
}

Kijaiのモデルリポジトリ

Kijai/HunyuanVideo_comfy · Hugging Face

このモデルで生成された画像

画像が見つかりません。