LTX IMAGE to TEXT to VIDEO with STG workflow
詳細
ファイルをダウンロード
このバージョンについて
モデル説明
ワークフロー:入力画像(またはプロンプト)→ キャプション生成でテキストプロンプトに変換 → プロンプトをLTX テキストから動画に使用(これはテキストから動画へのワークフローです。画像から動画へのワークフローは他のワークフローをご覧ください)
V5.0:LTX 0.9.5 GGUFモデルおよびWavespeed/Teacache対応
LTX 0.9.5 GGUFモデルおよびVAE:https://huggingface.co/calcuis/ltxv-gguf/tree/main
(vae_ltxv0.9.5_fp8_e4m3fn.safetensors)
(Clipテキストエンコーダー):https://huggingface.co/city96/t5-v1_1-xxl-encoder-gguf/tree/main
ワークフローはFlorenceキャプションとLTXプロンプトエンハンサーをサポートし、すべてのモデル(0.9 / 0.9.1 / 0.9.5)と互換性があります。
(詳細はワークフロー内のノートを参照してください)
V4.0:GGUFモデル対応
GGUFモデル、VAE、テキストエンコーダーは以下からダウンロードできます:
(モデル&VAE):https://huggingface.co/calcuis/ltxv-gguf/tree/main
(Clipテキストエンコーダー):https://huggingface.co/city96/t5-v1_1-xxl-encoder-gguf/tree/main
(低VRAM用にGGUFバージョンとGGUF+TiledVAEバージョンを含む)
V3.1:モデル0.9.1対応
V3.0:GUI整理、カスタムノード数の削減、独自プロンプト使用機能搭載
V2.0: STG(スパティオテンポラルスキップガイダンス、強化された動画ディフュージョンサンプリング用)を導入
GUIには青色の新しいノードが2つ追加されています:
STG設定:CFG、スケール、リスケールを表示。さらに、スキップするモデルの2つの層間を切り替えるスイッチ(8または14(デフォルト))。「層14」を使用するには「true」、「層8」を使用するには「false」を選択してください。
ワークフロー内に追加情報および使用可能な値/制限をメモとしてコピーしています。自由に実験してください。私のテストでは、STG設定の値はデフォルトのまま、スイッチだけを使用しました。
ノード「Modify LTX Model」はセッション内でモデルを変更します。別のワークフローに切り替える場合は、ComfyUIで「Free model and node cache」を実行して干渉を避けてください。
V1.0: ComfyUIワークフロー:LTX 画像→テキスト→動画(Florence2キャプション使用)
このワークフローは入力画像をプロンプトに変換(キャプション生成にFlorence2を使用)し、LTX テキストから動画モデルを使用して動画を生成します(画像→プロンプト→動画)

