LTX IMAGE to TEXT to VIDEO with STG workflow

詳細

ファイルをダウンロード

モデル説明

ワークフロー:入力画像(またはプロンプト)→ キャプション生成でテキストプロンプトに変換 → プロンプトをLTX テキストから動画に使用(これはテキストから動画へのワークフローです。画像から動画へのワークフローは他のワークフローをご覧ください)


V5.0:LTX 0.9.5 GGUFモデルおよびWavespeed/Teacache対応

LTX 0.9.5 GGUFモデルおよびVAE:https://huggingface.co/calcuis/ltxv-gguf/tree/main

(vae_ltxv0.9.5_fp8_e4m3fn.safetensors)

(Clipテキストエンコーダー):https://huggingface.co/city96/t5-v1_1-xxl-encoder-gguf/tree/main

ワークフローはFlorenceキャプションとLTXプロンプトエンハンサーをサポートし、すべてのモデル(0.9 / 0.9.1 / 0.9.5)と互換性があります。

(詳細はワークフロー内のノートを参照してください)


V4.0:GGUFモデル対応

GGUFモデル、VAE、テキストエンコーダーは以下からダウンロードできます:

(モデル&VAE):https://huggingface.co/calcuis/ltxv-gguf/tree/main

(Clipテキストエンコーダー):https://huggingface.co/city96/t5-v1_1-xxl-encoder-gguf/tree/main

(低VRAM用にGGUFバージョンとGGUF+TiledVAEバージョンを含む)


V3.1:モデル0.9.1対応


V3.0:GUI整理、カスタムノード数の削減、独自プロンプト使用機能搭載


V2.0: STG(スパティオテンポラルスキップガイダンス、強化された動画ディフュージョンサンプリング用)を導入

GUIには青色の新しいノードが2つ追加されています:

STG設定:CFG、スケール、リスケールを表示。さらに、スキップするモデルの2つの層間を切り替えるスイッチ(8または14(デフォルト))。「層14」を使用するには「true」、「層8」を使用するには「false」を選択してください。

ワークフロー内に追加情報および使用可能な値/制限をメモとしてコピーしています。自由に実験してください。私のテストでは、STG設定の値はデフォルトのまま、スイッチだけを使用しました。

ノード「Modify LTX Model」はセッション内でモデルを変更します。別のワークフローに切り替える場合は、ComfyUIで「Free model and node cache」を実行して干渉を避けてください。


V1.0: ComfyUIワークフロー:LTX 画像テキスト動画(Florence2キャプション使用)

このワークフローは入力画像をプロンプトに変換(キャプション生成にFlorence2を使用)し、LTX テキストから動画モデルを使用して動画を生成します(画像→プロンプト→動画)

このモデルで生成された画像

画像が見つかりません。