LTXVideo 13B 0.9.7 Distilled Workflow - T2V or I2V with optional captioning/LLM/audio gen

詳細

ファイルをダウンロード

モデル説明

新バージョン V2.1、LTXV 13B 0.9.7 Distilled 対応!

このワークフローを 0.9.7 用に更新しました。また、処理速度を向上させるためのすべての最適化ノードを追加しました。Add Details を修正し、拡張セクションを追加して全体を整理しました。さらに、動画に基づいて音声を生成するための MMAudio グループも追加しました。すべての機能に簡単なトグルスイッチと多数の備考を付けています。

いくつかのサンプラーやスケジューラーを試してみました。

以下のような組み合わせがよく動作するようです:

STG アドバンスドプリセット:カスタム

サンプラ:Euler、Euler_a、LCM

スケジューラ:Beta、Simple

最近、Simple スケジューラが動きの不自然さを大幅に滑らかにしてくれることに気づきました。

注:アップスケール時に、シグマを手動で調整する必要があります。8ステップではシグマがほとんどの時間高いままなので、最後の3つを使用してもうまくいきません。0.90 から 0.75 の間の3つの値を選択することで、うまく動作させることができます。

非常に良い組み合わせを見つけた方は、コメントをお願いします。

V1

誰かが Reddit でこれを共有していました:

https://civitai.com/articles/13699/ltxvideo-096-distilled-workflow-with-llm-prompt

私はこれを確認し、ほとんどの部分に賛成しましたが、一部の機能で最新ノードを使用しておらず、LLM に関連する問題もあったため、整理し、キャプション生成機能を追加しました。さらに、使用したくない機能を簡単に無効化できるトグルを追加しました。これにより、T2V だけ(LLM 使用または非使用)、または他の画像のキャプションテキストのみを使用するなど、柔軟な設定が可能になりました。また、I2V を完全に使用して画像のキャプションをLLMに渡すことも、キャプションやLLMなしでI2Vを使用することもできます。

キャプション生成には、NSFWコンテンツのキャプション生成に非常に優れた微調整済みモデル florence-2 を使用しています:https://huggingface.co/MiaoshouAI/Florence-2-large-PromptGen-v2.0

また、TeaCache も追加しました。9ステップのディスティルモデルではあまり効果がありませんが、30ステップのベースモデルでは約40%以上の速度向上が確認できました。

ディスティルモデルまたはベースモデルを使用する場合に、どのスケジューラ/サンプラー設定を変更すべきかについても備考を記載しています。デフォルトではベースモデル用に設定されています。

また、T5xxl FP8 は問題なく動作することを確認しました。FP16 と FP8 を比較しましたが、実際には FP8 の方が好みでした。

エクスポートスクリーンショットでテキストが折り返されない理由は不明です?:

このモデルで生成された画像

画像が見つかりません。