WAN 2.2 14B Multi-Phase I2V/T2V Workflow

詳細

ファイルをダウンロード

モデル説明

WAN 2.2 14B マルチフェーズ I2V/T2V ワークフロー:プロフェッショナルな動画生成を簡単に

同じ最適化されたアーキテクチャで画像から動画への生成とテキストから動画への生成を両方サポート

ハードウェアの制限を突破

より長く、高品質なAI動画を作りたいと思ったことはありませんか?でもメモリエラーに悩まされてきましたか?このワークフローは、動画生成を4つの独立したフェーズに分割することで、リレー走のように各フェーズが順次処理し、自らの役割を終えたら次のフェーズにバトンを渡すことでこの問題を解決します。

新機能: このワークフローには、カスタム構築されたWanSettingsControllerノードが含まれており、解像度やアスペクト比を変更する際に数十のノードを手動で更新する面倒な作業をなくし、すべての動画設定を1か所で集中管理できます。

このワークフローの特徴

ダブルモード:画像から動画へ および テキストから動画へ

このワークフローは、**I2V(画像から動画)とT2V(テキストから動画)**の両方の生成を処理するように設計されています:

画像から動画モード — 入力画像を読み込み、ワークフローは4つの精緻化フェーズを通じて動画をアニメーション化し、動きを追加し、解像度をアップスケールし、フレームを補間します。すべての4フェーズがシームレスに連携し、各フェーズが前のフェーズの成果を基に進化します。

テキストから動画モード — **CR Image Input Switch(4方向)**ノードを使用して画像入力を無効にし、ワークフローをテキストプロンプトのみで動画生成に専念させます。このとき、WildcardPromptFromStringノードが極めて重要になります。T2Vの品質はプロンプト次第であり、ワイルドカードを使用することで、大量のバッチ生成において多様で高品質なバリエーションを生み出すことができます。

重要なT2V制限: I2Vモードではフェーズが動画を拡張または強化できますが、T2Vでは複数フェーズの使用はうまく機能しません。各フェーズはテキストプロンプトから新しいシーンを生成するため、前の生成を継続せず、視覚的な連続性が途切れます。T2V生成の場合は、通常フェーズ1のみを使用し、Fast Groups Bypasserを使用してフェーズ2~4を無効化することをお勧めします。

同じメモリ管理とバッチ処理機能が両モードで同等に機能します。30本以上のT2V生成を一晩中安定して実行できます。

マルチフェーズアーキテクチャ:少ないリソースでより多くの成果を

ほとんどのシステムでクラッシュしてしまうような巨大な単一操作で動画全体を生成するのではなく、このワークフローは4つの独立した動画生成フェーズからなるスマートなフェーズベースのアプローチを採用しています:

4フェーズシステム — 各フェーズはWAN動画生成サイクルを完全に実行します。これによりワークフローは:

  • 複数の生成サイクルを連鎖させることで、より長い動画を生成可能
  • 管理可能なサイズに分割して処理することでVRAM制限を克服
  • フェーズ間でメモリをクリアし、バッチ処理中のクラッシュを防止

動作原理: 各WanImageToVideoノードは動画の一部を生成します。1フェーズの出力が次のフェーズにフィードされ、単一生成では実現できない長さの動画を構築できます。各フェーズの間でRAMクリーナーとモデルアンローダーがメモリを解放し、次の生成サイクルに備えます。

実際の生産利用例:

  • 1フェーズ = クイックな単一生成、T2Vワークフロー(約6~8秒)
  • 2フェーズ = 標準的な生産向け最適ポイント(約12秒、ライトニングモデルで約15~20分)
  • 3~4フェーズ = 長めのショーケース動画(約20~34秒、生成時間が延長)

日常の生産作業では、効率とスピードを重視して1~2フェーズを使用します。ライトニングモデルで2フェーズを使用すると、1時間あたり約3本の12秒動画を生成でき、一晩のバッチ処理で30~50本以上の動画を生成可能です。3~4フェーズの機能は、特別なプロジェクトでより長いコンテンツが必要な場合に使用できます。

独立性の力: 各フェーズはFast Groups Bypasserノードを使用して個別またはグループで無効化できます。単純なクイック生成が必要ならフェーズ1のみ使用。より長い動画を生成したいなら複数フェーズを有効化。このモジュール設計により、不要な処理時間やリソースを浪費することなく、必要な機能だけを正確に調整できます。

注: このフェーズの柔軟性は、フェーズが互いに積み重なるI2Vワークフローで特に強力です。一方、T2Vワークフローでは、各フェーズが新規シーンを生成するため、通常フェーズ1のみを使用します。

メモリ管理:隠された鍵

このワークフローは、戦略的なタイミングで積極的なRAMおよびVRAMのクリーニングを実装しています:

RAMクリーナー(SoftFullCleanRAMAndVRAM) — フェーズ間でシステムメモリをクリアし、バッチ処理の最終段階でクラッシュを引き起こす慢性的なメモリの蓄積を防ぎます。これらのノードは、各フェーズをクリーンな状態で開始できるようにします。

モデルアンローダー(SoftModelUnloader) — 必要なくなったモデルをVRAMから積極的に削除します。一晩中大規模なバッチ処理を実行するには、ビデオメモリの枯渇を防ぐために不可欠です。

実行順序コントローラー(ImpactExecutionOrderController) — クリーニングが正確なタイミングで行われるように、1フェーズを完全に終了した後にのみ次のフェーズに進むようワークフローを強制します。

トレードオフ: これらのクリーニングノードは、各生成サイクルに若干の時間を追加します。次のバッチの開始時には、モデルをディスクから再読み込みする必要があるからです。しかし、これは戦略的なトレードオフです。1本の動画あたり数秒の追加時間を費やしてモデルを再読み込みするほうが、メモリ不足でバッチ処理が15本目でクラッシュするよりはるかに優れています。一晩で30本以上の動画を生成する場合、信頼性は処理速度よりも常に優先されます。

これらを組み合わせることで、メモリが満杯になってクラッシュすることなく、単一バッチで数十本、さらには数百本の動画を処理できるシステムが構築されます。これは、コンピュータを常に監視する必要がある状態と、朝起きたらすべての作業が完了している状態の違いです。

LoRA管理システム

LoRAローダー(LoraManager) — 適用されたLoRA、その強度、トリガーワードを追跡する洗練されたLoRAローディングシステムです。単にLoRAを読み込むだけでなく、賢く管理します。

デバッグメタデータ(LoraManager) — Civitaiおよび他のプラットフォームと互換性のあるメタデータにすべてのLoRA情報を記録します。動画をアップロードしたとき、誰でも使用したLoRAを正確に確認できます。

トリガーワードトグル — プロンプトを編集することなく、LoRAトリガーワードを簡単に有効/無効化でき、素早くA/Bテストが可能です。

中央制御:WanSettingsController(カスタムノード)

WanSettingsControllerは、このワークフロー専用にカスタム構築されたノードです。複雑な動画ワークフローにおける最大の課題の1つ、数十の接続ノードに設定を変更する作業を解決します。

解決する問題: 伝統的なワークフローでは、動画解像度を変更するには、キャンバス上を探索して幅/高さ/フレーム設定が必要なすべてのノードを見つけ、一つずつ手動で更新しなければなりません。1つでも見落とせばワークフローが破綻します。アスペクト比を変更したい?また一から探索を始めなければなりません。

解決策: このカスタムコントローラーはあなたの指揮センターです。数十のノードを探し回ることなく、1つのドロップダウンメニューを調整するだけで、ワークフロー全体が自動的に更新されます。

主な機能:

  • 24の事前検証済み解像度 — モバイル対応の576×1024(縦)からシネマ品質の1920×1080(横)まで、すべてWAN 2.2 14Bと互換性が確認されています。
  • 寸法ロック — すべての解像度はWANの技術的要件である16の倍数に数学的にロックされているため、無効な設定でワークフローを破壊することはありません。
  • アスペクト比ラベル — 各解像度には明確にアスペクト比(9:16、16:9、1:1など)が表示され、正確な出力内容がわかります。
  • 最適化されたデフォルト — 品質とパフォーマンスのバランスが最適な960×1216(10:16)解像度がデフォルトとして設定されています。
  • 5つの出力、1つのソース — 幅、高さ、長さ(フレーム数)、フレームレート、バッチサイズのすべてがこの1つのノードから必要な場所に自動的に配信されます。

実際の影響: アスペクト比を1秒で変更。ワークフローを再接続せずにさまざまな解像度をテスト。1つのドロップダウンで縦から横へスケール。

これは単なる利便性ではなく、生産規模でのテストと反復を実現可能にするものです。1日に50本以上の動画を生成する場合、このノードは数時間のワークフロー管理時間を節約します。

ノードタイプの解説(構成要素)

カスタムワークフロー制御

WanSettingsControllerこのノードはこのワークフロー専用にカスタム構築されました。 24の事前検証済みWAN互換解像度を1か所に集中管理します。コントロールパネルに散らばった十数のノブを1つのマスターダイアルに置き換えるようなものです。解像度のドロップダウンを変更すると、幅、高さ、長さ、フレームレート、バッチサイズの出力がワークフロー全体に自動的に更新されます。これにより、複数のノードで設定を手動で更新する面倒でミスの起きやすい作業がなくなります。このノードには、縦向き(576×1024~1080×1920)、正方形(768×768、1024×1024)、横向き(832×480~1920×1080)のすべての解像度が含まれており、すべてWAN 2.2 14Bと互換性があり、16ピクセルの倍数にロックされています。この1つの革新により、ワークフローの反復が面倒な作業から1クリックで実現可能になります。

コア処理ノード

KSamplerAdvanced(8インスタンス) — ディフュージョンモデルを使用して画像および動画フレームを実際に生成する主力ノードです。これらのノードはAIの創造プロセスを担い、ノイズを段階的に整合性のあるビジュアルに洗練します。

WanImageToVideo(4インスタンス) — WAN 2.2 14Bモデルを使用して画像を動画に変換する専用ノードです。各インスタンスが動画生成パイプラインの1フェーズを担当します。

VAEDecode(4インスタンス) — AIが扱う圧縮形式(潜在空間表現)を、実際に見えるピクセルに変換します。すべての画像はVAEを通って表示可能になります。

動画作成とエクスポート

CreateVideo(5インスタンス) — 個々のフレームをビデオファイルに組み立て、フレームレート、コーデック、タイミングを処理します。

SaveVideo(5インスタンス) — 適切な名前付けとメタデータで完成した動画をドライブに保存します。

RIFE VFI — 光学フロー推定を使用してスムーズな中間フレームを作成し、有効なフレームレートを2倍(またはそれ以上)に増加させるフレーム補間エンジンです。

ワークフロー整理

ReroutePrimitive|pysssss(46インスタンス) — 電気配線の接続ボックスのようなものです。キャンバス全体をスパゲッティケーブルで覆うことなく、離れたノード同士を接続できます。複雑なワークフローを読みやすく保つために不可欠です。

Fast Groups Bypasser(rgthree) — フェーズ制御パネルです。この1つのノードで、複数のノードグループを有効/無効にでき、特定のフェーズをテストしたり不要な処理をスキップしたりするのが簡単になります。

Power Primitive(rgthree) — 複数の入力に同時に値を送信できるよりスマートなプリミティブノードで、整理を簡素化します。

ImpactExecutionOrderController(4インスタンス) — 特定の実行順序を強制し、メモリのクリーニングがフェーズ間で正確に実行されるようにします。

画像処理

ImageScale — 品質を保ったまま画像をリサイズし、アップスケーリングフェーズで使用されます。

ImageFromBatch — バッチ処理から個々の画像を抽出し、プレビューと品質チェックに役立ちます。

ImageBatchMulti(3インスタンス) — 複数の画像を1つのバッチにまとめ、効率的な処理を可能にします。

CR Image Input Switch(4方向) — 4つの異なる入力画像の切り替え、またはテキストから動画生成のために画像入力を完全に無効にするための重要なルータです。これはI2V/T2Vモードのセレクターです。純粋なT2Vが必要な場合、このノードは画像入力を遮断し、モデルにプロンプトのみで生成させます。モード切り替えに配線を変更する必要はありません。

PreviewImage(3インスタンス) — 生成中に画像を表示し、最終出力を待たずに進行状況をモニタリングできます。

テキストとプロンプト処理

CLIPTextEncode(2インスタンス) — テキストの説明をAIが理解できる数学的フォーマット(埋め込み)に変換します。

Power Prompt - Simple(rgthree) — より優れたフォーマットと整理オプションを備えた強化されたプロンプトノードです。

WildcardPromptFromStringT2V生成に不可欠。 {adjective}{action}{lighting}などのワイルドカードを使用してプロンプトのランダム化を可能にし、大量のバッチで多様なバリエーションを生成できます。テキストから動画モードでは、プロンプトの品質がすべてです。中途半端なプロンプトは中途半端な結果を生みますが、戦略的にワイルドカードを組み合わせた洗練されたプロンプトは、実用的で魅力的な動画を生み出します。このノードは、バッチの多様性を確保するための隠し兵器です。30本の同じ動画を生成するのではなく、異なる記述要素をランダムに組み合わせて30本のユニークなバリエーションを生成します。T2Vワークフローでの品質と多様性を維持するために不可欠です。

JoinStringMulti — 複数のテキスト文字列を1つに結合し、モジュール化された部品から複雑なプロンプトを構築するのに役立ちます。

モデルローディング

UNETLoader(2インスタンス) — WAN 2.2 14Bモデルのコンポーネントを読み込みます。WAN 14Bは、動画生成中に連携する2つの別々のモデル(「high」と「low」)を必要とします。この2つのUNETローダーは、WANワークフローに必要な両方のモデルコンポーネントを読み込みます。

CLIPLoader - AIが理解できる概念に言葉を変換するテキストエンコーダを読み込みます。

VAELoader - 潜在空間とピクセル空間の間で変換を行うVAE(変分オートエンコーダ)を読み込みます。

CLIPSetLastLayer - テキストエンコーダで使用するレイヤー数を制御し、AIがプロンプトをどの程度文字通り解釈するかを微調整できます。

ModelSamplingSD3(2インスタンス) - Stable Diffusion 3アーキテクチャモデルのサンプリング動作を設定し、生成品質と特性を制御します。

ユーティリティノード

MathExpression|pysssss(3インスタンス) - ワークフロー内の値に対して計算を実行し、フレーム数の動的調整、解像度のスケーリング、パラメータの調整に役立ちます。

VHS_GetImageCount(3インスタンス) - 動画シーケンスのフレーム数をカウントし、フェーズの同期とバッチ処理に不可欠です。

アクティブなフェーズ数 - 必須の制御ノードで、実際に使用するフェーズ数(1〜4)に正確に設定する必要があります。フェーズ1のみ使用している場合は1に、フェーズ1〜3を使用している場合は3に設定してください。このノードはワークフローの実行を調整し、Fast Groups Bypasserの設定と一致させる必要があります。正しく設定しないとワークフローにエラーが発生します。

MarkdownNote - ワークフローの各セクションの機能についてメモを書けるドキュメントノードです。複雑な設定に不可欠です。

ShowText|pysssss - デバッグおよび設定が正しいことを確認するために、テキスト値を表示します。

SaveImageWithMetaData - 生成パラメータを画像に埋め込んで保存し、いつでも結果を再現できます。

メモリ管理(重要!)

SoftFullCleanRAMAndVRAM|LP(2インスタンス) - システムRAMとGPU VRAMを積極的に解放し、バッチ処理中のメモリ蓄積を防ぎます。はい、これにより各新規生成の開始時にモデルを再読み込みするのに数秒かかりますが、信頼性のための代償です。これらのクリーナーがないと、30本以上の動画を一晩で処理する途中でクラッシュしてしまう可能性があります。

SoftModelUnloader|LP - 必要がなくなったモデルをVRAMから削除し、次のフェーズ用のスペースを空けます。モデルの再読み込み時間は、クラッシュしてバッチを再開するのに失う何時間もの時間に比べれば無視できるレベルです。

全体像:すべてがどのように連携するか

このワークフローを工場の生産ラインに例えてみてください:

  1. 原材料が入る(WanSettingsControllerからの入力画像/プロンプトと設定)

  2. ステーション1(フェーズ1) が完全な動画生成サイクルを実行

  3. 清掃チーム が作業スペースを掃除(RAM/VRAMのクリーンアップ)

  4. ステーション2(フェーズ2) がもう一度動画生成サイクルを実行(オプション:無効化可能)

  5. 清掃チーム が再び作業スペースを掃除

  6. ステーション3(フェーズ3) がもう一度生成サイクルを実行(オプション:無効化可能)

  7. 最終清掃

  8. ステーション4(フェーズ4) が最終的な生成サイクルを実行(オプション:無効化可能)

  9. 品質管理(プレビューノードで結果を確認)

  10. 出荷(SaveVideoが最終ファイルを書き出し)

各ステーションは独立して完全なWAN生成サイクルを実行します。不要なステーションはFast Groups Bypasserで無効化できます。複数の製品(バッチ処理)を実行する場合、清掃チームが生成間の作業スペースを常に整理し続けます。

なぜこれが重要なのか

初心者向け:複雑な処理を裏で自動管理するプロフェッショナルなワークフローが手に入ります。1つの設定を変更するだけで信頼できる結果が得られます。まずは1〜2フェーズから始めて、すぐに成果を得ましょう。

熟練者向け:各フェーズを細かく制御でき、不要な部分を無効化し、クラッシュせずに大規模なバッチ処理が可能です。用途に応じて最適化できます:大量生産向けの12秒動画や、品質が求められる長尺作品など。

すべてのユーザー向け:より長い動画、より高い解像度、より滑らかな動きを実現し、メモリ不足に悩まされることなく一晩中処理を実行できます。ライトニングモデルを使用した場合、2フェーズで約1時間に3本の12秒動画が生成でき、一晩で30〜50本以上の動画をバッチ処理可能です。

このワークフローは、数ヶ月にわたる最適化、テスト、問題解決の成果を、「ただ動く」システムとして凝縮したものです。SNS向けコンテンツの作成、LoRAのテスト、AI動画生成の限界を広げるどんな用途にも、効率的かつ信頼性高く対応できるツールを提供します。

技術的要件

  • WAN 2.2 14BモデルをサポートするComfyUI

  • WAN 2.2 14Bモデル:「high」と「low」の両方のモデルファイルが必要です(WAN 14Bは2モデルシステムです)

  • VRAM:基本動作に最低12GB、高解像度には16GB以上推奨

  • RAM:バッチ処理には32GB以上推奨

  • 必要なカスタムノード

    • ComfyUI-Impact-Pack(実行コントローラ用)

    • ComfyUI-Custom-Scripts(数式処理用)

    • rgthree-comfy(パワーノードおよびバイパス用)

    • LitePicker/ComfyUI-MemoryManagement(RAM/VRAMクリーナー用)

    • LoraManagerノード

    • WAN Settings Controller(カスタムノード—このワークフローに同梱!)

    • RIFE VFIノード

    • Video Helpers Suite

使い方の開始

WAN Settings Controller(カスタムノード)のインストール

カスタムノードWanSettingsControllerwan_settings_controller.pyとして同梱されています。インストール方法:

  1. wan_settings_controller.pyComfyUI/custom_nodes/ディレクトリにコピー

  2. ComfyUIを再起動

  3. ノードがvideo/settingsカテゴリに表示されます

これで完了! このノードは、24種の検証済み解像度を内蔵しており、基本的なComfyUI以外に依存しません。

ワークフローの実行

画像から動画への変換(I2V)の場合:

  1. 必要なすべてのカスタムノードをインストール(上記技術的要件参照)

  2. WanSettingsControllerカスタムノードをインストール

  3. ComfyUIでワークフローを読み込む

  4. WanSettingsControllerのドロップダウンで希望の解像度を選択

  5. 「アクティブなフェーズ数」ノードを、実際に使用するフェーズ数(1〜4)に設定

    • フェーズ1のみ使用する場合:1に設定

    • フェーズ1〜3を使用する場合:3に設定

    • この設定は、Fast Groups Bypasserで有効化したフェーズと一致させる必要があります

  6. CR Image Input Switchを使用して入力画像を読み込む

  7. Fast Groups Bypasserで必要に応じてフェーズを有効/無効化

  8. キューに追加して実行!

テキストから動画への変換(T2V)の場合:

  1. 上記ステップ1〜4を実行

  2. 「アクティブなフェーズ数」ノードを1に設定(T2Vはフェーズ1のみ使用)

  3. CR Image Input Switchを使用して画像入力を無効化

  4. Fast Groups Bypasserでフェーズ2〜4を無効化

    • 各フェーズはプロンプトから新しいシーンを生成し、連続性を破壊します

    • T2V生成にはフェーズ1のみ使用してください

  5. WildcardPromptFromStringノードでプロンプトを作成

    • 変化をもたらすワイルドカードを使用:{lighting|golden hour|dramatic shadows|soft diffused}

    • モジュール式プロンプトを作成:{subject} in {location}, {camera angle}, {mood}

    • 注意:T2Vの品質はプロンプトの質に大きく依存します。ここに時間をかけてください

  6. バッチをキューに追加し、結果を確認

T2Vのプロのヒント:フェーズ1のみを使用するため、マルチフェーズI2Vよりもはるかに高速です。これはT2Vを迅速な反復とテストに最適化します。ワイルドカードを調整してから、大規模なバッチ処理に拡張できます。

このワークフローは、メモリ管理、フェーズの調整、高品質動画の生成を自動で処理し、常時監視を必要としません。


このワークフローは学習と本番の両方を目的として設計されています。フェーズ間の連携を学び、異なるセクションを無効化して実験し、準備ができたらバッチ処理に拡張してください。モジュール設計により、一度に1つの部分を理解しながら、初日から完全に動作するシステムを利用できます。

このモデルで生成された画像

画像が見つかりません。