Wan Img2Video MultiGPU
詳細
ファイルをダウンロード
モデル説明
非推奨:
/model/1820946/wan2214bsage-torchcompile-llm-autoprompt-workflow をご利用ください。
Wan Img2Video MultiGPUワークフローは、最先端のビデオ基礎モデルであるWan 2.1モデルを使用して、単一の画像から動画を生成するための強力かつ効率的な手法です。このワークフローは通常、ComfyUIフレームワーク内で実装され、動画生成プロセスのさまざまなコンポーネントをノードベースのインターフェースで管理できます。マルチGPUの要素は、14Bパラメータ版のような大規模なWanモデルの高い計算負荷を処理するために不可欠です。
以下に、典型的なワークフローと複数GPUの活用方法を解説します。
1. ワークフローの初期化とデータ読み込み:
プロセスは入力画像と必要なモデルを読み込むところから始まります。
主なコンポーネントには、「Load image」ノードと「Load WanVideo」ノードが含まれ、これらは画像とビデオ基礎モデルをワークフローに取り込みます。
「WanVideo Loader」と「WanVideo TextDecoder」ノードは、特定のモデル、パラメータ、および(使用する場合の)LoRAを読み込み設定するために使用されます。
2. マルチGPUによる分散処理:
パフォーマンスを最適化し、VRAMの制限を克服するため、処理負荷を複数のGPUに分散します。これがマルチGPUワークフローの真の強みです。
モデルの異なるコンポーネントを個別のGPUにオフロードできます。たとえば:
GPU 1: Wan 2.1モデルの核心である大規模なディフュージョンモデルの読み込みに専用されます。
GPU 2: ビデオ生成を導くテキストプロンプトを処理するCLIPテキストエンコーダーに使用されます。これはワークフローの重要な部分であり、大量のVRAMを消費します。
GPU 3、4 など: その他のパイプラインの部分、たとえばエンコード・デコード用のVAE(変分オートエンコーダ)や特定のサンプリング操作を処理するために追加のGPUを使用できます。
3. 動画生成プロセス:
プロンプトとパラメータの設定: ユーザーは動画の動きと内容を導くテキストプロンプトを入力します。また、
num_frames(動画の長さ)やframe_rate(フレームレート)などの主要な動画パラメータを設定します。ディフュージョン処理: 生成の核心はディフュージョンプロセスです。モデルは入力画像の潜在空間表現から開始し、テキストプロンプトに従って時間的な情報を段階的に追加します。これは非常に並列化可能なタスクであり、複数のGPUを使用することで、このプロセスの異なる部分を同時に処理できます。
時間的・空間的整合性: Wan 2.1は、ビデオ生成用に特化した新しい3D因果VAEアーキテクチャを採用しています。これは空間・時間情報を効率的に圧縮し、フレーム間の一貫性を保ちつつ、微細な詳細を保持します。
動画合成: ディフュージョンプロセスが完了すると、最終フレームは潜在空間から合成され、動画としてデコードされます。
4. マルチGPUアプローチの主な利点:
VRAM制限の克服: 大規模なWan 2.1モデル(例:14Bパラメータ)は、非常に大きなVRAM(20GB以上)を必要とします。モデルのコンポーネントを複数のGPUに分配することで、単一GPUでは処理できないシステムでもこれらのモデルを実行可能にします。
高速な推論: 処理負荷を並列化することで、マルチGPUワークフローは動画生成にかかる時間を大幅に短縮します。これは高解像度・長尺動画において特に重要です。
品質の向上: 大規模モデルや高解像度の使用がより現実的になり、より高品質で詳細かつ安定した動画出力が可能になります。

