WAN2.2 S2V QuantStack - GGUF 14B Sound-to-Video

詳細

ファイルをダウンロード

モデル説明

音声から動画への変換における画期的な効率性。 この革新的なワークフローは、UNETおよびCLIPに完全に量子化されたGGUFモデルを活用することで、消費者向けハードウェア上で巨大な14BパラメータのWAN2.2 S2Vモデルを実行します。VRAM要件が劇的に削減され、本格的な音声駆動アニメーションを誰でも体験できます。CPU/GPUハイブリッド実行をサポート。


ワークフローの説明

このワークフローは、強力なWAN2.2音声から動画への変換14Bモデルへのアクセスを民主化するために設計された技術的な傑作です。ComfyUI-GGUFプラグインを活用し、UNETおよびCLIPモデルを高圧縮・量子化されたGGUF形式で読み込みます。これにより:

  • 膨大なVRAM節約: Q2_K量子化されたUNETにより、14BモデルをVRAMが8〜10GBのGPUや、能力のあるCPUシステムでも実行可能に。

  • ハイブリッド実行: GPUとCPUの間でレイヤーをシームレスにオフロードし、あらゆるハードウェア環境でパフォーマンスを最大化。

  • 完全な忠実度: 圧縮しても、音声駆動の動き、高品質な出力、プロフェッショナルなビデオエンコードを含むS2Vの全機能を維持。

14B S2Vモデルは手の届かないものだと諦めていたユーザーのための究極の解決策です。今、あなたも実行できます。


機能と技術的詳細

🧩 量子化スタック(魔法の秘訣):

  • UNET (GGUF): Wan2.2-S2V-14B-Q2_K.gguf — 動画生成のコアモデル。極めて効率的な2ビット量子化を適用。

  • CLIP (GGUF): umt5-xxl-encoder-q4_k_m.gguf — テキストエンコーダー。最適なパフォーマンスのため4ビット量子化。

  • VAE: Wan2.1_VAE.safetensors — 最高の視覚的忠実度を確保するため通常読み込み。

  • 音声エンコーダ: wav2vec2_large_english.safetensors — 入力音声をモデルに供給するためにエンコード。

🎬 コア機能:

  • 本物の音声から動画への変換: 生成されるアニメーションは、入力音声の特性に直接影響されます。

  • 自動長さ設定: 入力音声ファイルの長さに応じて、動画フレーム数(length)を自動計算。

  • スマート画像前処理: 入力画像を元のアスペクト比を保ったまま最適サイズ(0.2メガピクセル)に自動スケーリングしてアニメーションに最適化。

  • プロフェッショナル出力: VHS_VideoCombineを使用して、音声と完全に同期した最終的なMP4動画をレンダリング。

⚙️ 最適化されたパイプライン:

  • わかりやすく操作しやすいように、ノードを整理・グループ化。

  • ワークフローを整理するためにリルートノードを効率的に配置。


使い方/実行手順

前提条件(必須):

  1. ComfyUI-GGUFプラグイン: 必ず GitHubリポジトリからComfyUI-GGUFプラグインをインストールしてください。これは必須です。

  2. GGUFモデルファイル: 必要な量子化モデルをダウンロード:

    • Wan2.2-S2V-14B-Q2_K.ggufQwen 2SV\フォルダに配置)

    • umt5-xxl-encoder-q4_k_m.gguf

  3. 標準モデル: Wan2.1_VAE.safetensorswav2vec2_large_english.safetensorsが揃っていることを確認。

手順:

  1. 画像を読み込む: LoadImageノードで開始画像を選択。

  2. 音声を読み込む: LoadAudioノードで.wavまたは.mp3ファイルを選択。

  3. プロンプトを作成: Positive Promptノードでシーンを記述。ネガティブプロンプトは事前設定済み。

  4. プロンプトをキューイング: ワークフローは音声をエンコードし、量子化された14Bモデルを経由して動画を生成。

⏯️ 出力: 完成した動画は、ComfyUIのoutput/video/フォルダにMP4ファイルとして保存されます。

このモデルで生成された画像

画像が見つかりません。