Motion Forge: Wan2.2 S2V - High-Motion & Long-Format Workflow 4 Steps
詳細
ファイルをダウンロード
モデル説明
RES4LYF !!!! をインストール
Wan2.2-S2V-14B モデルを使用し、わずか4回のサンプリングステップで、顕著な動きを伴う長くダイナミックな動画を生成するために最適化された ComfyUI ワークフローです。
このワークフローは「Motion Forge」シリーズの次世代バージョンであり、効率性と長さの境界をさらに押し広げます。複雑なチェーン機構を利用して、単一のリファレンス画像とオーディオファイルから、高品質で一貫性のある動きを保ちながら、はるかに長い動画を段階的に生成できます。
使用モデル: Wan2.2-S2V-14B-Q8_0.gguf
📖 解説
短く動きの少ないクリップに飽きたですか?これがその解決策です。このワークフローは、標準出力よりも長く、表現力豊かなミュージックビデオ風のアニメーションを作成したいユーザー向けに設計されています。「Video S2V Extend x5」グループノードを活用し、初期の動画潜在変数を5段階にわたって段階的に拡張していきます。
ここでの鍵となる革新は、極めて少ないステップ数(4ステップ) と、高いCFG(6)および専用のサンプリング手法(uni_pc, beta57)を組み合わせることで、高速かつ創造的でエネルギーに満ちた動きの生成を実現しています。音楽に合わせたアニメーション制作、ダイナミックなシーン構築、あるいは写実的な静止画よりも流動的で誇張された動きを重視するあらゆる用途に最適です。
✨ 特徴とハイライト
🔥 超高速生成: サンプリングごとにたった4ステップで、得られる動画の長さに対して驚異的に高速な生成が可能です。
💥 高動き出力: 最終動画における動きとダイナミズムを最大化するよう、高CFGスケールと特定のサンプラー/スケジューラーで意図的に設定されています。
🎬 長尺動画: 核心となる「Video S2V Extend x5」ノードが5段階の連続生成を連鎖させ、基本クリップをはるかに長いシーケンスに変換します。
🎵 サウンド・トゥ・ビデオ (S2V): Wav2Vec エンコーダーを完全に統合し、視覚的動きを入力オーディオトラック(例:
DEXTER_JUSTICE.wav)と同期させます。🧹 組み込みメモリ管理: 長時間の生成プロセス中に安定性を確保するため、
easy cleanGpuUsed、VRAMCleanup、RAMCleanupノードを含みます。🔧 スマート前処理: リファレンス画像(
ComfyUI_02140_.png)を最適な互換性のために自動的にリサイズ・準備します。🎯 品質向上の工夫: ワークフロー内に記載された「愚かなハック」を組み込み、VAEによる最初のフレームの「過剰生成」を修正します。これはデコード後にフレームを複製して削除することで実現されます。
🛠️ 技術的詳細
ワークフロー: ComfyUI(JSONファイルを含む)
主なモデル: Wan2.2-S2V-14B-Q8_0.gguf
CLIPモデル: cow-umt5xxl-q4_0.gguf
VAE: Wan2_1_VAE_fp32.safetensors
音声エンコーダー: wav2vec2_large_english_fp8_e4m3fn.safetensors
LoRA: lightx2v_I2V_14B_480p_cfg_step_distill_rank128_bf16.safetensors(強度: 1.38)
🚀 使用方法
ワークフローの読み込み: 提供されたJSONファイルをComfyUIにインポートしてください。
モデルパスの確認:
LoaderGGUF、ClipLoaderGGUF、VaeGGUFノード内の必要なモデルファイル(Wan2.2-S2V-14B-Q8_0.ggufなど)のパスが、ご自身のシステム上の正しい場所を指していることを確認してください。メディアの入力:
- リファレンス画像:
LoadImageノードのパスを、ご自身の開始画像に置き換えてください。 - オーディオファイル:
LoadAudioノードのパスを、ご自身のオーディオファイル(例:曲、会話、サウンドスケープ)に置き換えてください。
- リファレンス画像:
プロンプトの調整:
CLIP Text Encodeノード(ポジティブ・ネガティブ)内のテキストを修正し、望ましいシーンを記述し、不要な要素を除外してください。プロンプトの実行: ワークフローを実行してください!結果として、オーディオと統合された動画ファイルが、ComfyUIの出力ディレクトリに保存されます。
💡 ワークフローの構成(「魔法の配合」)
ワークフローは明確な論理的グループに分かれています:
ステップ1 - モデルの読み込み: 核心となるWanモデル、VAEを読み込み、高度な性能を発揮する専用LoRAを適用します。
ステップ2 - オーディオとリファレンス画像のアップロード: ソースメディアをパイプラインに投入します。
ステップ3 - バッチ設定: バッチサイズ、チャンク長、サンプリングステップなどのグローバルパラメータを設定します。
ステップ4 - プロンプト: 視覚的なスタイルと内容を定義します。
基本サンプリング:
WanSoundImageToVideoおよびKSamplerノードが、画像と音声から最初の短い動画潜在変数を生成します。Video S2V Extend X5(核): このカスタムグループノードがワークフローのエンジンです。初期動画を5つの別々の拡張サイクルに通し、それぞれ異なるシードを使用して「夢見るように」時間を進めていきます。その間、元の画像と音声に条件付けられた状態を維持します。
過剰生成された最初のフレームの修正: 最終的な潜在動画をデコードし、最初のフレームの視覚的アーティファクトを修正した後、最終的なフレームを抽出するポストプロセッシングチェーンです。
最終統合:
VHS_VideoCombineノードが生成されたすべてのフレームと元のオーディオファイルを統合し、最終的なMP4動画をレンダリングします。
📝 ワークフロー内の例提示プロンプト
ポジティブプロンプト:"プロの男性ドライバーが車内に座り、窓から見えるNYCの夜景、ネオンライトが顔に反射、乗客用カメラに向かって軽く首を傾ける、考え込む表情、街灯によるシネマティックなボケ、ダッシュボードの照明、都会的な雰囲気、滑らかなカメラ移動、ノワールの美学、青とオレンジのトーンで構成されたムーディーな照明、4K品質"
ネガティブプロンプト:"色调艳丽,过曝,静态,细节模糊不清,字幕,风格,作品,画作,画面,静止,整体发灰,最差质量,低质量,JPEG压缩残留,丑陋的,残缺的,多余的手指,画得不好的手部,画得不好的脸部,畸形的,毁容的,形态畸形的肢体,手指融合,静止不动的画面,杂乱的背景,三条腿,背景人很多,倒着走"
(翻訳: 過剰な彩度、過曝、静止画像、ぼやけた細部、テキスト、芸術作品、低品質、醜い、変形、余分な指、不自然な手・顔、不規則な肢体、指の融合、静止した画面、散らかった背景などは避ける)
⚙️ 推奨設定
さらに長い動画を希望する場合: 「Chunk Length」を増やすか、
Video S2V Extendグループを複製して拡張ブロックを追加してください。異なる動きのスタイルを試したい場合:
CFGスケールを調整してください。低い値(3-5)は控えめな動きを、高い値(7-10)はさらに劇的な効果を生み出します。一貫性が崩れた場合: 「Steps」と題された
PrimitiveIntノードのステップ数を少し増やして(6-8)、安定性を向上させてください。
⚠️ 制限事項と注意点
一貫性の低下: いかなる動画拡張技術にも共通ですが、元のリファレンス画像との一貫性は、動画が長くなるほど低下します。
高VRAM消費: 長い動画の生成はVRAMを大幅に消費します。メモリクリーンアップノードは安定性に不可欠です。
芸術的、非写実的: この4ステップアプローチは、完璧で安定した写実的なフレームの生成ではなく、表現力豊かな動きを最適化しています。出力の抽象的かつダイナミックな性質を楽しんでください!
タグ: ComfyUI, Workflow, Wan2.2, Sound2Video, S2V, Video Generation, AI Video, Long Video, High Motion, AnimateDiff, AI Animation
