Wan 2.2 14B i2v t2v - Lightx2v Enhanced Motions
詳細
ファイルをダウンロード
このバージョンについて
モデル説明
動的I2V生成におけるスローモーションの克服に向けた画期的進展
導入:悩みとその解決策
あなたの画像から動画を生成する際(I2V)、動きが鈍く、静的で、ダイナミックな「ワオ!」という効果に欠けると感じていませんか?あなただけではありません。1枚の画像から滑らかで高運動量の動画を生成することは、広く共有される課題です。
このワークフロー「Wan 2.2 - Lightx2v Enhanced Motions」は、Lightx2v LoRAの限界を体系的に試行錯誤して到達した結果です。強力なWan 2.2 14Bモデル上でLoRAの強度をほぼ限界まで過剰に設定することで、効率的かつ驚異的に高速な生成時間のまま、新たなレベルのダイナミックで映画的 Motion を実現します。
TL;DR:ゆっくりした控えめな動きに待たされるのをやめましょう。5〜7分でダイナミックでエネルギーに満ちた動画を手に入れましょう。
主な特徴とハイライト
🚀 極限のモーション生成: Lightx2v LoRAを限界まで駆動(高ノイズ時5.6、低ノイズ時2.0)し、1枚の画像から極めてダイナミックで滑らかな動きを生成。
⚡ 超高速レンダリング: 惊異的に短い5〜7分で高品質な結果を達成。
🎯 精密な制御: 高/低ノイズの2つのモデルと2つのサンプラーを組み合わせ、制御された高忠実度のノイズ除去を実現。
🔧 最適化されたパイプライン: ComfyUIで構築され、GPUメモリ管理ノードを統合して安定した動作を確保。
🎬 プロフェッショナルな仕上げ: 内蔵のアップスケーリングとフレーム補間(FILM VFI)チェーンにより、滑らかで高解像度の最終MP4動画を出力。
ワークフローの概要と戦略
これは単なる標準的なパイプラインではなく、丁寧に設計されたプロセスです:
画像の準備: 入力画像は自動的にWanモデルの最適解像度にスケーリングされます。
デュアルモデルのパワー: このワークフローは、Wan 2.2 高ノイズモデルと低ノイズモデルの両方を活用し、パフォーマンス用にパッチ適用済み(Sage Attention、FP16累積)。
「秘訣」— LoRAのオーバークロック: Lightx2v LoRAを著しく高められた強度で適用:
高ノイズ UNet:
5.6(強い動きを導入する主な要因)低ノイズ UNet:
2.0(動きを洗練し、詳細をクリーンアップ)
段階的サンプリング(CFG++): 2段階のKSamplerプロセス:
ステージ1(高ノイズ): 核心的な動きと構造を生成するため4ステップ。
ステージ2(低ノイズ): 出力を洗練・仕上げるため2ステップ。(合計:6ステップ)
ポストプロセッシング: 生成された動画シーケンスはRealESRGANでアップスケーリングされ、FILM補間でフレームレートを2倍にし、なめらかすぎるほどの最終結果を実現。
技術的詳細と要件
🧰 必要なモデル:
ベースモデル:(GGUF形式)
Wan2.2-I2V-A14B-HighNoise-Q5_0.ggufWan2.2-I2V-A14B-LowNoise-Q5_0.ggufダウンロード先: QuantStack on HuggingFace
VAE:
Wan2.1_VAE.safetensors
LoRA:
lightx2v_I2V_14B_480p_cfg_step_distill_rank128_bf16.safetensorsダウンロード先: Kijai on HuggingFace
CLIP Vision:(GGUFローダー用)
umt5-xxl-encoder-q4_k_m.gguf
⚙️ 推奨ハードウェア:
- 最適なパフォーマンスには、少なくとも16GBのVRAMを備えたGPU(例:RTX 4080、4090、または同等品)を推奨します。
🔌 カスタムノード:
このワークフローはrgthreeおよびeasy-useからの複数のマネージャーノードを利用しますが、コア機能は以下のものに依存:
comfyui-frame-interpolationcomfyui-videohelpersuitecomfyui-gguf/gguf(モデル読み込み用)
使用方法
JSONファイルの読み込み: 提供された
.jsonファイルをComfyUIにインポートします。モデルの読み込み: 上記でリストされたすべての必要なモデルを正しいフォルダに配置し、ローダーノード内のファイルパスが正しく設定されていることを確認してください。
画像の入力:
LoadImageノードを使用して開始画像を読み込みます。プロンプトのカスタマイズ:
CLIPTextEncodeノード内のポジティブおよびネガティブプロンプトを変更して、動画生成をガイドしてください。キュー実行: ワークフローを実行!最終的なMP4は
ComfyUI/outputディレクトリに保存されます。
ヒントとコツ
プロンプトが鍵: 最良の動きを得るには、ポジティブプロンプトに強い動詞を使用してください(例:「スムーズにサーフする」、「素早く回転する」、「ダイナミックに爆発する」)。
試行錯誤: LoRAの強度(5.6と2.0)は私がテストした「最適ポイント」です。ご希望の画像に合わせて、わずかに調整してみてください(例:高ノイズ時は5.4~5.8)。
解像度: デフォルトでは入力画像は速度を重視して約0.25メガピクセルにスケーリングされます。高品質を求める場合は、
ImageScaleToTotalPixelsノード内のmegapixels値を増やしてください。ただし、生成時間が長くなることにご注意ください。
結論
このワークフローは、LoRAとベースモデルの相互作用を深く理解することで、スローモーションといった一般的な制限を克服できることを示しています。静止画像からダイナミックで魅力的な動画コンテンツを作成したい人にとって、このパイプラインは強力で効率的かつ非常に有効です。
試してみて、あなたの生成物の動きを極限まで引き上げましょう!
