Wan 2.2 Fun 5B Inpainting - Seamless Image Morphing
詳細
ファイルをダウンロード
このバージョンについて
モデル説明
🎬 イントロダクション
新しい形のAIクリエイティビティを解放しましょう!このワークフローは、Wan 2.2 Fun 5B Inpaintingモデルの専門的な力を活用し、1つの画像を別の画像に徐々に変化させる美しいシームレスなビデオアニメーションを生成します。
モーションをテキストプロンプトで制御するのではなく、ここでは開始画像と終了画像を提供します。AIは両方の画像を inteligently に分析し、その内容を解釈して、自然でしばしば夢のような変化を伴う滑らかなビデオトランジションを生成します。魅惑的なループ、コンセプトアートの進化、あるいは2つのアイデアを1つの動画で結びつけるのに最適です。
このワークフローは、GGUF量子化を活用して、一般消費者向けハードウェアでもこの強力なモデルを効率的に実行できるように最適化されています。
✨ 主な機能とハイライト
画像間変形(Image-to-Image Morphing): コア機能。開始画像と終了画像を入力し、AIがトランジション動画を生成します。
GGUF量子化対応:
LoaderGGUFおよびClipLoaderGGUFノードにより、5Bパラメータのモデルを最高級GPUなしでも実行可能。高速化のためのLightning LoRA: 4ステップのLoRAを統合し、標準的なサンプリングと比較して生成プロセスを大幅に高速化。
シンプルで直感的な設定: ワークフローは明確なステップに分かれています:モデルの読み込み、画像のアップロード、プロンプトの設定、生成。
高品質な出力: 高解像度(
944x944)と滑らかなフレームレート(24 FPS)で設定され、堅牢なVHS_VideoCombineノードによってMP4ファイルにパッケージ化されます。
🧩 動作原理(裏側のマジック)
このワークフローの実行は洗練されています:
モデルの読み込み(GGUF):
LoaderGGUFノードが量子化されたWan2.2-Fun-5B-InPモデルを、ClipLoaderGGUFノードがUMT5テキストエンコーダーを読み込みます。標準的なVAELoaderノードがWan VAEをデコード用に読み込みます。画像ペアのアップロード: これが重要なステップです。2つの入力を提供します:
start_image: アニメーションの初期状態。end_image: 変化したい最終状態。
ムードの定義(プロンプト): 画像が動きを主導しますが、テキストプロンプトは生成されるシーケンス全体のスタイルと品質を補助的に定義します。含まれているポジティブプロンプトは「夢のようなQスタイル」の外観を生成し、ネガティブプロンプトは一般的なアーティファクトをフィルタリングします。
インペイントの魔法(
WanFunInpaintToVideo): この専用ノードがエンジンです。2つの画像とプロンプトをエンコードし、開始画像から終了画像へと変わる潜在的ビデオ表現を準備します。高速サンプリング: 準備された潜在変数は
KSamplerに渡され、4ステップのLightning LoRAを使用してシーケンスを急速にノイズ除去し、アニメーションの最終フレームを生成します。デコードとエクスポート: VAEが潜在フレームを画像にデコードし、
VHS_VideoCombineノードがそれらをシームレスに最終的な高品質なMP4動画ファイルに合成します。
⚙️ 手順と使い方
前提条件:モデルのダウンロード
以下のモデルファイルをダウンロードし、ComfyUIのmodelsディレクトリに配置してください。
必須モデル:
Wan2.2-Fun-5B-InP-Q8_0.gguf→/models/unet/(または/models/diffusion/)に配置umt5-xxl-encoder-q4_k_m.gguf→/models/clip/に配置wan_2.2_vae.safetensors→/models/vae/に配置
4ステップのLightningパイプライン用:
Wan2_2_5B_FastWanFullAttn_lora_rank_128_bf16.safetensors→/models/loras/に配置(注:ワークフローは現在このファイルを参照していますが、ノートには別の公式LoRAが記載されています。アップロード時にどちらを使用するか明確にしてください。)
ワークフローの読み込み
提供された
video_wan2_2_5B_fun_inpaint.jsonファイルをダウンロードしてください。ComfyUIで、JSONファイルをウィンドウにドラッグ&ドロップするか、Loadボタンを使用してください。
ワークフローの実行
画像ペアのアップロード:
左側の**「LoadImage」**ノードに、
start_image.pngをアップロードしてください。右側の**「LoadImage」**ノードに、
end_image.pngをアップロードしてください。ヒント:より一貫性のある変形を実現するには、構図やテーマが似ている画像を使用してください。
プロンプトの設定(オプションですが推奨):
**「CLIP Text Encode (Positive Prompt)」**ノード内のテキストを変更して、生成される動画全体のスタイルに影響を与えてください(例:「水彩風」「サイバーパンク」「リアル」など)。
ネガティブプロンプトは既に設定されており、一般的な使用に最適です。
キューを実行! AIが2つの画像をつなぐユニークなアニメーションを生み出す様子をご覧ください。
⚠️ 重要な注意点とヒント
画像のガイドance: このモデルの強みは画像にあります。テキストプロンプトはスタイルの補助的な役割にすぎません。動画の核となるナラティブは、アップロードした2つの画像間の変化です。
長さの設定:
WanFunInpaintToVideoノードのlengthパラメータは121フレームに設定されています。24 FPSで再生すると、約3.3秒の動画になります。より短いまたは長いアニメーションを作成するにはこの値を調整できますが、VRAMの制約に注意してください。解像度: ワークフローは
944x944に設定されています。WanFunInpaintToVideoノードのwidthとheightを調整できますが、これによりVRAM使用量とパフォーマンスにも影響します。Lightning LoRA: 4ステップのLoRAは速度向上のために使用されています。品質に問題がある場合や別のスタイルを試したい場合は、
LoraLoaderModelOnlyノードで強度を調整するか、ノード情報に記載されている公式のwan2.2_i2v_lightx2v_4steps_loraを試してください。
🎭 例の結果
開始画像:閉じた花のつぼみ。
終了画像:同じ花が満開の状態。
プロンプト:「美しいタイムラプスで花が開く様子、マクロ写真、シャープな焦点、シネマティックな照明。」
(ここにこのワークフローで生成された短い動画例を埋め込む予定です)
別のアイデア:スケッチを開始画像に、完成したアートワークを終了画像に。
📁 ダウンロードとリンク
Wan 2.2 Fun 5B Inpaint GGUFモデル: HuggingFace - QuantStack/Wan2.2-Fun-5B-InP-GGUF
umt5-xxl-encoder-q4_k_m.gguf: https://huggingface.co/city96/umt5-xxl-encoder-gguf/tree/main
Wan2.2_VAE.safetensors: https://huggingface.co/QuantStack/Wan2.2-Fun-5B-InP-GGUF/tree/main/vae
Wan2_2_5B_FastWanFullAttn_lora_rank_128_bf16.safetensors: https://huggingface.co/Kijai/WanVideo_comfy/blob/main/FastWan/Wan2_2_5B_FastWanFullAttn_lora_rank_128_bf16.safetensors
Conclusion
💎 結論
このワークフローは、AI動画生成における興味深く、まだあまり探求されていない道を開きます。テキストから動画へという従来のアプローチを超越し、画像駆動型動画へと移行することで、アニメーションの開始点と終了点を精密かつ創造的に制御できます。GGUFの利用により、この創造的な力を広範なユーザーにアクセス可能にします。
アーティスト、デザイナー、そしてユニークでシームレスなトランジションやビジュアルストーリーを生み出したいすべての人に最適です。さまざまな画像ペアとプロンプトを試して、「Fun」モデルの可能性を最大限に引き出してみてください。
あなたがどのような変化を生み出すか、今から楽しみにしています! 下のコメント欄であなたの作品を共有してください。
