WAN 2.2 5b WhiteRabbit InterpLoop
詳細
ファイルをダウンロード
このバージョンについて
モデル説明
中国語が好きな方はこちらをご覧ください:英語版を読んだ後は中国語版です。
WAN 2.2 5b WhiteRabbit Interp-Loop
この即座に実行可能な ComfyUI ワークフローは、1枚の画像を WAN 2.2 5b を使用して短いループ動画に変換します。その後、ループの接合部をクリーニングし、自然な遷移を実現します。オプションで、フレームレートを向上させ、ESRGAN を使用してアップスケールすることもできます。
言い換えれば、これは WAN 2.2 5b を使用してループ動画を生成する「画像から動画」ワークフローです!
なぜこんなに複雑なのですか?!
WAN 2.2 5b は、最初のフレーム以降のフレーム注入を完全にサポートしていません。最終フレームを注入しようとすると、ループアニメーションは生成されますが、最後の4フレームが「汚れた」フレームとなり、ループの終わりに奇妙な「フラッシュ」が発生します。
このワークフローでは、この制限を克服するために私が設計したカスタムノードを活用しています。汚れたフレームを切り取り、その後、接合部を補間します。
モデル設定(WAN 2.2 5b)
これらを通常の ComfyUI フォルダーにインストールしてください。FP16 = 最高品質。FP8 = より高速で軽量ですが、若干のトレードオフがあります。
Diffusion model → models/diffusion_models/
- FP16: wan2.2_ti2v_5B_fp16.safetensors
- FP8: Wan2_2-TI2V-5B_fp8_e5m2_scaled_KJ.safetensors
Text encoder → models/text_encoders/
- FP16: umt5_xxl_fp16.safetensors
- FP8: umt5_xxl_fp8_e4m3fn_scaled.safetensors
VAE → models/vae/
- wan2.2_vae.safetensors
Optional LoRA → models/lora/
- 推奨: Live Wallpaper Style
Tip: サブフォルダーを models/vae/wan2.2/ のように維持して、収集が整然と保たれるようにしてください。
動作原理
- 接合部準備: 最後のフレームと最初のフレームを取り、それらを滑らかに接続する新しい中間フレームを生成します。新しいフレームのみが追加され、フレーム1の複製は含まれません。
- フルクリップ補間(オプション): 動画全体に中間フレームを追加し、任意のFPSにリサンプリングできます。
- アップスケール(オプション): ESRGAN モデルを用いて、フルクリップ補間の前にアップスケール処理を追加できます。
- 出力: ComfyUI/output/ フォルダーに LoopVid というプレフィックスで保存されます。
あなたが気にするべきコントロール
デフォルト値は「ほとんどのGPUで安全」に設定されています。VRAMが余裕があれば調整してください。
フルクリップ補間
- Roll & Multiply: 全体に中間フレームを追加(例:×3)。
- Reample Framerate: 指定したFPSに変換(例:60)。Multiply後に使用すると効果的ですが、単独でも利用できます。
その他の便利な設定
- Duration: WAN のコストは約3秒を超えると上昇します(2.2は約5秒まで最適化されています)。
- Working Size: ピクセル単位の長辺(形状は入力画像から取得されます)。
- Steps: ~30がWAN 2.2の最適値です。
- CFG: WANのデフォルトは5ですが、やや高く設定しています。値が高いほど「プロンプトの強さ」が増し、動きが強くなることがあります。
- Schedule Shift: 動きと安定性のバランス。値が高いほど動きが強くなります。
- Upscale: モデル/ターゲットサイズを選択;OOMが発生した場合はタイルサイズまたはバッチサイズを減らしてください。
これらの設定に関する詳細情報は、ワークフロー自体に記載されています。
プロンプトにビジョンモデルを使用する(オプションですが便利)
動きのプロンプトを書くのが難しい場合、ビジョンモデルを使って優れた出発点を得ることができます。以下の選択肢があります。
無料のクラウドオプション
GoogleのGeminiまたはOpenAIのChatGPTは無料で、ほとんどのユーザーに十分な結果を提供します。
- 画像をアップロードし、下記のプロンプトを貼り付けます。
- モデルの説明をコピーして、このワークフローの「Prompt」フィールドに貼り付けます。
ただし、これらのサービスは完全にプライベートではなく、露骨/NSFWのリクエストを検閲する可能性があります。そのため、他の2つのオプションを検討したいかもしれません。
有料クラウドオプション
多くのサービスがクラウドモデルへのアクセスを提供しており、検閲のないモデルアクセスをより確実に得る手段です。
たとえば、OpenRouterでクレジットを購入できます。個人的には、Featherlessを好んで使用しています。なぜなら、固定月額料金で費用を予測可能にし、厳格なログ非保存ポリシーを採用しているからです。試してみたい場合は、私の紹介リンクをご利用ください。これは私を助けることになります!
API/有料クラウドの道を選ぶ場合、私のアプリCloudInterrogatorが役立つかもしれません。これはクラウドビジョンモデルへのプロンプト入力を可能なかぎり簡単に設計されており、完全に無料かつオープンソースです!
ローカル推論オプション
CivitAIの多くの方々はローカルでのみ使用するタイプです。そのため、Ollamaがあります。
セットアップのベストガイドはこちらです:このガイド。GoogleのGemma-3モデルファミリーを確認し、あなたのGPUに適したサイズを選んでください。
Ollamaを使用する場合、OllamaがOpenAI互換のエンドポイントを提供するため、CloudInterrogatorをアクセスポイントとして使用できます。または、ComfyUI用Ollamaノードでこのワークフローをカスタマイズすることもできます。ただし、プロンプトを固定できるように設定しない限り、後者の使用は推奨しません。
多くのWANワークフローはGemma3/Ollamaノードを組み込んでいますが、私は99%のユーザーがGeminiまたはChatGPTで十分に満足できると判断したため、そのような組み込みは行いませんでした。
推奨プロンプト:
この動画フレームの内容を分析し、その後に続く動画シーケンス全体で発生する動きについて、簡潔で1段落の説明を書いてください。
あなたの説明には、キャラクターとシーン全体の詳細を含めてください。ただし、シーンで発生する動きに関連する部分に限定してください。また、粒子の動き、目を瞬かせる動き、髪の動きなどを記述してください。これは時間の1瞬を捉えたものであり、画像に包摂された数秒間を描写しています。動けるものはすべて動いています—シーンの細部まで含めて。
「停止」を説明しないでください。「わずかに」「控えめに」などの言葉で動きを弱めないでください。比喩的な言葉は使用しないでください。あなたの説明は直接的で断定的でなければなりません。シンプルで一般的な言語を使用してください。具体的に、シーン内の各要素がどのように動いているかを記述してください。ただし、冗長にならないように。説明の各単語は明確な目的を持たなければなりません。現在形で記述し、あなたがタイプしているその瞬間に予測が現実化しているかのように書いてください。
追加情報やフォーマット用の特殊文字なしで1段落のみを提示してください。「The image sequence depicts the character」という文を避け、動画が何をしているかを直接描写してください。"
使用するモデルや目的によっては、AmazingSeekのワークフローで提案されているプロンプトも効果的かもしれません!
ヒントとトラブルシューティング
WAN フレームレート: WAN 2.2 は24fpsです。WAN 2.1を使用する場合は、代わりに12fpsに設定してください。モデルローダーノード付近にこの設定のスライダーがあります。このワークフローは、この数値に基づいてフレームレート(乗算およびリサンプリング)を自動計算します。
接合部がおかしい?:Simple/Fancy接合部補間を切り替えてみてください。Fancyで自動クロップ検索範囲を広げてください。または、少し異なるプロンプト/CFGで再レンダリングしてください。
出力メモリ不足(OOM)?
- WanVideo Decodeノードのタイルサイズ(x、y)を下げてください。
- アップスケールのタイルサイズおよび/またはバッチサイズを下げてください。
- Working SizeまたはDurationを減らしてください。
- 「Use Tiled Encoder」を有効にしてください。
AttributeError: type object 'CompiledKernel' has no attribute 'launch_enter_hook'
このエラーの原因は不明ですが、WAN Video Nodesに関連している可能性があります。以下の手順で解決できます:
1. "🧩 Manager" を開きます。
2. "Install PIP Packages" をクリックします。
3. 以下の2つをインストールしてください(引用符は除きます):"SageAttention", "Triton-Windows"。
3.1 もちろん、Triton-WindowsはWindowsユーザー向けです。Linuxでこのエラーが発生した場合、Tritonのパッケージ名は単に"Triton"である可能性があります。
この手順で解決しない場合、ComfyUIのPython環境に何らかの問題があるか、使用しているComfyUIのバージョンがManagerの"Install PIP Packages"モジュールと互換性がない可能性があります。その場合、以下のコメントが役立つかもしれません:
alex223 からのコメント:
"私は1日近くかかりましたが、解決できました。この記事が役立ちましたが、私の組み込みPythonにはincludeとlibsフォルダーが欠けていたため、スタンドアロンバージョンからコピーしました。これはTritonを動作させるために不可欠でした。私のコメントが誰かの役に立つかもしれません。"
引き続き問題が解決しない場合は、コメントをお願いします。私はトラブルシューティングを手伝うのが好きですが、この問題は私のワークフローまたはWhiteRabbit(私のカスタムノード)には関係ないと考えています。
謝辞
- 最初にループ接合部の補間が「汚れたフレーム」問題の解決策になり得ると気づいたのは、私自身の実験によるものでしたが、AmazingSeekのこのワークフローが、私が本格的に取り組む決断をしたきっかけでした。
- また、Ekafalainも、AmazingSeekのワークフローの元となったシームレスループワークフローの貢献者として、称賛に値します。
- 私は彼らのアイデアを直接使用していませんが、Caravelがこちらで公開した優れたマルチステッププロセスを称えたいと思います。このワークフローは主にWAN 2.2 14bを対象としており、そのドキュメントの質は称賛に値します。
- 私の推奨ビジョンプロンプトはNRDXのものを基にしています。元のワークフローは彼のPatreonで確認できます。彼はまた、さまざまなWANモデル用のLiveWallpaper LoRAをトレーニングしている人物でもあります!
P.S. 💖
このワークフローが役立ったなら、あなたが作った作品をぜひ見せてください!私はこのワークフローを完成させるために、カスタムノードを設計し、可能な限り詳細なドキュメントを書き、あなたに最大限の価値を届けようと努力しました。
リンク
- WhiteRabbitリポジトリで、カスタムノードのドキュメントや原子的なワークフローを確認し、このワークフローをカスタマイズするためのヒントを得てください。
- 私のウェブサイトとSNS:artificialsweetener.ai で私のアート、詩、その他の開発更新をご覧ください。
- コーヒーを1杯おごってください:Ko-fiページで、このようなプロジェクトの継続を支援してください。
このワークフローは、愛するCubbyに捧げます 🥰
- 彼女のアートはあらゆる場所で見られます
- 彼女はCivitAIでたくさんの優れたLoRAを提供しています :3
VAE → models/vae/
オプションの LoRA → models/lora/
ヒント:モデルコレクションの管理を容易にするために、models/vae/wan2.2/ などのサブフォルダを使用してください。
動作原理
シーム準備:最後のフレームと最初のフレームを取り、滑らかな接続のために新しい中間フレームを生成します。これらの新フレームのみが追加され、第1フレームは繰り返して追加されません。
フルムービー補間(オプション):動画全体に倍数の中間フレームを追加し、任意の FPS にリサンプリングします。
アップスケーリング(オプション):フルムービー補間の前に、選択した ESRGAN モデルを使用してアップスケーリングを実行します。
出力:
ComfyUI/output/フォルダに、接頭辞LoopVidを付けて保存されます。
あなたが気にするべきコントロール
デフォルト設定は「ほとんどの GPU で安全」です。VRAM に余裕があれば、適切に値を上げてください。
フルムービー補間
ロール&マリプリケーション ("Roll & Multiply"):動画全体でより多くの中間フレームを追加します(例:×3)。
リサンプリングフレームレート ("Resample Framerate"):正確な FPS(例:60)に変換します。倍増後に使用すると効果的ですが、単独でも使用可能です。
その他の便利な設定
Duration ("長さ"):約3秒を超えるとコストが上昇します(2.2 は約5秒に最適化されています)。
ワークサイズ ("Working Size"):長辺のピクセル数で指定(アスペクト比は入力画像から取得)。
ステップ数 ("Steps"):~30 が WAN 2.2 の最適値です。
CFG:WAN のデフォルトは 5 ですが、ここでは若干上げています。値が高いほど「プロンプトの強度」が高くなり、動きが増えることがあります。
スケジュールシフト ("Schedule Shift"):動き vs 安定性。値が高いほど動きが強くなります。
アップスケーリング ("Upscale"):モデルまたはターゲットサイズを選択;OOM が発生した場合は tile サイズまたはバッチサイズを下げてください。
これらの設定の詳細については、ワークフロー内をご覧ください。
ビジュアルモデルを使用したプロンプト生成(オプションですが有用)
「動きのプロンプト」を書くのが難しい場合、ビジュアルモデルを使って良い出発点を得ることができます。複数の選択肢があります。
無料クラウドソリューション
Google の Gemini または OpenAI の ChatGPT は無料で、ほとんどのユーザーに十分です。
画像をアップロードし、以下のプロンプトを貼り付けてください。
モデルが生成した説明をコピーし、このワークフローの Prompt フィールドに貼り付けます。
…ただし、これらのサービスはプライバシーが十分でなく、不適切または NSFW のリクエストを検閲する可能性があります。これが他の2つのオプションを試す理由です。
有料クラウドソリューション
多くのサービスがクラウド上のモデルへのアクセスを提供しており、検閲されていないモデルを得るより信頼できる方法です。
たとえば、OpenRouter でポイントを購入できます。個人的には、月額固定料金でコストが予測可能で、厳格な「ログなし」ポリシーを持つ Featherless を好みます。試してみたい場合は、私の推薦リンクを使用してサポートしてください!
API/有料クラウドパスを選択する場合、私のアプリ CloudInterrogator が役立つかもしれません。これはクラウド上のビジュアルモデルによるプロンプト生成を可能な限り簡素化するために設計されており、完全に無料でオープンソースです。
ローカル推論オプション
私は、CivitAI 上で「ローカルのみ」で使うユーザーがたくさんいることを知っています。Ollama を選択できます。
私が見つけた最良のインストールガイドはこちら。Google の Gemma-3 モデルファミリ を確認し、あなたの GPU に合ったサイズを選んでください。
Ollama を使用する場合、Ollama が OpenAI 互換のエンドポイントを提供しているため、CloudInterrogator をアクセスポートとして完全に使用できます。または、ComfyUI に Ollama ノードを追加してワークフローをカスタマイズすることも可能ですが、プロンプトを固定できない場合はお勧めしません。
多くの WAN ワークフローでは Gemma3/Ollama ノードを直接組み込んでいます。しかし、99% のユーザーが Gemini や ChatGPT で十分であると考え、私はそのような組み込みは避けています。
推奨プロンプト:
このビデオフレームの内容を分析し、次の動画シーケンス全体で何が起こるかを簡潔な1段落で予測してください。
あなたの説明は、キャラクターやシーンの全体的な詳細をカバーする必要がありますが、その中で「動き」に関連する部分にのみ焦点を当ててください。また、粒子の動き、もしあれば目のまばたき、髪の揺れなどを記録してください。これは時間的に凍結された瞬間であり、この画像が含む数秒間で何が起こるかを述べる必要があります。可能性のあるすべてのものは動いています——シーンの小さな細部まで。
「停止」の説明をしないでください。動きを弱める言葉(「軽微」「微細」など)は使用しないでください。比喩的な言語は避け、直接的で明確に述べてください。簡単で一般的な言葉を使用し、シーン内の各詳細がどのように動くかを具体的に記述してくださいが、冗長にはしないでください。書くすべての単語が意味を持たなければなりません。現在形で書き、あなたの入力時に予測が実際に起こっているかのように記述してください。
出力は、追加情報なし、書式を変更する特殊文字を含まない1段落としてください。「画像シーケンスはキャラクターを描いている」などの言い回しは避けて、何が起こっているかを直接述べてください。「動画…」という言葉は使用しないでください。
使用しているモデルや目的に応じて、AmazingSeek のワークフロープロンプトも同様に有効かもしれません!
ヒントとトラブルシューティング
WAN フレームレート:WAN 2.2 は 24 fps です。WAN 2.1 を使用する場合は、fps を 12 に設定してください。モデル読み込みノードの近くにスライダーがあります。ワークフローはこの値に基づいて、フレームレート関連の処理(倍増とリサンプリング)を自動計算します。
シームがおかしく見える?「シンプル/アドバンス」シーム補間の間で切り替えてみてください。アドバンスモードでは自動トリミング範囲を広げてください。または、少し異なるプロンプト/CFG で再レンダリングしてください。
VRAM が足りない?
WanVideo Decode ノードで tile サイズ(x と y)を下げてください。
アップスケーリング(Upscale)の tile サイズまたはバッチサイズを下げてください。
ワークサイズまたは長さを減らしてください。
「Use Tiled Encoder」を有効にしてください。
謝辞
最初の試みで、ループシームに補間を適用することで「汚れたフレーム」を解決できるのではないかと考えましたが、本当に着手を決心させたのは、AmazingSeek のこのワークフローでした。
Ekafalain も称賛されるべきです。AmazingSeek のシームレスループワークフローは、彼の成果を基に構築されています。
私は最終的に彼らのアイデアを直接採用しませんでしたが、Caravel に敬意を表します——彼女の WAN 2.2 14b のマルチステップワークフローは非常に優れており、こちらで確認できます。ドキュメントの質だけでも称賛に値します。
私の推奨ビジュアルプロンプトは、NRDX のバージョンを改変したものです。オリジナルワークフローは彼の Patreon で見られます。彼はまた、複数の WAN モデル用の LiveWallpaper LoRA をトレーニングした人物でもあります。
あとがき 💖
このワークフローが役に立ったなら、あなたの作品をぜひ見せてください!私はカスタムノードを設計してすべてを統合し、できるだけ詳細なドキュメントを書き、あなたにとって最大限に役立つように多くの時間を費やしました。
リンク
このカスタムノードの構築方法や、このワークフローの微調整方法を詳しく知りたい場合は、WhiteRabbit リポジトリ のノードドキュメントと原子ワークフローをご覧ください。
個人サイトとSNS:私の芸術、詩、開発の動向は artificialsweetener.ai でご覧いただけます
コーヒーをご馳走してください:より多くの同様のプロジェクトを支援するために、私の Ko-fi ページ をご利用ください
このワークフローは、愛する Cubby に捧げます 🥰
