Fast WAN I2V Compact

詳細

ファイルをダウンロード

モデル説明

使いやすさを重視して、視覚的にコンパクトで簡素化された設計です。個人的には、これが最も洗練されたワークフローだと思っています。全体的なレイアウトは、ユーザーに親切で直感的であり、ComfyUIのワークフライムウィンドウにぴったり収まるよう、スペースを最小限に抑えています。結局のところ、これはあなたのWANビデオ生成のすべてのニーズに応えるワンストップショップです。


このワークフローは、4070 TiでSage Attentionを無効にした状態でQ8 GGUFモデルを使用し、LCMサンプリングとLight X2V LoRAを活用して、60秒で480x480の5秒間のビデオを生成します。

このワークフローは主に基本的で一般的なノードと拡張機能を使用しているため、最小限の労力で簡単に動作させることが可能です。「もっと表示」をクリックすると、要件やモデルのダウンロードリンクなどの詳細をご覧になれます。

注目すべき機能には、無限LoRAローダー、Sage Attention、生成された動画の最終フレームを取得して動画の拡張に使用する機能(最終フレームは手動で保存・読み込みが必要)、単独のビデオ結合ユーティリティワークフロー、および単独のアップスケーリング/補間ユーティリティワークフローが含まれます。これらは生成された動画の選択的な簡単なポストプロセッシングを可能にし、パワフルPCから低性能PCまで、幅広い使用ケースを考慮して設計されています。


WAN 2.2用:

従来と同じデザインですが、WAN 2.2の「低ノイズ」モデル専用に最適化されています。新しいワークフローの要件については、以下の「必要なモデル」セクションをご覧ください。

Light X2V LoRAは、WAN 2.2では強度1.1〜2.0で動作し、モデルの挙動を劇的に変化させることが可能です。その影響は有益な場合も、逆に悪影響を及ぼす場合もあります。テストの結果、最も安定していると判断された1.5をデフォルト強度として設定しましたが、ご自身の環境に最適な値を試してみてください。

WAN 2.2ははるかにダイナミックであり、WAN 2.1で使用していたプロンプトのスタイルとは少し異なるアプローチが必要です。LoRAへの影響についても同様で、LoRAの強度が増幅される傾向があり、これは良い面と悪い面の両方をもたらしますが、全体的に多くの優れた結果が得られています。したがって、良い結果を得るためには、どのようにプロンプトを書くかを学ぶことが主なポイントであり、LoRAの強度を調整する必要がある場合もあります(LoRAとプロンプト・画像入力の挙動によります)。また、ステップ数を6または8に変更するだけで、結果が改善することもあります。

ワークフローのサンプラー/スケジューラ設定は概ね良好に動作しますが、さらに試行錯誤が必要です。特に、以下の要件に含まれるRES4LYFカスタムサンプラーとスケジューラ拡張機能では、他の組み合わせの方が優れている可能性があります。

まれに、予期しない悪い生成物が出ることもありますが、設定を調整すれば、WAN 2.2はWAN 2.1では決して得られなかった多くの優れた結果を生み出すことができます。


WAN 2.1用:

変更を検討すべき主な設定は、出力解像度やサンプラーのステップ数です。他のサンプラーまたはスケジューラも動作する可能性がありますが、LCM/Simpleが最も整合性の高い出力を得られると思います。他に調整可能な設定はLoRAの強度だけです。ただし、「SHIFT」のような他の設定も存在し、これはCFG設定のように機能することがあります。私の経験では、プロンプトやLoRAの表現を劇的に変えるだけでなく、動きにも大きな変化をもたらすことができますが、基本的にはデフォルト設定のままにしておくことをお勧めします。


注意: Sage Attentionはデフォルトで無効になっています。Sage Attentionを有効にするには(プリセットがインストールされている場合)、"Enable for Sage Attention"ノードを選択してCtrl+Bを押して有効化し、その下の"sage_attention"オプションを「無効」から「有効」に変更してください。Sage Attentionを使用しない場合でも、ワークフローを動作させるためにこの拡張機能のインストールは必須です。


必要なモデルおよび代替モデル:

GGUF WAN 2.2 i2vモデル(「低ノイズ」バージョンのみ使用):

https://huggingface.co/bullerwins/Wan2.2-I2V-A14B-GGUF/tree/main

GGUF WAN 2.1 i2vモデル:

https://huggingface.co/city96/Wan2.1-I2V-14B-480P-gguf/tree/main

CLIPモデル:

https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/blob/main/split_files/text_encoders/umt5_xxl_fp8_e4m3fn_scaled.safetensors

または、より高精度なBF16 CLIPモデル:

https://huggingface.co/minaiosu/Felldude/blob/main/wan21UMT5XxlFP32_bf16.safetensors

CLIP Visionモデル:

https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/blob/main/split_files/clip_vision/clip_vision_h.safetensors

または、カスタムNSFW向けCLIP Visionモデル(推奨):

/model/1802070/wan-21-nsfw-clip-vision-h

VAEモデル:

https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/blob/main/split_files/vae/wan_2.1_vae.safetensors

Light X2V T2V LoRA:https://huggingface.co/Kijai/WanVideo_comfy/blob/main/Wan21_T2V_14B_lightx2v_cfg_step_distill_lora_rank32.safetensors

または、新しい適切なLight X2V I2V LoRA(推奨):

https://huggingface.co/lightx2v/Wan2.1-I2V-14B-480P-StepDistill-CfgDistill-Lightx2v/blob/main/loras/Wan21_I2V_14B_lightx2v_cfg_step_distill_lora_rank64.safetensors

または、Kijaiによるその他のLight X2V実験版:

https://huggingface.co/Kijai/WanVideo_comfy/tree/main/Lightx2v

RES4LYFカスタムサンプラーとスケジューラ:

https://github.com/ClownsharkBatwing/RES4LYF


秘密のプロのヒント: 透明画像または黒などの単色画像を使用すると、i2vモデルをほぼt2vモデルとして機能させることができます。空の入力画像から急速に遷移し、プロンプトに従って新しい内容を生成します。ワークフローやモデルを変更せずに、t2v機能を簡単に得られる優れた方法です。


その他の有用な情報:

WANは出力解像度の変更によって挙動が劇的に変化する傾向があります。幅または高さのいずれかが480のとき、最も良好に反応します。WAN 2.2は480pおよび720pモデルとして設計されていますが、異なる解像度では挙動が異なり、設定の調整が必要だったり、特定の解像度ではうまく動作しない場合があります。480x480でよく動作するコンテンツもあれば、512x512やそれ以上の解像度でより良く(または悪く)動作するコンテンツもあります。しかし一般的に、幅または高さが480または720のとき、最も安定した出力が得られます。

このモデルで生成された画像

画像が見つかりません。