Wan2.1-VACE-14B(pro)
詳細
ファイルをダウンロード
モデル説明
👑 Wan2.1-VACE-14B (LoRA 加速): CausVid LoRA で 3 ステップ動画生成を 10 倍高速化
🎬 Wan2.1 と CausVid LoRA で動画生成速度を約 10 倍に向上! 🎬
📌 概要
Wan2.1-VACE-14B 動画ディフュージョンモデルに CausVid LoRA を組み合わせることで、高品質かつ高効率な動画生成が可能になります。特に、スリム化された 3 ステップの ComfyUI ワークフローを通じて、480p および 720p 解像度で優れた性能を発揮します。このガイドでは、この高速動画生成機能を有効化するための設定手順を解説します。フル精度モデルや、高速な Q3KL GGUF などの量子化モデルの選択肢も含みます。
🔑 主要コンポーネント
ディフュージョンモデル (14B):
フル精度: wan2.1_vace_14B_fp16.safetensors (LoRA サンプルとの互換性を考慮して推奨)
量子化 (Civitai): wan2.1_vace_14B_Q4KM.safetensors
量子化 (GGUF - Civitai): wan2.1_vace_14B_Q3kl.gguf (5分のデモで使用。GGUF ローダーが必要)
これは Hugging Face の GGUF 形式とは異なります(存在しません!)。Hugging Face のものを試しましたが、vid2vid タスクでは動作しませんでした。そのため、vid2vid に最適化された独自の形式を開発しました。これらのモデルは互換性と品質の向上を目的に最適化・構造化されています。別の形式が必要な場合は、Hugging Face 版をテストした後に「コメント」をお願いします!
パフォーマンス LoRA (速度に不可欠):
VAE:
テキストエンコーダー: いずれかを選択
umt5_xxl_fp16.safetensors (LoRA ワークフローの互換性を考慮し、Kijai のラッパーと一致させるために推奨)
umt5_xxl_fp8_e4m3fn_scaled.safetensors (軽量な fp8 版)
📁 ファイル構成
ダウンロードしたファイルを、ComfyUI ディレクトリ内に以下の構造で配置してください:
ComfyUI/
├── models/
│ ├── diffusion_models/
│ │ └── wan2.1_vace_14B_fp16.safetensors # または Q4KM.safetensors、または Q3kl.gguf
│ ├── text_encoders/
│ │ └── umt5_xxl_fp16.safetensors # または fp8 版
│ ├── loras/
│ │ └── Wan21_CausVid_14B_T2V_lora_rank32.safetensors
│ └── vae/
│ └── wan_2.1_vae.safetensors
🎨 モデル紹介:高速 720p シネマティックシーン
Wan2.1-VACE-14B と CausVid LoRA を組み合わせたこの設定は、720p(および 480p)の動画クリップを驚異的な速度で生成します。量子化された GGUF モデルを使えばさらに高速化されます。短時間での反復試行、クリエイティブな実験、効率的なコンテンツ制作に最適で、3 ステップのワークフローによって簡素化されています。
💡 使用上のヒント
モデルと LoRA の設定: 最大の速度と品質を得るには、適切な 14B モデル(例:
wan2.1_vace_14B_fp16.safetensorsまたはwan2.1_vace_14B_Q3kl.gguf)とWan21_CausVid_14B_T2V_lora_rank32.safetensorsLoRA を組み合わせて使用してください。LoRA の適用強度は通常 1.0 が推奨です。テキストエンコーダー: 既存のサンプルや Kijai のオリジナルデモとの互換性を重視する場合は、
umt5_xxl_fp16.safetensorsを推奨します。fp8 版は VRAM を節約できます。解像度: この設定は 480p および 720p の動画生成に最適化されています。
パフォーマンス向上:
LoRA なし(fp16): RTX 4090 で 81 フレームの 720p 動画は約 40 分かかります。
CausVid LoRA 使用(fp16): 同じ動画を RTX 4090 で約 4 分で生成可能。
CausVid LoRA + Q3KL GGUF 使用: 適切なハードウェアと GGUF ローダーで、同程度の出力を 5 分以下で生成可能。
ワークフローの簡素化: 速度以外の最大の利点は、モデル読み込み後の生成ステップが 3 つにまで簡略化されることです。一般的な流れは以下の通りです:1. プロンプト入力(テキスト)、2. KSampler(または LoRA と選択したモデルを適用する同等ノード)、3. 動画結合(出力)。
🌟 クレジットおよび謝辞
ComfyUI 向けに再パッケージされた元の Wan 2.1 モデルは Comfy-Org が提供:Wan 2.1 ComfyUI Repackaged on Hugging Face。パフォーマンス向上 LoRA(Wan21_CausVid_14B_T2V_lora_rank32.safetensors)は Kijai が抽出・共有しました。元のアナウンスと詳細:Kijai's Reddit Post。Civitai での量子化 GGUF および Safetensors バージョンにより、より広範なアクセスと高速化が可能になりました。基盤の CausVid 技術(MIT ライセンスまたは同様のオープンな条件で公開されている可能性あり)の開発者たちに感謝します。
👨💻 開発者情報
このガイドは Abdallah Al-Swaiti が作成しました:
その他のツールや更新情報は、私のその他のリポジトリをご覧ください。
✨ WAN 2.1 VACE と Pastel Dream で夢のような動画を作成しよう! ✨
