👑 Wan2.1-VACE-14B (LoRA 加速): CausVid LoRA で 3 ステップ動画生成を 10 倍高速化

🎬 Wan2.1 と CausVid LoRA で動画生成速度を約 10 倍に向上！ 🎬

📌 概要

Wan2.1-VACE-14B 動画ディフュージョンモデルに CausVid LoRA を組み合わせることで、高品質かつ高効率な動画生成が可能になります。特に、スリム化された 3 ステップの ComfyUI ワークフローを通じて、480p および 720p 解像度で優れた性能を発揮します。このガイドでは、この高速動画生成機能を有効化するための設定手順を解説します。フル精度モデルや、高速な Q3KL GGUF などの量子化モデルの選択肢も含みます。

🔑 主要コンポーネント

ディフュージョンモデル (14B):
- フル精度: wan2.1_vace_14B_fp16.safetensors (LoRA サンプルとの互換性を考慮して推奨)
- 量子化 (Civitai): wan2.1_vace_14B_Q4KM.safetensors
- 量子化 (GGUF - Civitai): wan2.1_vace_14B_Q3kl.gguf (5分のデモで使用。GGUF ローダーが必要)
  
  これは Hugging Face の GGUF 形式とは異なります（存在しません！）。Hugging Face のものを試しましたが、vid2vid タスクでは動作しませんでした。そのため、vid2vid に最適化された独自の形式を開発しました。これらのモデルは互換性と品質の向上を目的に最適化・構造化されています。別の形式が必要な場合は、Hugging Face 版をテストした後に「コメント」をお願いします！
パフォーマンス LoRA (速度に不可欠):
- Wan21_CausVid_14B_T2V_lora_rank32.safetensors
VAE:
- wan_2.1_vae.safetensors
テキストエンコーダー: いずれかを選択
- umt5_xxl_fp16.safetensors (LoRA ワークフローの互換性を考慮し、Kijai のラッパーと一致させるために推奨)
- umt5_xxl_fp8_e4m3fn_scaled.safetensors (軽量な fp8 版)

📁 ファイル構成

ダウンロードしたファイルを、ComfyUI ディレクトリ内に以下の構造で配置してください：

ComfyUI/
├── models/
│   ├── diffusion_models/
│   │   └── wan2.1_vace_14B_fp16.safetensors  # または Q4KM.safetensors、または Q3kl.gguf
│   ├── text_encoders/
│   │   └── umt5_xxl_fp16.safetensors         # または fp8 版
│   ├── loras/
│   │   └── Wan21_CausVid_14B_T2V_lora_rank32.safetensors
│   └── vae/
│       └── wan_2.1_vae.safetensors

🎨 モデル紹介：高速 720p シネマティックシーン

Wan2.1-VACE-14B と CausVid LoRA を組み合わせたこの設定は、720p（および 480p）の動画クリップを驚異的な速度で生成します。量子化された GGUF モデルを使えばさらに高速化されます。短時間での反復試行、クリエイティブな実験、効率的なコンテンツ制作に最適で、3 ステップのワークフローによって簡素化されています。

💡 使用上のヒント

モデルと LoRA の設定: 最大の速度と品質を得るには、適切な 14B モデル（例：wan2.1_vace_14B_fp16.safetensors または wan2.1_vace_14B_Q3kl.gguf）と Wan21_CausVid_14B_T2V_lora_rank32.safetensors LoRA を組み合わせて使用してください。LoRA の適用強度は通常 1.0 が推奨です。
テキストエンコーダー: 既存のサンプルや Kijai のオリジナルデモとの互換性を重視する場合は、umt5_xxl_fp16.safetensors を推奨します。fp8 版は VRAM を節約できます。
解像度: この設定は 480p および 720p の動画生成に最適化されています。
パフォーマンス向上:
- LoRA なし（fp16）: RTX 4090 で 81 フレームの 720p 動画は約 40 分かかります。
- CausVid LoRA 使用（fp16）: 同じ動画を RTX 4090 で約 4 分で生成可能。
- CausVid LoRA + Q3KL GGUF 使用: 適切なハードウェアと GGUF ローダーで、同程度の出力を 5 分以下で生成可能。
ワークフローの簡素化: 速度以外の最大の利点は、モデル読み込み後の生成ステップが 3 つにまで簡略化されることです。一般的な流れは以下の通りです：1. プロンプト入力（テキスト）、2. KSampler（または LoRA と選択したモデルを適用する同等ノード）、3. 動画結合（出力）。

🌟 クレジットおよび謝辞

ComfyUI 向けに再パッケージされた元の Wan 2.1 モデルは Comfy-Org が提供：Wan 2.1 ComfyUI Repackaged on Hugging Face。パフォーマンス向上 LoRA（Wan21_CausVid_14B_T2V_lora_rank32.safetensors）は Kijai が抽出・共有しました。元のアナウンスと詳細：Kijai's Reddit Post。Civitai での量子化 GGUF および Safetensors バージョンにより、より広範なアクセスと高速化が可能になりました。基盤の CausVid 技術（MIT ライセンスまたは同様のオープンな条件で公開されている可能性あり）の開発者たちに感謝します。

👨‍💻 開発者情報

このガイドは Abdallah Al-Swaiti が作成しました：

その他のツールや更新情報は、私のその他のリポジトリをご覧ください。

✨ WAN 2.1 VACE と Pastel Dream で夢のような動画を作成しよう！ ✨

No alternative text description for this image

モデルタイプ	ワークフロー
ベースモデル	Wan Video 14B i2v 720p
公開日	5/26/2025

Wan2.1-VACE-14B(pro)

詳細

ファイルをダウンロード

モデル説明