Wan2.1-VACE-14B(pro)

詳細

ファイルをダウンロード

モデル説明

👑 Wan2.1-VACE-14B (LoRA 加速): CausVid LoRA で 3 ステップ動画生成を 10 倍高速化

🎬 Wan2.1 と CausVid LoRA で動画生成速度を約 10 倍に向上! 🎬

📌 概要

Wan2.1-VACE-14B 動画ディフュージョンモデルに CausVid LoRA を組み合わせることで、高品質かつ高効率な動画生成が可能になります。特に、スリム化された 3 ステップの ComfyUI ワークフローを通じて、480p および 720p 解像度で優れた性能を発揮します。このガイドでは、この高速動画生成機能を有効化するための設定手順を解説します。フル精度モデルや、高速な Q3KL GGUF などの量子化モデルの選択肢も含みます。

🔑 主要コンポーネント

  1. ディフュージョンモデル (14B):

    • フル精度: wan2.1_vace_14B_fp16.safetensors (LoRA サンプルとの互換性を考慮して推奨)

    • 量子化 (Civitai): wan2.1_vace_14B_Q4KM.safetensors

    • 量子化 (GGUF - Civitai): wan2.1_vace_14B_Q3kl.gguf (5分のデモで使用。GGUF ローダーが必要)

      これは Hugging Face の GGUF 形式とは異なります(存在しません!)。Hugging Face のものを試しましたが、vid2vid タスクでは動作しませんでした。そのため、vid2vid に最適化された独自の形式を開発しました。これらのモデルは互換性と品質の向上を目的に最適化・構造化されています。別の形式が必要な場合は、Hugging Face 版をテストした後に「コメント」をお願いします!

  2. パフォーマンス LoRA (速度に不可欠):

  3. VAE:

  4. テキストエンコーダー: いずれかを選択

📁 ファイル構成

ダウンロードしたファイルを、ComfyUI ディレクトリ内に以下の構造で配置してください:

ComfyUI/
├── models/
│   ├── diffusion_models/
│   │   └── wan2.1_vace_14B_fp16.safetensors  # または Q4KM.safetensors、または Q3kl.gguf
│   ├── text_encoders/
│   │   └── umt5_xxl_fp16.safetensors         # または fp8 版
│   ├── loras/
│   │   └── Wan21_CausVid_14B_T2V_lora_rank32.safetensors
│   └── vae/
│       └── wan_2.1_vae.safetensors

🎨 モデル紹介:高速 720p シネマティックシーン

Wan2.1-VACE-14B と CausVid LoRA を組み合わせたこの設定は、720p(および 480p)の動画クリップを驚異的な速度で生成します。量子化された GGUF モデルを使えばさらに高速化されます。短時間での反復試行、クリエイティブな実験、効率的なコンテンツ制作に最適で、3 ステップのワークフローによって簡素化されています。

💡 使用上のヒント

  • モデルと LoRA の設定: 最大の速度と品質を得るには、適切な 14B モデル(例:wan2.1_vace_14B_fp16.safetensors または wan2.1_vace_14B_Q3kl.gguf)と Wan21_CausVid_14B_T2V_lora_rank32.safetensors LoRA を組み合わせて使用してください。LoRA の適用強度は通常 1.0 が推奨です。

  • テキストエンコーダー: 既存のサンプルや Kijai のオリジナルデモとの互換性を重視する場合は、umt5_xxl_fp16.safetensors を推奨します。fp8 版は VRAM を節約できます。

  • 解像度: この設定は 480p および 720p の動画生成に最適化されています。

  • パフォーマンス向上:

    • LoRA なし(fp16): RTX 4090 で 81 フレームの 720p 動画は約 40 分かかります。

    • CausVid LoRA 使用(fp16): 同じ動画を RTX 4090 で約 4 分で生成可能。

    • CausVid LoRA + Q3KL GGUF 使用: 適切なハードウェアと GGUF ローダーで、同程度の出力を 5 分以下で生成可能。

  • ワークフローの簡素化: 速度以外の最大の利点は、モデル読み込み後の生成ステップが 3 つにまで簡略化されることです。一般的な流れは以下の通りです:1. プロンプト入力(テキスト)、2. KSampler(または LoRA と選択したモデルを適用する同等ノード)、3. 動画結合(出力)。

🌟 クレジットおよび謝辞

ComfyUI 向けに再パッケージされた元の Wan 2.1 モデルは Comfy-Org が提供:Wan 2.1 ComfyUI Repackaged on Hugging Face。パフォーマンス向上 LoRA(Wan21_CausVid_14B_T2V_lora_rank32.safetensors)は Kijai が抽出・共有しました。元のアナウンスと詳細:Kijai's Reddit Post。Civitai での量子化 GGUF および Safetensors バージョンにより、より広範なアクセスと高速化が可能になりました。基盤の CausVid 技術(MIT ライセンスまたは同様のオープンな条件で公開されている可能性あり)の開発者たちに感謝します。

👨‍💻 開発者情報

このガイドは Abdallah Al-Swaiti が作成しました:

  1. Hugging Face

  2. GitHub

  3. LinkedIn

  4. ComfyUI-OllamaGemini

その他のツールや更新情報は、私のその他のリポジトリをご覧ください。

✨ WAN 2.1 VACE と Pastel Dream で夢のような動画を作成しよう! ✨

No alternative text description for this image

このモデルで生成された画像

画像が見つかりません。