WAN 2.2 S2V 14B GGUF

詳細

ファイルをダウンロード

モデル説明

Wan-S2Vは、静止画像と音声を高品質な動画に変換するAI動画生成モデルです。

WIP: 必要なすべての情報・ツールを追加中!一部注意して使用してください 🤪

注意: S2Vは、最初の数フレームで非常に鮮やかで過剰に彩度の高い画像を生成する可能性が高くなります。これは現時点ですべてのWan 2.2 S2Vモデルに共通する制限です。

必須環境:

  • 4/8ステップ動作用 lite lora(オプション)

  • メインモデル Wan2.2-S2V-14B ComfyUI/models/unet GGUF

  • 音声エンコーダー wav2vec2_large_english ComfyUI/models/audio_encoders

  • エンコーダー Umt5-xxl ComfyUI/models/text_encoders

  • Wan2.1_VAE.safetensors ComfyUI/models/vae

使用のヒント:

  • 音声ファイルの長さは、動画ファイルの長さ(秒)とほぼ同じにするとよいです。

👂🎶 👉 ヒント: サンプルをクリックしてフルスクリーン表示し、音量をオンにして投稿から再生してください!

参照:

Clip: https://huggingface.co/city96/umt5-xxl-encoder-gguf/

Model: https://huggingface.co/QuantStack/Wan2.2-S2V-14B-GGUF/

Lite LoRA: https://huggingface.co/calcuis/wan2-gguf/


出力内容については常にあなた自身が責任を負ってください! 利用規約 に違反するコンテンツを作成した場合、私がそれを確認した際には報告します。

このモデルで生成された画像

画像が見つかりません。