WAN 2.2 S2V 14B GGUF
詳細
ファイルをダウンロード
モデル説明
Wan-S2Vは、静止画像と音声を高品質な動画に変換するAI動画生成モデルです。
WIP: 必要なすべての情報・ツールを追加中!一部注意して使用してください 🤪
注意: S2Vは、最初の数フレームで非常に鮮やかで過剰に彩度の高い画像を生成する可能性が高くなります。これは現時点ですべてのWan 2.2 S2Vモデルに共通する制限です。
必須環境:
4/8ステップ動作用
lite lora(オプション)メインモデル Wan2.2-S2V-14B
ComfyUI/models/unetGGUF音声エンコーダー wav2vec2_large_english
ComfyUI/models/audio_encodersエンコーダー Umt5-xxl
ComfyUI/models/text_encodersWan2.1_VAE.safetensors
ComfyUI/models/vae
使用のヒント:
- 音声ファイルの長さは、動画ファイルの長さ(秒)とほぼ同じにするとよいです。
👂🎶 👉 ヒント: サンプルをクリックしてフルスクリーン表示し、音量をオンにして投稿から再生してください!
参照:
Clip: https://huggingface.co/city96/umt5-xxl-encoder-gguf/
Model: https://huggingface.co/QuantStack/Wan2.2-S2V-14B-GGUF/
Lite LoRA: https://huggingface.co/calcuis/wan2-gguf/
出力内容については常にあなた自身が責任を負ってください! 利用規約 に違反するコンテンツを作成した場合、私がそれを確認した際には報告します。
