Wan2.2_S2V_text to "mouth shape" video - Dual sampler version

詳細

ファイルをダウンロード

モデル説明

下のリンクをクリックすると、直接試すことができます。効果が良ければ、ローカルにデプロイしてください。

https://www.runninghub.ai/post/1967887101318541313/?inviteCode=1cqzbf7a

ファン特典:登録で1000ポイント獲得、毎日ログインで100ポイント、4090をプレイ!48Gの超パワーを体験してください。

テスト結果に基づくと、S2Vのリップシンク動画は、リップシンクが必要で、動作と会話の両方が必要な状況にのみ適しています。人物以外の動画を生成することは推奨されず、音声としてボーカル音楽または純粋なボーカルを使用するのが最適です。5秒の音声の最初の2秒が純粋なボーカルで、最後の3秒が背景音楽であると、干渉が発生しやすくなります。

ローカルデプロイに必要なモデル:

  1. Wan2.2 T2V high(ファイル名:wan2.2_t2w_high_noise_14B_fp16.safetensors)
    https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/tree/main/split_files/diffusion_models
    配置フォルダ:models\diffusionmodels

  2. Wan2.2 S2V(ファイル名:wan2.2_st2v5_14B-bf16.safetensors)
    https://hf-mirror.com/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/tree/main/split_files/diffusion_models
    配置フォルダ:models\diffusionmodels

  3. wav2vec2_large_english_fp16
    https://hf-mirror.com/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/tree/main/split_files/audio_encoders
    配置フォルダ:models\audio_coders

注意:
WanSoundImageToVideo エラー:プラグインのバージョンを更新してください。
AudioSeparation エラー:削除して再インストールしてください。

このモデルで生成された画像

画像が見つかりません。