HuMo for Wan
詳細
ファイルをダウンロード
モデル説明
HuMo: 協調的なマルチモーダル条件付けによるヒューマンセントリックな動画生成
✨ 主な特徴
HuMoは、テキスト、画像、オーディオなどのマルチモーダル入力から、高品質で微細かつ制御可能な人間動画を生成することを目的とした統合的でヒューマンセントリックな動画生成フレームワークです。強力なテキストプロンプトの追従、被写体の一貫性の維持、オーディオに同期した動作生成をサポートします。
テキスト-画像からの動画生成 - テキストプロンプトと参照画像を組み合わせて、キャラクターの外見、衣装、化粧、小物、シーンをカスタマイズできます。
テキスト-オーディオからの動画生成 - テキストとオーディオ入力のみでオーディオと同期した動画を生成し、画像参照の必要を排除して、より大きな創造的自由を実現します。
テキスト-画像-オーディオからの動画生成 - テキスト、画像、オーディオのガイドを組み合わせることで、より高度なカスタマイズと制御を実現します。
以下のソースからの例とモデルを、皆様の利便性のために再アップロードしました:
https://huggingface.co/bytedance-research/HuMo
https://github.com/Phantom-video/HuMo
480Pおよび720Pの両方の解像度に対応しています。720Pでの推論ははるかに高品質な結果をもたらします。