HuMo for Wan
详情
下载文件
模型描述
HuMo:基于协同多模态条件的人体中心视频生成
✨ 主要特性
HuMo 是一个统一的、以人体为中心的视频生成框架,旨在从多模态输入(包括文本、图像和音频)中生成高质量、细粒度且可控制的人体视频。它支持强大的文本提示跟随、一致的主体保留以及与音频同步的运动生成。
文本-图像生成视频 - 通过结合文本提示与参考图像,自定义角色外观、服装、妆容、道具和场景。
文本-音频生成视频 - 仅通过文本和音频输入生成与音频同步的视频,无需图像参考,带来更大的创作自由度。
文本-图像-音频生成视频 - 通过结合文本、图像和音频引导,实现更高水平的自定义与控制。
为便于您使用,以下来源的示例和模型已重新上传:
https://huggingface.co/bytedance-research/HuMo
https://github.com/Phantom-video/HuMo
兼容 480P 和 720P 分辨率。720P 推理将获得更优的画质。