HuMo for Wan

详情

下载文件

模型描述

HuMo:基于协同多模态条件的人体中心视频生成

✨ 主要特性

HuMo 是一个统一的、以人体为中心的视频生成框架,旨在从多模态输入(包括文本、图像和音频)中生成高质量、细粒度且可控制的人体视频。它支持强大的文本提示跟随、一致的主体保留以及与音频同步的运动生成。

  • ​​文本-图像生成视频​​ - 通过结合文本提示与参考图像,自定义角色外观、服装、妆容、道具和场景。

  • ​​文本-音频生成视频​​ - 仅通过文本和音频输入生成与音频同步的视频,无需图像参考,带来更大的创作自由度。

  • ​​文本-图像-音频生成视频​​ - 通过结合文本、图像和音频引导,实现更高水平的自定义与控制。

为便于您使用,以下来源的示例和模型已重新上传:
https://huggingface.co/bytedance-research/HuMo
https://github.com/Phantom-video/HuMo

兼容 480P 和 720P 分辨率。720P 推理将获得更优的画质。

此模型生成的图像

未找到图像。