大摆锤 dance ——framepack

详情

模型描述

基于 FramePack

1.5 版本仅在单个视频上训练,相较于 1.0 版本在运动动态和动作连贯性方面均有提升。然而,这种方法在某些方面出现了过拟合,例如肢体比例不自然,我目前正在解决这一问题。为获得最佳效果,建议生成时长为 7.5 秒、分辨率为 448x752 的内容。

你可以使用牛仔镜头、双手叉腰来生成第一帧图像。


v1.0

使用 Musubi 训练器进行的 FramePack LoRA 训练,共使用了 13 个视频来生成大摆舞内容。

你可以下载此视频,然后拖入 ComfyUI 查看工作流和参数

训练在 4090 显卡上耗时约 24 小时。我强烈建议使用 VRAM 超过 24GB 的 GPU 进行训练。

我仅在 BF16 精度下测试过此模型,未在 FP8 精度下进行任何评估。

感谢 青龙圣者 对训练参数相关问题的解答。

可以观察到,即使未使用 F1,FramePack 在采用 LoRA 时也能显著提升运动幅度。

因此,我在想,是否仅用一个 LoRA 就能大幅放大所有运动幅度?

在 RTX 4080 32GB 上,平均生成每秒内容耗时约 1 分钟。

此模型生成的图像

未找到图像。