大摆锤 dance ——framepack
详情
下载文件
模型描述
基于 FramePack
1.5 版本仅在单个视频上训练,相较于 1.0 版本在运动动态和动作连贯性方面均有提升。然而,这种方法在某些方面出现了过拟合,例如肢体比例不自然,我目前正在解决这一问题。为获得最佳效果,建议生成时长为 7.5 秒、分辨率为 448x752 的内容。
你可以使用牛仔镜头、双手叉腰来生成第一帧图像。
v1.0
使用 Musubi 训练器进行的 FramePack LoRA 训练,共使用了 13 个视频来生成大摆舞内容。
你可以下载此视频,然后拖入 ComfyUI 查看工作流和参数
训练在 4090 显卡上耗时约 24 小时。我强烈建议使用 VRAM 超过 24GB 的 GPU 进行训练。
我仅在 BF16 精度下测试过此模型,未在 FP8 精度下进行任何评估。
感谢 青龙圣者 对训练参数相关问题的解答。
可以观察到,即使未使用 F1,FramePack 在采用 LoRA 时也能显著提升运动幅度。
因此,我在想,是否仅用一个 LoRA 就能大幅放大所有运动幅度?
在 RTX 4080 32GB 上,平均生成每秒内容耗时约 1 分钟。