Hunyuan Video Lora. Anime, Akame ga kill. Akame. v1
详情
下载文件
关于此版本
模型描述
Hunyuan 视频 LoRA。动漫《Akame ga Kill!》。Akame。v1
这是我第一个 LoRA 训练项目。我有以下几个问题:
哪种标题效果最好?我遵循了这样的结构:"""<标签>, <视角>, <角色+视觉描述>, <更精确的视角>"""
应该使用什么分辨率的视频?我使用了 [768, 480]。使用不同分辨率的视频更好,还是统一分辨率更好?
如何确定这个值 "frame_buckets = [1, 16, 33, 65, 97, 129]"?我选择这个是因为数据集中的视频时长在 0.6 秒到 4.93 秒之间。
"video_clip_mode" 是什么?我选择了 multiple_overlapping,但为什么选这个而不是其他选项?
如果我想提升 LoRA 的质量,以下哪项更重要:
- A:收集更多数据;
- B:制作更好的标题;
- C:仅收集针对单一任务或单一动作的数据;
训练 LoRA 时,使用图像和视频结合更好,还是只用视频更好?
很难决定最优的推理参数,因为可调的参数太多了。
如果有人能解答以上问题,我将非常高兴阅读您的答案。
描述
该 Hunyuan LoRA 模型基于动漫第一集中 Akame 的短视频片段进行训练,共 29 个片段,平均时长:2.16 秒。使用 Diffusion-pipe 仓库进行训练。
您可以在以下链接查看训练配置、工作流程、LoRA 模型和所有数据:akame_v1
推理参数
- lora_strength: 1.0
- dtype: bfloat16
- resolution: [[768,480]](宽,高)
- num_frames: 93
- steps: 20
- embedded_guidance_scale: 9.00 *注意:我发现这个值对我的其他 LoRA 效果良好,因此这里沿用,但建议尝试调整;
- enhance video weight: 4.0 *注意:我认为此参数也可调整,且增强视频节点中还有其他参数。
数据
- 数量:29 个片段,时长从 0.6 秒到 4.93 秒
- 平均长度:2.16 秒
数据通过 OpenShot 程序手动收集,从一部动漫剧集中采集 29 个片段耗时约 1 小时,再使用 Sonnet 3.5 生成标题并手动修正错误,又耗时约 1 小时。
