Hunyuan Video Lora. Anime, Akame ga kill. Akame. v1

详情

模型描述

Hunyuan 视频 LoRA。动漫《Akame ga Kill!》。Akame。v1

这是我第一个 LoRA 训练项目。我有以下几个问题:

  1. 哪种标题效果最好?我遵循了这样的结构:"""<标签>, <视角>, <角色+视觉描述>, <更精确的视角>"""

  2. 应该使用什么分辨率的视频?我使用了 [768, 480]。使用不同分辨率的视频更好,还是统一分辨率更好?

  3. 如何确定这个值 "frame_buckets = [1, 16, 33, 65, 97, 129]"?我选择这个是因为数据集中的视频时长在 0.6 秒到 4.93 秒之间。

  4. "video_clip_mode" 是什么?我选择了 multiple_overlapping,但为什么选这个而不是其他选项?

  5. 如果我想提升 LoRA 的质量,以下哪项更重要:

    • A:收集更多数据;
    • B:制作更好的标题;
    • C:仅收集针对单一任务或单一动作的数据;
  6. 训练 LoRA 时,使用图像和视频结合更好,还是只用视频更好?

  7. 很难决定最优的推理参数,因为可调的参数太多了。

如果有人能解答以上问题,我将非常高兴阅读您的答案。

描述

该 Hunyuan LoRA 模型基于动漫第一集中 Akame 的短视频片段进行训练,共 29 个片段,平均时长:2.16 秒。使用 Diffusion-pipe 仓库进行训练。

您可以在以下链接查看训练配置、工作流程、LoRA 模型和所有数据:akame_v1

推理参数

  • lora_strength: 1.0
  • dtype: bfloat16
  • resolution: [[768,480]](宽,高)
  • num_frames: 93
  • steps: 20
  • embedded_guidance_scale: 9.00 *注意:我发现这个值对我的其他 LoRA 效果良好,因此这里沿用,但建议尝试调整;
  • enhance video weight: 4.0 *注意:我认为此参数也可调整,且增强视频节点中还有其他参数。

数据

  • 数量:29 个片段,时长从 0.6 秒到 4.93 秒
  • 平均长度:2.16 秒

数据通过 OpenShot 程序手动收集,从一部动漫剧集中采集 29 个片段耗时约 1 小时,再使用 Sonnet 3.5 生成标题并手动修正错误,又耗时约 1 小时。

此模型生成的图像

未找到图像。