Katsuhiro Otomo 🎥 HunyuanVideo

详情

模型描述

描述

此 LoRA 基于大友克洋的动画电影《阿基拉》和《蒸汽男孩》的屏幕截图进行微调。我尚未找到使用视频训练风格的最佳方法以获得可接受的结果(目前,使用图像比视频效果更好)。此外,HV 训练的最佳参数仍未完全明确。不过,这并非我在 HunyuanVideo 系列动画 LoRA 中的最后一个作品,我希望最终能确定最优的训练参数,因为我坚信使用视频片段训练优于使用图像。

至于这个 LoRA,虽然我对它的最终效果非常满意,但它仍不完美。我将在下一个版本中尽快解决一些问题(可能涉及视频数据)。大友克洋值得拥有一个更出色的 LoRA。

使用方法

已在 默认 ComfyUI 工作流 上测试,添加了 LoRALoaderModelOnly 节点,应该也能在 Kijai 的封装中使用(但我无法确定,因为我没有使用它)。我使用的参数如下:

guidance: 7.0
steps: 30

此外,由于 此帖子 的原因,我将 temporal_size 改为 76。

展示图中的图像以 640x480 分辨率、73 帧生成(在启用 triton/sage-attention 的 RTX 3090 上,每段生成约耗时 4 分 30 秒)。HV 输出对分辨率敏感,较低分辨率更容易引入不必要的瑕疵。

触发词为 "Katsuhiro Otomo style"。画廊中的大部分提示由 ChatGTP/Claude 根据以下输入生成:

使用以下模板为视频生成模型创建 20 条提示:"Katsuhiro Otomo style. {CAMERA MOVEMENT} camera. {CHARACTER, 简要描述其外貌和关键视觉特征},正在 {具体的动态动作,带有强烈的视觉提示}。背景是 {简洁生动的环境描述,包含显著特征与氛围细节}。"
独特的镜头运动类型包括:推近、拉远、上摇、下摇、左摇、右摇、仰角、俯角、左倾、右倾、绕左、绕右、固定镜头和手持镜头。
使用简洁描述,将复杂描述拆分为多句。避免模糊或抽象表达。
主题为金发女孩与各种机械在动态场景中,风格类似《阿基拉》或《蒸汽男孩》,但不提及这些片名。

我仅随机将主题替换为类似“后末日环境中性感半裸的金发女孩”,并尝试了各种镜头类型与运动方式,同时保持核心结构不变。(仅那些包含拼写错误的提示是手动编写的 😌)

如果生成结果偏向半写实风格或退化为通用动漫风格,请尝试:

  • 移除与摄影相关的术语,例如“特写”或“广角”,直接描述主体,例如“一位灰眼睛、宽鼻梁的金发女性”。

  • 避免使用抽象副词,如“高贵的战士”、“凶猛的女孩”,因为可能引入歧义,尽量具体化描述。

  • 提高分辨率和/或帧数。

  • 更换随机种子 🤷

  • 如果场景显得过于静态,可使用“动态”、“富有表现力”、“正在情绪化反应...”、“带有明显困惑...”等词语增强动感。

对于当前使用此 LoRA 时可能存在的风格不一致等不便,我深表歉意。我希望能于下一版本中解决这些问题,提升风格一致性。

训练细节

如前所述,此 LoRA 仅使用图像进行微调。共使用了 103 张屏幕截图(1500x806):62 张来自《阿基拉》,41 张来自《蒸汽男孩》(数据集已包含)。标注由 CogVLM2 完成,我不记得确切的标注提示,大概是“为这张图像生成一段简短描述,无需提及风格细节”。我怀疑这并非最优选择,因为 HV 似乎不喜欢简短提示,并已存在 推荐的提示结构

训练在 diffusion-pipe 上进行,环境为 Windows 11 WSL2,64 GB 内存,RTX 3090。仅修改了以下训练参数:

rank = 16
lr = 5e-5

数据集参数均为默认值,仅修改了:

resolutions = [768]

此模型生成的图像

未找到图像。