[Experimental] 8GB VRAM Tik Tok Dance Workflow (AnimateLCM, Depth Controlnet, LoRA)

详情

模型描述

简介

这是一个高度实验性的工作流,用于在8GB显存下生成舞蹈视频。它要求你调整LoRA和ControlNet的相对强度。此外,你需要一个仅针对单一服饰训练的LoRA,且该服饰需大致与驱动视频匹配,才能获得良好效果。

该工作流受到Reddit用户specific_virus8061的启发,他使用8GB显存GPU制作了一支音乐视频。我注意到视频中存在形变现象,这是AnimateDiff在16帧上下文窗口下常见的限制。我尝试了多种方法来解决此问题,这个工作流就是最终成果。

Reddit帖子链接:https://www.reddit.com/r/StableDiffusion/comments/1fsz1dp/potato_vram_ai_music_video/

适合谁?

拥有8GB显存且愿意通过调整工作流以最大化利用硬件的用户。

不适合谁?

  • 寻求一键式工作流的用户。

  • 拥有足够显存运行MimicMotion等完整解决方案的用户。

工作流

工作流的第一部分使用固定潜变量批处理种子行为,结合深度ControlNet和角色LoRA生成图像。你使用“图像生成组”生成单帧图像,这些图像将以潜变量形式保存在output/dance文件夹中。

工作流的第二部分将这些图像通过AnimateLCM流程生成视频。将这些潜变量复制到input文件夹,并刷新ComfyUI。禁用“图像生成组”,启用“视频生成组”。现在你可以在LoadLatent节点中设置潜变量。根据视频长度,可按需添加更多LoadLatent和LatentBatch节点。

LoRA

请使用仅针对单一特定服饰训练的LoRA。你可以尝试cyberAngel发布的LoRA,每个LoRA通常仅针对一种服饰进行训练。

https://civitai.com/user/cyberAngel_/models?baseModels=SD+1.5

显存

显存使用由Meta Batch节点和两个Batch VAE解码节点控制。以下设置已测试有效。如这些设置对你无效,请留言说明。

8GB显存:Meta Batch:12,VAE解码:2

12GB显存:Meta Batch:24,VAE解码:16

结果评估

这绝非完美工作流,手部、衣领、领带、纽扣和背景均存在问题需修复。我发布此工作流,旨在让低显存用户群体能够享受乐趣,并探索该概念的极限。

所需模型

所需自定义节点

使用管理器安装缺失的自定义节点:

  • ComfyUI的ControlNet辅助预处理器

  • ComfyUI帧插值

  • ComfyUI-Advanced-ControlNet

  • AnimateDiff Evolved

  • ComfyUI-VideoHelperSuite

  • rgthree的ComfyUI节点

  • KJNodes for ComfyUI

  • Crystools

此模型生成的图像

未找到图像。