[Experimental] 8GB VRAM Tik Tok Dance Workflow (AnimateLCM, Depth Controlnet, LoRA)

简介

这是一个高度实验性的工作流，用于在8GB显存下生成舞蹈视频。它要求你调整LoRA和ControlNet的相对强度。此外，你需要一个仅针对单一服饰训练的LoRA，且该服饰需大致与驱动视频匹配，才能获得良好效果。

该工作流受到Reddit用户specific_virus8061的启发，他使用8GB显存GPU制作了一支音乐视频。我注意到视频中存在形变现象，这是AnimateDiff在16帧上下文窗口下常见的限制。我尝试了多种方法来解决此问题，这个工作流就是最终成果。

适合谁？

拥有8GB显存且愿意通过调整工作流以最大化利用硬件的用户。

不适合谁？

工作流

工作流的第一部分使用固定潜变量批处理种子行为，结合深度ControlNet和角色LoRA生成图像。你使用“图像生成组”生成单帧图像，这些图像将以潜变量形式保存在output/dance文件夹中。

工作流的第二部分将这些图像通过AnimateLCM流程生成视频。将这些潜变量复制到input文件夹，并刷新ComfyUI。禁用“图像生成组”，启用“视频生成组”。现在你可以在LoadLatent节点中设置潜变量。根据视频长度，可按需添加更多LoadLatent和LatentBatch节点。

LoRA

请使用仅针对单一特定服饰训练的LoRA。你可以尝试cyberAngel发布的LoRA，每个LoRA通常仅针对一种服饰进行训练。

显存

显存使用由Meta Batch节点和两个Batch VAE解码节点控制。以下设置已测试有效。如这些设置对你无效，请留言说明。

8GB显存：Meta Batch：12，VAE解码：2

12GB显存：Meta Batch：24，VAE解码：16

结果评估

这绝非完美工作流，手部、衣领、领带、纽扣和背景均存在问题需修复。我发布此工作流，旨在让低显存用户群体能够享受乐趣，并探索该概念的极限。

所需模型

SD1.5 LCM：/model/81458?modelVersionId=256668
AnimateLCM_sd15_t2v.ckpt（https://huggingface.co/wangfuyun/AnimateLCM）
使用管理器安装：
- depth_anything_v2_vitl.pth
- control_v11f1p_sd15_depth_fp16.safetensors

所需自定义节点

使用管理器安装缺失的自定义节点：