[Experimental] 8GB VRAM Tik Tok Dance Workflow (AnimateLCM, Depth Controlnet, LoRA)
详情
下载文件
关于此版本
模型描述
简介
这是一个高度实验性的工作流,用于在8GB显存下生成舞蹈视频。它要求你调整LoRA和ControlNet的相对强度。此外,你需要一个仅针对单一服饰训练的LoRA,且该服饰需大致与驱动视频匹配,才能获得良好效果。
该工作流受到Reddit用户specific_virus8061的启发,他使用8GB显存GPU制作了一支音乐视频。我注意到视频中存在形变现象,这是AnimateDiff在16帧上下文窗口下常见的限制。我尝试了多种方法来解决此问题,这个工作流就是最终成果。
Reddit帖子链接:https://www.reddit.com/r/StableDiffusion/comments/1fsz1dp/potato_vram_ai_music_video/
适合谁?
拥有8GB显存且愿意通过调整工作流以最大化利用硬件的用户。
不适合谁?
寻求一键式工作流的用户。
拥有足够显存运行MimicMotion等完整解决方案的用户。
工作流
工作流的第一部分使用固定潜变量批处理种子行为,结合深度ControlNet和角色LoRA生成图像。你使用“图像生成组”生成单帧图像,这些图像将以潜变量形式保存在output/dance文件夹中。
工作流的第二部分将这些图像通过AnimateLCM流程生成视频。将这些潜变量复制到input文件夹,并刷新ComfyUI。禁用“图像生成组”,启用“视频生成组”。现在你可以在LoadLatent节点中设置潜变量。根据视频长度,可按需添加更多LoadLatent和LatentBatch节点。
LoRA
请使用仅针对单一特定服饰训练的LoRA。你可以尝试cyberAngel发布的LoRA,每个LoRA通常仅针对一种服饰进行训练。
https://civitai.com/user/cyberAngel_/models?baseModels=SD+1.5
显存
显存使用由Meta Batch节点和两个Batch VAE解码节点控制。以下设置已测试有效。如这些设置对你无效,请留言说明。
8GB显存:Meta Batch:12,VAE解码:2
12GB显存:Meta Batch:24,VAE解码:16
结果评估
这绝非完美工作流,手部、衣领、领带、纽扣和背景均存在问题需修复。我发布此工作流,旨在让低显存用户群体能够享受乐趣,并探索该概念的极限。
所需模型
SD1.5 LCM:/model/81458?modelVersionId=256668
AnimateLCM_sd15_t2v.ckpt(https://huggingface.co/wangfuyun/AnimateLCM)
使用管理器安装:
depth_anything_v2_vitl.pth
control_v11f1p_sd15_depth_fp16.safetensors
所需自定义节点
使用管理器安装缺失的自定义节点:
ComfyUI的ControlNet辅助预处理器
ComfyUI帧插值
ComfyUI-Advanced-ControlNet
AnimateDiff Evolved
ComfyUI-VideoHelperSuite
rgthree的ComfyUI节点
KJNodes for ComfyUI
Crystools