[Experimental] 8GB VRAM Tik Tok Dance Workflow (AnimateLCM, Depth Controlnet, LoRA)
詳細
ファイルをダウンロード
このバージョンについて
モデル説明
紹介
これは、8GB VRAMで動作するダンス動画を生成するための非常に実験的なワークフローです。LoRAとControlNetの相対的な強度を調整する必要があり、また、1つの衣装のみでトレーニングされたLoRAが必要です。この衣装は、ドライビング動画とおおむね一致している必要があります。
このワークフローは、Redditユーザーのspecific_virus8061氏が8GB VRAMのGPUで音楽ビデオを作成したことにインスパイアされました。私は動画の変形に気づき、これはAnimateDiffの16フレームのコンテキストウィンドウにおける一般的な制限です。この問題を回避するためにさまざまな方法を試した結果、このワークフローが生まれました。
Reddit投稿へのリンク: https://www.reddit.com/r/StableDiffusion/comments/1fsz1dp/potato_vram_ai_music_video/
誰向けですか?
8GB VRAMの環境を持ち、ハードウェアの性能を最大限に引き出すためにワークフローを調整することに抵抗のない方。
誰向けではありませんか?
- クリック1回で完了するワークフローを探している方。
- MimicMotionのような本格的なソリューションを実行できる十分なVRAMを持つ方。
ワークフロー
ワークフローの第1部では、固定された潜在変数バッチシードを使用し、深度ControlNetとキャラクターLoRAを用いて画像を生成します。画像生成グループを使って個々のフレームを生成し、それらはoutput/danceフォルダに潜在変数として保存されます。
ワークフローの第2部では、これらの画像をAnimateLCM経由で動画に変換します。生成された潜在変数をinputフォルダにコピーし、ComfyUIを更新してください。画像生成グループを無効化し、動画生成グループを有効化します。その後、LoadLatentノードで潜在変数を設定できます。動画の長さに応じて、必要に応じてさらにLoadLatentノードやLatentBatchノードを追加できます。
LoRA
1つの特定の衣装のみでトレーニングされたLoRAを使用してください。cyberAngel氏が作成したLoRAをお試しください。各LoRAは通常、1つの衣装に対してトレーニングされています。
https://civitai.com/user/cyberAngel_/models?baseModels=SD+1.5
VRAM
VRAMの使用量は、Meta Batchノードと2つのBatch VAEデコードノードによって制御されます。以下の設定は動作が確認されています。これらの設定がご使用環境で動作しない場合は、コメントをお願いします。
8GB VRAM: Meta Batch: 12, VAE Decode: 2
12GB VRAM: Meta Batch: 24, VAE Decode: 16
結果の評価
このワークフローは決して完璧ではありません。手、襟、ネクタイ、ボタン、背景などに問題が残っています。このワークフローを、VRAMが少ないコミュニティの皆様に提供し、楽しみながらこのコンセプトをどこまで拡張できるかを試していただきたいと考えています。
必要なモデル
SD1.5 LCM: /model/81458?modelVersionId=256668
AnimateLCM_sd15_t2v.ckpt (https://huggingface.co/wangfuyun/AnimateLCM)
Managerを使用してインストール:
depth_anything_v2_vitl.pth
control_v11f1p_sd15_depth_fp16.safetensors
必要なカスタムノード
Managerを使って不足しているカスタムノードをインストールしてください。
ComfyUI's ControlNet Auxiliary Preprocessors
ComfyUI Frame Interpolation
ComfyUI-Advanced-ControlNet
AnimateDiff Evolved
ComfyUI-VideoHelperSuite
rgthree's ComfyUI Nodes
KJNodes for ComfyUI
Crystools