大摆锤 dance ——framepack

詳細

ファイルをダウンロード

モデル説明

framepack をベースに

単一の動画のみで学習された1.5バージョンは、1.0バージョンと比較して運動ダイナミクスが向上し、より一貫したアクションシーケンスを実現しています。ただし、このアプローチにより、不自然な四肢の比率などの部分で過学習が発生しており、現在その対応を進めています。最適な結果を得るには、7.5秒の長さ、解像度448x752でコンテンツを生成することをお勧めします。

最初の画像を生成するには、カウボーイショットや手を腰に当てた構図を使用できます。


v1.0

Musubiトナーを使用して実施したFramePack LoRAの学習では、ビッグスイングダンスの生成に13本の動画を使用しました。

この動画をダウンロードし、ComfyUIにドラッグしてワークフローとパラメータを確認できます。

学習には4090で約24時間かかりました。学習にはVRAMが24GB以上のGPUを使用することを強くお勧めします。

BF16精度でのみテスト済みであり、FP8精度での評価は行っていません。

学習パラメータに関するいくつかの質問に対応していただいた青龍聖者に感謝します。

F1を使用しなくても、FramePackはLoRAを用いることで運動の振幅に顕著な改善をもたらしていることが観察できます。

そのため、単一のLoRAですべての運動振幅を大幅に増幅できるのではないかと考えています。

RTX 4080 32GBでは、生成に平均1秒あたり1分かかります。

このモデルで生成された画像

画像が見つかりません。