framepack をベースに

単一の動画のみで学習された1.5バージョンは、1.0バージョンと比較して運動ダイナミクスが向上し、より一貫したアクションシーケンスを実現しています。ただし、このアプローチにより、不自然な四肢の比率などの部分で過学習が発生しており、現在その対応を進めています。最適な結果を得るには、7.5秒の長さ、解像度448x752でコンテンツを生成することをお勧めします。

最初の画像を生成するには、カウボーイショットや手を腰に当てた構図を使用できます。

Musubiトナーを使用して実施したFramePack LoRAの学習では、ビッグスイングダンスの生成に13本の動画を使用しました。

学習には4090で約24時間かかりました。学習にはVRAMが24GB以上のGPUを使用することを強くお勧めします。

BF16精度でのみテスト済みであり、FP8精度での評価は行っていません。

学習パラメータに関するいくつかの質問に対応していただいた青龍聖者に感謝します。

そのため、単一のLoRAですべての運動振幅を大幅に増幅できるのではないかと考えています。

RTX 4080 32GBでは、生成に平均1秒あたり1分かかります。

モデルタイプ	LORA
ベースモデル	Hunyuan Video
公開日	6/12/2025
トレーニングワード	One person is dancing to the dance dabaichui.The person performs a series of confident dance moves, arching her back, raising her arms behind her head, and swaying her long hair to the rhythm.