HyVid - High Quality & Fast Speed Generation for 24GB Cards - Hunyuan Video Workflow

詳細

ファイルをダウンロード

モデル説明

このワークフローでは、416x736解像度、24FPS、5秒のクリップを90〜120秒(生成に約75秒、デコードに約25秒、BF16モデルと複数のLoRAを使用)で出力しています。(アップスケーリングは追加時間がかかります)[コンパイルまたはTeaCacheが使用できない場合、生成時間が長くなります。]生成中に約18GBのVRAMを使用します。

このワークフローはRTX 4090(VRAM 24GB、RAM 64GB、Windows 10環境)を前提に設計しました。その他のハードウェアやオペレーティングシステムに関する推奨は提供できません。

Hunyuan VideoのBF16モデルは、Triton TorchコンパイルとTeaCacheを使用すると、キャッシュが温まれば90〜120秒で生成できます(PyTorchのバージョンによっては、ワークフローのノートに記載されているガイドに従ってPyTorchファイルを編集する必要がある場合があります)。モデルの読み込み中はPCが非常に遅くなることがありますが、お待ちください。

これまでの試行錯誤の結果、最適なスピードと出力品質は416x736解像度(または反転)、121フレーム(24FPSで5秒のクリップ)、ステップ数20〜30(使用するLoRAによって異なります)であることがわかりました。

試したほとんどのLoRAは、強度0.5〜1.0で良好に動作します。複数のLoRAを混合する際は、1つまたは複数のLoRAの強度を下げることが必要になる場合があります。ぼやけたり、ノイズが入った動画になる場合は、強度をさらに下げてみてください。

これらの発見の多くは試行錯誤によるものであり、特にTriton TorchコンパイルとTeaCacheに関しては、現在の設定以外の詳しいアドバイスは難しいです。WindowsにTritonをインストールするのは非常に苦労しました。以下のガイドを使用しました:https://old.reddit.com/r/StableDiffusion/comments/1h7hunp/how_to_run_hunyuanvideo_on_a_single_24gb_vram_card/

このすべては、kijaiおよびComfyUI-HunyuanVideoWrapperを開発したチームがいなければ実現できませんでした。彼らに大きな感謝を。

必須のカスタムノードパッケージ

必須のモデル

アップスケールおよびフレーム補間モデル

このワークフローが役に立った場合は、Buzzの寄付をご検討ください。そうすれば、私のLoRAトレーニングおよびワークフロー開発をさらに進めることができます。

改善点や問題点を見つけた場合は、投稿にコメントをお願いします。

このモデルで生成された画像

画像が見つかりません。