Donut Mochi Pack - Video Generation
詳細
ファイルをダウンロード
モデル説明
MOCHI ビデオジェネレーター
(結果は v1、v2 などのギャラリーにあります。上部のタブをクリックしてください)
V8 以降で真の i2v ワークフローを追加、詳細はメイン記事をご覧ください
ビデオは未定
ショーケース特集:(主に1つの ACE-HOLO promptgen 行で作成)
pack 更新 V7 + ACE-HoloFS 用特別ビデオ promptgen ガイド
V7 デモリール(Shuffle Video Studio で作成)
これまでの研究のまとめ、さらに詳細な手順/情報
現在のリーダー: (V7 ギャラリー) (V8 は画像エンコードを追加)
"\V7-Spatial-Tiling-VAE\Donut-Mochi-848x480-t2v-BatchedLatentSideload-v55"
i2v バージョンでは LLM ビデオ promptgen を使用、t2v では Zenkai-prompt + DJZ-LoadLatent を使用。
Kijai による作業中プロジェクト
情報/セットアップ/インストールガイド:https://civitai.com/articles/8313
Torch 2.5.0 以上が必要なので、使用中の Torch を更新してください。
CogVideo ワークフローと同様、プレビューを試したい方のために提供されています :)
4090 であっても限界を少し押し広げられます。私が V1 でタイル最適化を研究するために使用したワークフローを以下に提供します:
デフォルト値からタイルサイズを約20-40%削減しています
その分、フレームバッチサイズを増やしています
可視なシームを防ぐため、オーバーラップ係数は維持しています
主な原則:
タイルサイズは、効率的な処理のため可能な限り 32 の倍数にすること
元のタイルサイズと同様の幅:高さ比を保つこと
フレームバッチサイズの増加は控えめにし、フレームスキップを避けること
研究者へのヒント!
固定シードを使用する場合、サンプラーはメモリに保持されるため、 最初の生成には約1700秒かかりましたが 、デコーダへの変更により 次の動画は約23秒で生成可能になります。サンプラーは既にすべての作業を終えているため、新しいシードを使用しない限り、同じサンプルを繰り返し使用します。 VAEデコード速度は非常に良好です!
^ 同一シードでの後続の生成は非常に高速で、デコーダ設定の調整が可能 ^
^ 初回生成では PyTorch 2.5.0 SDP を使用し、約1700秒かかっていました ^
V1 ワークフロー:
出力はラベル付きで V1 ギャラリーに追加。使用したテストプロンプト:
_"にぎやかな宇宙港で、多様な人間とエイリアンの群れが巨大な恒星間クルーズ船に乗り込む。ロボットの荷物係が異様な荷物を軽々と扱い、ホログラフィックなサインには複数言語で出発時刻が表示されている。透き通った浮遊する生物の家族がセキュリティチェックポイントを漂い、その触手が旅行証明書を巻きつけている。空には、背の高い建物の間を小型の船が行き交い、イオンの軌跡が絶え間なく変化する光のタペストリーを描いている。"
\Decoder-Research\_Donut-Mochi-848x480-batch10-default-v5
= 作者推奨設定
- このバージョンは作者が推奨する設定を使用
\Decoder-Research\_Donut-Mochi-640x480-batch10-autotile-v5
= サイズ縮小、自動タイル化
- ギャラリーの動画を生成した最初の試行。デコーダに自動タイル化を適用し、全体の解像度を 640x480 に縮小。この縮小により生成に必要なメモリが減るが、過度に粗く、出力品質を低下させる。
残りのワークフローはすべて自動タイル化を使わず、正確に使用した設定を確認するための調査用。ビデオはバッチ数でラベル付けされ、V1 ギャラリーに追加されます。コミュニティの研究が必要です!
\Decoder-Research\_Donut-Mochi-848x480-batch12-v5
frame_batch_size = 12
tile_sample_min_width = 256
tile_sample_min_height = 128
\Decoder-Research\_Donut-Mochi-848x480-batch14-v5
frame_batch_size = 14
tile_sample_min_width = 224
tile_sample_min_height = 112
\Decoder-Research\_Donut-Mochi-848x480-batch16-v5
frame_batch_size = 16
tile_sample_min_width = 192
tile_sample_min_height = 96
\Decoder-Research\_Donut-Mochi-848x480-batch20-v5
frame_batch_size = 20
tile_sample_min_width = 160
tile_sample_min_height = 96
\Decoder-Research\_Donut-Mochi-848x480-batch24-v5
frame_batch_size = 24
tile_sample_min_width = 128
tile_sample_min_height = 64
\Decoder-Research\_Donut-Mochi-848x480-batch32-v5
frame_batch_size = 32
tile_sample_min_width = 96
tile_sample_min_height = 48
最後のワークフローはハイブリッドアプローチで、オーバーラップ係数を増やして(0.25 → 0.3)、非常に小さなタイルを使用する際に可視なシームを減らす可能性を検討しています。
\Decoder-Research\_Donut-Mochi-848x480-batch16-v6
frame_batch_size = 16
tile_sample_min_width = 144
tile_sample_min_height = 80
tile_overlap_factor_height = 0.3
tile_overlap_factor_width = 0.3
V2 ワークフロー
\CFG-Research\Donut-Mochi-848x480-batch16-CFG7-v7
このワークフローは Donut-Mochi-848x480-batch16-v6 を使用し、CFG を 7.0 に設定。
この設定は良さそうであり、生成には24分かかります。
(PyTorch SDP 使用)
V3 ワークフロー
\FP8--T5-Scaled\Donut-Mochi-848x480-batch16-CFG7-T5scaled-v8
FP8_Scaled T5 CLIP モデルを使用。テストしたすべてのプロンプトで出力品質が大幅に向上。V3 ギャラリーをチェックしてください。現時点で最良です!(それを上回るまで)
\GGUF-Q8_0--T5-Scaled\Donut-Mochi-848x480-b16-CFG7-T5scaled-Q8_0-v9
最良の結果は得られず、T5 スケーリング CLIP がまだ FP8 で、GGUF Q8_0 をメインモデルとして使用するテストを行っていたためと考えられます。
V4 ワークフロー
\T5-FP16-CPU\Donut-Mochi-848x480-b16-CFG7-CPU_T5-FP16-v11
T5XXL を FP16 で CPU に強制配置。V3 で GGUF Q8_0 と T5XXL FP8 を使用した際に見られたのと同じアーチファクトが発生。
V5 ワークフロー
\GGUF-Q8_0--T5-FP16-CPU\Donut-Mochi-848x480-GGUF-Q8_0-CPU_T5-FP16-v14
VAE タイル化を有効にした場合、これが最良の設定。ステップ数を増やすことで品質は向上し、生成時間も長くなります。
ステップ数を 100-200 に増やすと品質は向上しますが、時間がかかります。200ステップでは45分かかります。おそらくこのバージョンは存在しないでしょう。なぜなら、誰でもこれらのワークフローにステップ数を追加して、6秒の動画の生成に非常に長い時間をかけることができるからです。これはクラウド環境とより大きなGPU/VRAMの割り当てで解決可能です。
V6 ワークフロー
\Fast-25-Frames\Donut-Mochi-848x480-Fast-v4
VAE タイル化を使用し、25フレームで1秒の動画を生成。50ステップでは数分、100ステップでは4〜5分かかります。
\NoTiling-SaveLoadLatent\Donut-Mochi-848x480-i2v-LatentSideload-v21
新しい DJZ-LoadLatent ノードを使用し、サンプラーの結果を .latent ファイルとしてディスクに保存可能。これにより、タイリング VAE を不要にし、ランタイムの別ステージとして潜在変数をデコードできます。これは画像→動画で、OneVision を使用して任意の画像から動画プロンプトを推定し、縦長または横長のアスペクト比を自動検出し、16:9 または 9:16 に切り抜き/埋め込みます。注:縦長アスペクト比の品質が良好であることを証明するため、さらなるテストが必要です。
\NoTiling-SaveLoadLatent\Donut-Mochi-848x480-t2v-LatentSideload-v25
これは前のワークフローのテキスト→動画版。OneVision と ImageSizeAdjusterV3 を削除し、Zenkai-Prompt-V2 を再導入してプロンプトリストを活用。完全な手順はワークフローのノートに記載。
Save/Load Latent アプローチにより、すべての動画にGhostingを引き起こすタイリングVAEを削除できました。品質が向上したため、Ghostingがより目立つようになりました。
V7 ワークフロー
V6 の latent sideload ワークフローを、新しい VAE Spatial Tiling Decoder を使用するように更新。
すべてのデモ動画はローカルGPUで100%動作し、ギャラリー内の動画はすべて50ステップで生成(V6 ギャラリーでは100ステップ使用)。さらに大きな改善!
\V7-Spatial-Tiling-VAE\Donut-Mochi-848x480-t2v-LatentSideload-v50.json
- テキスト→動画、VAE スペーシアルタイリングデコーダ、私のラテンローダー使用
\V7-Spatial-Tiling-VAE\Donut-Mochi-848x480-i2v-LatentSideload-v50.json
- 仮想画像→動画、VAE スペーシアルタイリングデコーダ、私のラテンローダー使用
\V7-Spatial-Tiling-VAE\Donut-Mochi-848x480-t2v-BatchLatentSideload-v55.json
- テキスト→動画、VAE スペーシアルタイリングデコーダ、私のV2バッチラテンローダー使用
\V7-Spatial-Tiling-VAE\Donut-Mochi-848x480-i2v-BatchLatentSideload-v55.json
- 仮想画像→動画、VAE スペーシアルタイリングデコーダ、私のV2バッチラテンローダー使用
注: V7 は私の DJZ-Workflows パックで GitHub に公開されていますが、新しい動画の生成が完了するまで(今夜中で処理中)はここに公開されません。
V8 ワークフロー
\True-Image-To-Video\Donut-Mochi-848x480-i2v-LatentSideload-v90.json
- 画像→動画、VAE スペーシアルタイリングデコーダ、私のラテンローダー使用
\True-Image-To-Video\Donut-Mochi-848x480-i2v-BatchedLatentSideload-v90.json
- 画像→動画、VAE スペーシアルタイリングデコーダ、私のV2バッチラテンローダー使用
真の i2v(新しい VAE エンコーダーを使用した画像→動画)を追加
チュートリアル動画は未定。詳細は メイン記事 をご覧ください。