Wan 2.2 Video + Voice + Motion Control All-In-One workflow optimized for RTX 3060 12 GB VRAM GPU

詳細

ファイルをダウンロード

モデル説明

特別な感謝を:

@soulseeker に、知識を共有して最初の重要なヒントをくれたことに感謝します。

特徴:

このワークフローは、音声付きの「シンプル」な動画を半自動で生成します。私はこれをワンストップソリューションとして設計しました。必要なのは開始画像のみです。

- RTX 3060(VRAM 12 GB)、RAM 32 GB、および大容量スワップファイル(最小32–64 GB)で完璧に動作します。

- インストールが簡単(必要なすべてのモデルがリンク済み)。

- スイッチオプションで使いやすい。

- 高品質な出力。

このワークフローは4つの簡単なステップで構成されています:

  1. エッジテキスト-to-スピーチでシンプルな音声を生成、

  2. DWPose用のモーション制御動画の生成、

  3. InfiniteTalk:モーション制御され、音声と同期したLQ動画を生成、

  4. 滑らかな高品質出力のためにアップスケーリングとフレームレートの増加。

約5秒の動画はうまく動作します。8〜10秒の動画も生成できる可能性がありますが、まだテストしていません。

このワークフローは初期の「アルファ」ステータスです。すべての機能は技術的に動作するはずです。したがって、最初のシンプルなテストと、おそらく楽しい実験のための良い基盤になると信じています。

しかし、改善すべき点がたくさんあると確信しています。たとえば:

- 強調、速度、ポーズなど、より良い音声制御のための優れたテキスト-to-スピーチソリューション。

- モーションとカメラ制御の改善など。

注意:

このワークフローは、より上級のComfyUIユーザーを対象としています。インストールと使用は非常に簡単ですが、これはあくまでテストと開発のための基盤であり、使用するにはある程度のComfyUIの知識が必要になる可能性があります。インストールやComfyUIに関するサポートはここで提供しませんので、ご理解ください。

動画生成や複雑なワークフローに初めて挑戦する方には、私の別のワークフロー動画生成を推奨します。こちらは十分にテストされており、はるかに詳細なドキュメントとコメントが付いています。

このワークフローは、公式テンプレートと既に公開されている複数のワークフローを基に構築されています。私は異なる部品を組み合わせ、使いやすい「デザイン」を作成し、すべてを12 GB VRAM向けに最適化しました。

このモデルで生成された画像

画像が見つかりません。