Wan 2.2 Video + Voice + Motion Control All-In-One workflow optimized for RTX 3060 12 GB VRAM GPU
詳細
ファイルをダウンロード
このバージョンについて
モデル説明
特別な感謝を:
@soulseeker に、知識を共有して最初の重要なヒントをくれたことに感謝します。
特徴:
このワークフローは、音声付きの「シンプル」な動画を半自動で生成します。私はこれをワンストップソリューションとして設計しました。必要なのは開始画像のみです。
- RTX 3060(VRAM 12 GB)、RAM 32 GB、および大容量スワップファイル(最小32–64 GB)で完璧に動作します。
- インストールが簡単(必要なすべてのモデルがリンク済み)。
- スイッチオプションで使いやすい。
- 高品質な出力。
このワークフローは4つの簡単なステップで構成されています:
エッジテキスト-to-スピーチでシンプルな音声を生成、
DWPose用のモーション制御動画の生成、
InfiniteTalk:モーション制御され、音声と同期したLQ動画を生成、
滑らかな高品質出力のためにアップスケーリングとフレームレートの増加。
約5秒の動画はうまく動作します。8〜10秒の動画も生成できる可能性がありますが、まだテストしていません。
このワークフローは初期の「アルファ」ステータスです。すべての機能は技術的に動作するはずです。したがって、最初のシンプルなテストと、おそらく楽しい実験のための良い基盤になると信じています。
しかし、改善すべき点がたくさんあると確信しています。たとえば:
- 強調、速度、ポーズなど、より良い音声制御のための優れたテキスト-to-スピーチソリューション。
- モーションとカメラ制御の改善など。
注意:
このワークフローは、より上級のComfyUIユーザーを対象としています。インストールと使用は非常に簡単ですが、これはあくまでテストと開発のための基盤であり、使用するにはある程度のComfyUIの知識が必要になる可能性があります。インストールやComfyUIに関するサポートはここで提供しませんので、ご理解ください。
動画生成や複雑なワークフローに初めて挑戦する方には、私の別のワークフロー動画生成を推奨します。こちらは十分にテストされており、はるかに詳細なドキュメントとコメントが付いています。
このワークフローは、公式テンプレートと既に公開されている複数のワークフローを基に構築されています。私は異なる部品を組み合わせ、使いやすい「デザイン」を作成し、すべてを12 GB VRAM向けに最適化しました。
