Wan 2.2 Video + Voice + Motion Control All-In-One workflow optimized for RTX 3060 12 GB VRAM GPU

特別な感謝を：

@soulseeker に、知識を共有して最初の重要なヒントをくれたことに感謝します。

特徴：

このワークフローは、音声付きの「シンプル」な動画を半自動で生成します。私はこれをワンストップソリューションとして設計しました。必要なのは開始画像のみです。

- RTX 3060（VRAM 12 GB）、RAM 32 GB、および大容量スワップファイル（最小32–64 GB）で完璧に動作します。

- インストールが簡単（必要なすべてのモデルがリンク済み）。

- スイッチオプションで使いやすい。

- 高品質な出力。

このワークフローは4つの簡単なステップで構成されています：

エッジテキスト-to-スピーチでシンプルな音声を生成、
DWPose用のモーション制御動画の生成、
InfiniteTalk：モーション制御され、音声と同期したLQ動画を生成、
滑らかな高品質出力のためにアップスケーリングとフレームレートの増加。

約5秒の動画はうまく動作します。8〜10秒の動画も生成できる可能性がありますが、まだテストしていません。

このワークフローは初期の「アルファ」ステータスです。すべての機能は技術的に動作するはずです。したがって、最初のシンプルなテストと、おそらく楽しい実験のための良い基盤になると信じています。

しかし、改善すべき点がたくさんあると確信しています。たとえば：

- 強調、速度、ポーズなど、より良い音声制御のための優れたテキスト-to-スピーチソリューション。

- モーションとカメラ制御の改善など。

注意：

このワークフローは、より上級のComfyUIユーザーを対象としています。インストールと使用は非常に簡単ですが、これはあくまでテストと開発のための基盤であり、使用するにはある程度のComfyUIの知識が必要になる可能性があります。インストールやComfyUIに関するサポートはここで提供しませんので、ご理解ください。

動画生成や複雑なワークフローに初めて挑戦する方には、私の別のワークフロー動画生成を推奨します。こちらは十分にテストされており、はるかに詳細なドキュメントとコメントが付いています。

このワークフローは、公式テンプレートと既に公開されている複数のワークフローを基に構築されています。私は異なる部品を組み合わせ、使いやすい「デザイン」を作成し、すべてを12 GB VRAM向けに最適化しました。

モデルタイプ	その他
ベースモデル	Other
公開日	1/24/2026

Wan 2.2 Video + Voice + Motion Control All-In-One workflow optimized for RTX 3060 12 GB VRAM GPU

詳細

ファイルをダウンロード

このバージョンについて

モデル説明

特徴：

このワークフローは4つの簡単なステップで構成されています：

注意：

このモデルで生成された画像