WAN Video YAW Workflow 1.6 V2V T2V I2V, upscale, extend, audio, interpolate, random-lora, preview pause, upscale, multi-res, interpolate,prompt save/load
詳細
ファイルをダウンロード
このバージョンについて
モデル説明
Beta 1.6 - 新しい実験的品質/オプション。Skip Guidance(品質)、CFGZeroSTar(プロンプト準拠)、Enhance-A-Video(品質)。Re-Actor(顔修復)を再追加。問題が発生した場合は無効のままにしてください。ワークフローは依然として機能します。無効化方法はページ下部の指示を参照してください。

**Torch Compile は LoRA を破壊する可能性があります。最新の Torch および Blackwell NVIDIA でこの問題を確認しました。
Beta 1.5 - より高速、多くのQoLとバグ修正、追加のテスト済み解像度、Nvidia Blackwell 50XX 対応ノード。
** 5090/5080/5070 50xxシリーズNVIDIA GPUの修正は、トラブルシューティングセクションをご覧ください。
これは、Hunyuan YAW(Yet another workflow)を基にしたWANビデオワークフローです。未完成ですが動作します。WAN開発が進むにつれ、Hunyuan版と同等の機能を追加することを目指しています。Beta 1.2ではV2V、GGUFのマルチGPUでシステムRAMをVRAMとして使用するシステムを追加。さらにテスト済み解像度を追加、Teacache加速を実装。
クイックな観察:
ステップ数を増やすと品質が向上することがわかりました。また、I2Vでは非標準解像度を使用すると不自然な色とフラッシャーが発生します。解像度セレクターに含まれる、テスト済みI2V解像度を参照してください。私は解像度を変更するだけで色のフラッシャーを修正できました。オリジナルワークフローとの機能同等化は引き続き進行中です。
モデルエラーが発生した場合、すべてのモデルをダウンロードしていない場合は、「Model Loader」に移動し、ダウンロードしていないモデルを右クリックして「Bypass」してください。たとえば、GGUFモデルを使用していない場合、緑と薄灰色の#2を両方右クリックしてBypassしてください。
*このワークフローのHunyuan版はさらに機能が充実しています:/model/1134115/
詳細な手順は以下をご覧ください。
ワークフローのハイライト:
音声生成 - MMaudio経由 - 動画に音声をレンダリング。単体プラグインも音声後の処理用に利用可。
アップスケール前の一時停止(任意)
- 完全なレンダリング前に動画をプレビューできます。
LoRAランダマイザー - 2つのスタック(それぞれ12個のLoRA)で、ランダム化・組み合わせが可能。ワイルドカード、トリガー、プロンプトを含みます。ランダムなキャラクター + ランダムな動き・スタイルにワイルドカードを加えるだけで、最適なオーバーナイト生成システムが完成します。
プロンプトの保存/読み込み/履歴
複数の解像度
- セレクターで6つの一般的な解像度を素早く選択可能。独自のカスタム解像度を最大6つまで使用できます。
複数のアップスケール方法
標準アップスケール
補間(フレームレートを2倍)
複数のLoRAオプション
- ダブルブロック(複数のLoRAを組み合わせる際にウェイト調整の心配が不要)
ワイルドカード対応プロンプティング
すべてのオプションはトグル/スイッチで、ノードを手動で接続する必要はありません
設定方法の詳細なノート
顔修復
テキスト→動画、画像→動画
3090(24GB VRAM)でテスト済み
このワークフローは初心者向けに使いやすく、上級者向けには柔軟性を備えています。
これは私の最初のワークフローです。私は個人的に動画作成のためのオプションが欲しかったので、このシンプルな試みを作成しました。
追加の詳細:
**トラブルシューティングノードまたはComfyUIマネージャーは、このドキュメントの下部にあります。
クイックスタートガイド:
デフォルトでは、すべて機能するワークフロー向けに調整されています。
T2V(主な焦点)には2つの使用方法があります。
#1 - 1ステージレンダリング(アップスケーラー→補間)
ワークフローで1abc、2、4、5を有効にします。(3をスキップ)
解像度セレクターで、テスト済みの薄い青色の解像度を1つ選択してください(これらは公式にサポートされるWAN解像度480p/720pです。サイズが大きいため、ステージ1の処理に時間がかかります)
ステージ1のステップを25以上に設定。これで1パスレンダリングが実行されます
#2 - 2ステージレンダリング(推奨)
ワークフローで1abc、2、3、4、5を有効にします。
解像度セレクターで紫色(LQ)の解像度を1つ選択
ステージ1のステップを14に設定
ステージ2のステップを25に設定
この方法では、高速なプレビューを生成し、コンセプトとLoRAが正しく動作しているかを確認できます。(3090で約1分)これは272x368などの低解像度で実行されます。これにより処理が迅速になります。プレビューが終了すると一時停止し、プレビューを基に完全レンダリングを実行するかを判断できます。完全レンダリングでは出力解像度が自動的に2倍になります(ステージ2)。その後アップスケーラーでさらに2倍、補間でフレームレートを2倍にします。これはHunyuan版ワークフローの基本理念です:迅速なプロトタイプと最高のコンセプトのレンダリング。たとえば、272x368の低解像度から始めて、ステージ2で544x736、アップスケール後には1088x1472に拡大されます。
ワークフローの動作詳細:
ステップ0. モデルを設定します。「Load Models」セクションで解像度を選択してください。(残念ながら、WAN向けの適切なサポート解像度を決定する時間がありませんでした。512x512、640x480、1280x720などはVRAMの量によって動作します。風景またはポートレートのどちらを目的とするかによっても異なります。一般的に16:9が汎用性が高く、3:4は画質が高くなる可能性がありますが動画長さに制限があります。すべてGPUのVRAM次第です。デフォルトのステップ数と動画長さから始めてください。)
ステップ1. 1a/1b/1cでT2VまたはI2Vを使用
ステップ2. プレビューを見て、アップスケーラーに進むか判断
ステップ3. フレームごとのアップスケーラーを使用して、解像度をさらに2倍
ステップ4. フレームレートを16fpsから32fpsに増やして、動きを滑らかに
(任意ステップ)MMaudio生成を有効にすると、テキストプロンプトと動画をもとに音声を生成します。シーンの音をテキストプロンプトに詳細に記述することで、より良い生成が可能になります。この機能はVRAMを多く消費するため、デフォルトで無効になっています。後で単体のMMaudioプラグインを使用して音声を追加することもできます。
ここからステップ数、動画長さ、解像度を調整し、利用可能なVRAMに最適なバランスを見つけることができます。
I2V推奨方法:1ステージ
薄い青色(I2V)の解像度を選択。解像度は重要です。そうでないとアーティファクトや色の斑点が発生します
コントロールパネルで1b、2、4、5を有効(3をスキップ)
ワークフローのI2Vセクションでステップを25以上に設定
入力動画のスケーリング解像度を使用するオプションがありますが、失敗することが多いためオプションとして残されています
ステージ1 - 選択したステップと解像度で1パスの完全レンダリングを実行
一時停止し、アップスケーラーに進むか、キャンセルして再試行するかを選択
アップスケーリング - 中間レンダリングを基に解像度を2倍に
補間 - フレームレートを2倍に
動画拡張:
薄い青色(I2V)の解像度を選択
コントロールパネルで1d、2、4、5を有効(3をスキップ)
この段階では低解像度または中解像度の入力ソースを使用することが非常に重要です。そうでないとメモリが不足します。
T2V 2ステージの中間レンダリングを使用するか、動画の低~中解像度を手動で設定してください(手動で設定可能)。または、元の動画解像度を使用することもできます。T2V 2ステージの方法で中間ソースを使用する場合、非常にうまく動作します。この機能はこの目的のために設計されています。
拡張部分のみをレンダリングするか、完全な結合動画をレンダリングするかを選択してください。完全な結合動画が欲しい場合は「True」を選択してください。これにより、完全結合動画が次のアップスケーラーに渡されます。そのため、中間レベルの動画を使用することが重要です。これにより再度アップスケールと補間が行われます。
ステージ1 - 選択したステップと解像度で1パスの完全レンダリングを実行
一時停止し、アップスケーラーに進むか、キャンセルして再試行するかを選択
アップスケーリング - 中間レンダリングを基に解像度を2倍に
補間 - フレームレートを2倍に
すべてのトグルとスイッチ:
ステップ1では1つの方法のみを選択してください。
* これらはデフォルト設定です。
このワークフローでは、再接続は一切必要ありません。ワークフロー内に詳細な手順とコメントが記載されています。
V2V - 動画から動画への変換:
コントロールパネルで有効にしてください:

動画を入力またはガイドとして使用できます。コントロールパネルでこのオプションを有効にし、ソース動画をアップロードしてください。出力解像度は選択した解像度になります。
入力動画との類似度を調整するには、メインコントロールパネルのDenoiseを調整してください。低い値(0.5 - 0.75)にすると入力動画とより近い結果になり、高い値にするとより創造的な結果になります。
I2V - 画像から動画への変換

Load imageでソース画像を読み込みます。画像はこのプラグインが壊れないよう適切にスケーリングされます。出力解像度は解像度セレクターで選択した解像度を使用します。
解像度には2つのオプションがあります。ソース解像度を使用したい場合は、「use Orig IMG Resolution」スライダーを1に設定してください。ただし、これはアスペクト比を維持するだけでトリミングはされません。次のオプションはベーススケール(デフォルト384)です。ビデオエンジンの制限により、高解像度画像をネイティブ解像度でレンダリングするとすぐにメモリが不足します。このオプションではベーススケールに基づいてレンダリングサイズをスケーリングします。最初は384~500から試し、VRAMが処理できるか確認してください。特にソース画像の解像度が非常に高い場合。低解像度の写真から始める場合、スライダーを大きく上げることができます。

I2V方法1:1パスでアップスケール/補間/音声生成
この方法の主な使い方は、メインワークフローで1a、1b、3を無効にすることです。画像を入力として使用し、ステップ数を高く設定してアップスケーラーや補間器に送ります。
** I2Vは非常に解像度に依存します。解像度セレクターに「I2V」と表記されている薄い青色の解像度を使用してください。点滅やアーティファクト、色の異常が発生した場合は、I2Vに対応していない解像度を使用しています。
I2V方法2:2パスでアップスケール/補間/音声生成 - (未検証が多い)
LQの紫色解像度を選択。ステージ1のステップを14、ステージ2のステップを25に設定。画像をプレビューレンダリングとして使用し、期待通りの結果かどうかを確認した後、2倍解像度で完全レンダリングを行います。これはT2Vではうまく機能しますが、I2Vについてはまだテスト中です。
モデルの選択(低VRAM向けオプション):
以下のようにモデルを設定してください。
デフォルトでは、各モデルはモデル1(標準Diffusionモデル)を使用しています。GGUFを使用したい場合はモデル2を選択してください。標準モデルまたはGGUFのどちらも使用しない場合は、右クリックして「Bypass」してください。
GGUFモデルを使用する場合、「virtual_vram_gb」を「4.0」などの数値に設定してください。これにより、システムRAMをVRAMとして使用でき、OOMエラーを軽減できます。上記で使用する仮想VRAMの量を設定できます。システムRAMを使用する場合、レンダリング速度は大幅に遅くなりますが、少なくとも作業は停止しません。

モデルは以下から取得してください:
https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/split_files
LoRAオプション:
従来のLoRAとダブルブロックのどちらも使用できます。デフォルトはダブルブロックです。
ダブルブロックは、複数のLoRAを組み合わせる際にウェイト調整の手間を省くことができます。
メインLoRAスタックは標準的な加算LoRAツリーです。最大5つの異なるLoRAを追加・組み合わせて使用できます。使用するLoRAに応じてall、single_blocks、double_blocksを設定してください。これらのLoRAをランダムLoRAと一緒に使用できます。メインLoRAセクションにスタイルを追加し、ランダムなキャラクターロラとランダムなキャラクターアニメーションを追加してください。
右クリックして「Bypass」を選択して、LoRAを有効/無効にします。
解像度オプション:
5つの一般的な解像度から選択するか、追加で5つのカスタム解像度を編集してあなた独自の設定にできます。「解像度セレクター」で解像度を変更できます。デフォルトでは、最も高速で最小の解像度が選択されており、次に続くV2Vパートのワークフロー用に設計されています。解像度を大きくすると、レンダリング時間は大幅に長くなります。
プレビュー後に一時停止(デフォルトで有効)
ビデオ生成には時間がかかりすぎ、複数のLoRAを試したり、プロンプトを正しく調整したりするのに、ビデオレンダリング時間が遅いと時間がかかりすぎます。この機能を使用すれば、アップスケール処理にかかる追加の時間をかけずに、ビデオを素早くプレビューできます。デフォルトでこの機能は有効になっています。ワークフローを開始すると、高速プレビューが素早くレンダリングされ、その後チャイムが鳴ります。次に進むには、ビデオプレビューの横の中央セクションまでスクロールして確認してください。
気に入ったプレビューをアップスケールするか、キャンセルして再試行してください!
完全なレンダリング/ワークフローを継続する – 任意の画像(どの画像でも構いません)を選択し、「Progress Selected Image」をクリックします。
キャンセル – 「Cancel current run」をクリックして、別のプレビューをキューに追加します。
この機能を無効にするには、「Options Selector」で切り替えをオフにしてください。

MMaudio – ビデオに音声を自動追加
デフォルトでは、アップスケールされたビデオにのみ音声を追加します。ただし、レンダリングプロセス全体に音声を追加するスイッチもあります。より良い生成のために、プロンプトに音声に関する詳細を含めてください。
** 注意:MMaudioは追加のVRAMを必要とします。MMaudioを使用する際は、ビデオの長さと品質のバランスを取る必要があります。v5.2には独立したプラグインが用意されており、メインワークフローでビデオを最終決定した後で音声を追加できます。これにより、VRAMに応じて品質とビデオの長さを最大限に引き出し、その後の処理段階で音声を追加できます。独立したプラグインを使用すれば、最適な音声を得るために複数回生成する柔軟性が得られます。

アップスケール後の補間
このオプションは、レンダリングしたビデオのフレームレートを2倍にします。デフォルトで「有効」になっています。
「Options Selector」で無効にできます。必要なければこの機能を無効にするとレンダリングが高速になります。
速度を求めている
処理が遅すぎるですか?より高速化するためにteacacheを有効にできます。これはまだ実験的機能です。「Load Models」でオン/オフを切り替えてください。
T2V – テキストからビデオへの生成 – プロンプトとワイルドカード
プロンプトは、緑色の「Enter Prompt」ノードに入力してください。*** プロンプトに改行や新しい行が含まれていないことを必ず確認してください。否则、システムがワークフローを処理する方法が変更されます。
ワイルドカードは、プロンプトを自動的に変更したり、夜間の生成でバリエーションを加えるために使える機能です。ワイルドカードを作成するには、/custom_nodes/ComfyUI-Easy-Use/wildcards フォルダ内に .txt ファイルを作成してください。各行に1つのワイルドカードを記述し、Enterキーで区切ってください。単語やフレーズを使用できますが、それぞれは「Enter」で分離されている必要があります。二重スペースは使用しないでください。以下に2つのワイルドカードファイルの例を示します。
color.txt
red
blue
green
locations.txt
a beautiful green forest, the sunlight shines through the trees, diffusing the lighting creating minor godrays, you can hear the sound of tree's rustle in the background
a nightime cityscape, it is raining out, you can hear the sound of rain pitter patter off of the nearby roofs
a clearing in the forest, there is a small but beautiful waterfall at the edge of a rockycliff, there is a small pond and green trees, the sound of the waterfall can be heard in the distance, birds are chirping in the background
プロンプトでこれらのワイルドカードを使用するには、「select to add wildcard」をクリックし、プロンプトの適切な場所に追加してください。

ellapurn3ll is wearing a __color__ jacket ,she is in __locations__.
このカスタムノードの詳細は以下をご覧ください:https://github.com/ltdrdata/ComfyUI-extension-tutorials/blob/Main/ComfyUI-Impact-Pack/tutorial/ImpactWildcard.md
ランダムLoRAとトリガー
ワイルドカードとランダムLoRAを併用して、夜間の生成をより豊かにしましょう。
最大12個のランダムLoRAを選択して組み合わせてください。デフォルトでは最初の5つだけが有効になっています。適切な設定で「Maximum」を変更して、設定したLoRAの数を指定してください。選択は常に上から下へとカウントされます。たとえば、3つのLoRAの間でのみランダム化したい場合は、「Maximum」を3に設定し、上位3つのLoRAの情報を入力してください。
** 重要な点:トリガー語を自動入力するには、プロンプトフィールドに次のテキストを含める必要があります:
(LORA-TRIGGER) または (LORA-TRIGGER2)。ランダムLoRAで生成する際、自動的に値が埋められます。大文字・小文字は区別されるため、注意してください。
フルプロンプト、単一のトリガー、またはトリガーフレーズをすべて入力でき、自動的に埋められます。
これにワイルドカードを追加するには、{} ブラケットと | 区切り文字を使用してください。たとえば:She is wearing a {red|green|blue} hat。またはフルプロンプトも可能です:{she is standing in time square blowing a kiss|she is sitting in a park blowing a kiss}
** これらのLoRAが動作しない場合、ブロックタイプを「すべて」に設定していることを確認してください。
ランダムLoRAスタック2でのみ有効なヘルパーコンポーネント。
ヘルパーコンポーネントが利用可能になりました。一部のLoRAは、モーションやスタイルLoRAを追加することでより良く動作します。ヘルパーコンポーネントを有効にすると、2番目のランダムスタックでのみ効果が発揮され、そのLoRAがランダム化プロセスで選択された場合にのみ適用されます。たとえば、LoRA 1にモーションまたはスタイルLoRAを追加するとより良く動作する場合、LoRA 1ヘルパーを有効にしてください。ランダム化でLoRA 1が選択された場合、両方(メインとヘルパー)のLoRAが適用されます。
これは主に上級者向けの機能ですが、一部のユーザーには有用かもしれません。
「Prompt Saver」でお気に入りのプロンプトを読み込み・保存する(*** 互換性の問題により一時的に機能削除***)
ワークフローを実行すると、Prompt Saverに最新のプロンプトが自動で保存されます。後で使用するために保存できます。プロンプトを読み込んで使用するには、以前に保存したプロンプトを選択し、「Load Saved」をクリックしてください。ただし、読み込んだプロンプトを使用するには、「Use Input」を「Use Prompt」に切り替える必要があります。通常のプロンプト使用に戻すのを忘れないでください。

** デフォルトは「Use Input」です。これは、プロンプトが通常の入力ワイルドカードフィールドから生成され、Prompt Saverにはプロンプトデータが表示されるだけです。
1つのシードですべてを制御:
1つのシードがすべてのLoRAランダム化、ワイルドカード、生成を管理します。ランダムLoRAやワイルドカードを用いても、お気に入りのシードをそのままコピーして再利用できます。
* ヒント:リサイクルボタンをクリックすると、前回使用したシードを再利用できます。先ほど生成したビデオを微調整したいですか?2段階目でOOMエラーが発生しましたか?最後のシードを使って調整し、再試行してください!
独立したMM-Audio:
品質とビデオ長を最大限に引き出すために、メインワークフローでMM-Audioを無効にし、後処理で音声を追加することをおすすめします。このプラグインは、後で音声を追加するための独立したツールとして設計されています。
MMAudio – Standaloneを有効にし、ワークフローの他のすべての部分を無効にしてください。
音声を追加したいビデオをアップロードするだけです。すべての計算が自動で行われます。空のプロンプトを使用することを推奨しますが、以前に保存したプロンプトを読み込むためのPrompt Saverも用意されています。
(オプション)音声やシーンに関する記述に焦点を当ててプロンプトを強化することもできます。
必要な音声が得られるまで、何度でも生成してください!
独立したアップスケーラーと補間:
既存のビデオファイルをアップスケールまたは補間したいだけですか?それをアップロードし、アップスケーラーと補間以外のすべてのワークフロー部分を無効にしてください。
アップロードボックスは、適切な場所で有効にする必要があります。
この機能を使用するには、「Yes」に切り替えてください。通常のワークフローを使用するときは忘れずにオフにしてください。デフォルトでは、両方とも無効になっています。
ワークフローの使用方法のヒント
生成の品質を向上させる
ステップ数を増やす:
デフォルトの方法:1a/b。コントロールパネル(設定)で、ステップ数を20から35以上(最大50)に増やしてください。各ステップは時間とメモリをより消費するため、解像度とステップ数のバランスを見つけてください。

より高い解像度を試す:
解像度を高解像度の1つに変更してください。
** 試行を重ねて、追加の解像度に関するアドバイスを提供します。
完璧なビデオのための長さと品質のバランス
以下は、ビデオの長さと品質のバランスを取るために私が使用した設定のいくつかです。3090 24GB VRAMでテスト済み。
問題解決:
5090/5080/5070 50xxシリーズNVIDIA GPUの対応策
50xxシリーズNVIDIA GPUはまだ開発途中です。Python 3.12.Xがバンドルされている標準的なComfyUIポータブル版で動作させるためのヒントをいくつかご紹介します。
NVIDIA 50xxシリーズにGPUをアップデートしたばかりで、何も動かない!?
以下は、ビデオの長さと品質のバランスを取るために私が使用した設定のいくつかです。3090 24GB VRAMでテスト済み。
標準的なComfyUIポータブル版をダウンロードするか、既存のフォルダを使用してください。
Cuda 12.8をインストールしてください。
(Torch 2.7 devをインストール)
python_embedded フォルダに移動してください。
python.exe -s -m pip install --force-reinstall torch==2.7.0.dev20250307+cu128 torchvision==0.22.0.dev20250308+cu128 torchaudio==2.6.0.dev20250308+cu128 --index-url https://download.pytorch.org/whl/nightly/cu128 --extra-index-url https://download.pytorch.org/whl/nightly/cu128
または、最新版を取得するため、次のコマンドを使用できます:
Python.exe -m pip install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cu128
(Triton 3.3 プレリリース)
python.exe -m pip install -U --pre triton-windows
python.exe -m pip install sageattention==1.0.6
(Sage Attention)
SET CUDA_HOME=C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.8
cd sageattention
..\python.exe setup.py install
上記が動作しない場合は、この記事を参照し、setup.py を以下から取得したコードに置き換えてください:https://github.com/thu-ml/SageAttention/issues/107
これで通常通り動作するはずです。以前は正常に動作していたノードが、何らかの理由で動作しなくなる場合があります。原因は不明ですが、5090、5080、5070シリーズの対応をすぐにワークフローに含める予定です。
** 私はこの分野の専門家ではありません。この部分についてのトラブルシューティングはサポートできません。SageとTritonは正しくインストールされているにもかかわらず、ComfyUIで問題が発生しているようです。50xxカードにアクセスできる開発者が増えるにつれて、これらのバグはすぐに解決されるでしょう。
欠落しているノード:
MMaudio - 音声ノードが読み込まれない場合は、ComfyUI Manager へ移動し、次のURLで「Git URL経由でインストール」を実行してください:https://github.com/kijai/ComfyUI-MMAudio
その後、再起動してください。
セキュリティエラーが発生した場合は、以下に移動してください:ComfyUI/user/default/ComfyUI-Manager にある config.ini をメモ帳で開き、「security_level = normal」という行を探し、これを「security_level = weak」に変更してください。その後、インストールを試みてください。インストールが完了したら、設定を再び「normal」に戻すことができます。MMaudioに関するその他の情報は、GitHubページをご覧ください。
ReActor または Face Enhanced ノードが欠落している場合:
Re-Actor ノードに問題がある場合は、簡単に削除できます。理論的には、デフォルトでバイパスされているため、このノードなしでもワークフローは動作します。
RED Restore Faces ボックスへ移動し、グレーの領域のどこかをダブルクリックします。「reroute」と検索してノードを追加してください。
Restore Faces の左側から入力ラインを、新しく追加したノードの左側にドラッグしてください。
reroute ノードの右側から、"Upscale Video" の Image 入力へ新しいラインをドラッグしてください。その後、Restore Faces ノードを完全に削除できます。

以上です。すべてのオリジナル作者に感謝します。
お楽しみいただければ幸いです。このようなオープンで共有するコミュニティに参加できて素晴らしいことです!
ご自身の作成物や設定を、このワークフローと共に自由に共有してください。


