Swiss Army Knife AV Studio WAN 2.2 ++

詳細

ファイルをダウンロード

モデル説明

注:このドキュメントは意図的に詳細に作成されています。長く感じるかもしれませんが、ワークフローの完全な価値を引き出すのに役立ちます。

はじめに

このガイドでは、以前のPoserおよびマルチセグメントシナリオワークフローのコレクションを基に構築された、フル機能のマルチシーンAVクリップ編集ワークフローを文書化しています。コアのアイデアはそのまま維持されていますが、多くの大幅な変更が加えられています。また、以前は使用方法の説明を公開していなかったため、このドキュメントは包括的なマニュアルとして機能します。

現在のワークフローは、多くのシナリオへの迅速でテンプレート化されたがカスタマイズ可能なアクセスを可能にしつつ、高品質で一貫したAV動画を作成するための確立されたツールを常に手元に保ちます。

機能

  • カウガール、ディープスロート、ドギー、ミッションアリー、ポージングをカバーする17のシーン。いくつかは完全な物語であり、他のものは複数のポーズで長く魅力的な物語を構築するために組み合わせ可能な独立したセグメントです。

    • 各シーンにはプロンプトテンプレートと推奨LORAが含まれています。テンプレートを上書きしたり、独自のLORAを追加したりできます。

    • シーンは同じソース画像から、または前のシーンの最終フレームから生成できます。

    • テンプレートは1人の被写体を前提としていますが、ほとんどのシーンは複数の被写体をサポートしています。想像力を働かせてください。

    • 1クリックですべてのテンプレートを無効化し、メインプロンプトとして同じ「プロンプト上書き」ノードを使用できます。プロンプト上書きには、シーンテンプレートプロンプトと同様にプレースホルダーを含めることができ、シーンテンプレートを出発点として使用できます。

  • 設定オプション — シーン選択、動画編集、最適化は1クリックで調整可能で、すべてのシーンに対して完全にチューニングできます。

    • Torch CompileとSage Attention — 利用できない場合、Torch Compileノードをバイパスまたはミュートし、SDPAに切り替えます。

    • Painter I2V(モーション改善)またはデフォルトのWANエンコーダーを1クリックで有効化。

    • LightX2Vモデルを1クリックで有効化:低ノイズ用のseko v1、および高ノイズ用の1022または1030のいずれか。

    • GGUFサポート — ローダーで適切なGGUFモデルを選択し、量子化を無効化。

    • 事前定義されたシーンLORA — シーンLORAスタックに追加するか、専用のカスタムLORAスタック(緑色ノード)を追加。

    • 縦向き/横向き、アップスケーリング、補間、プロンプト上書きは、入力画像に基づいて自動的に処理されます。

    • キーボードショートカット — 1〜5で設定オプション、入力、LORAなどに素早く移動。

  • 動画編集機能とツール

    • 2-in-1 I2V & FLFワークフロー

    • Painter I2Vと高LORAオプションによる改善されたモーション(最適な組み合わせを素早く見つける)

    • フレームカット — シーケンスをつなぎ合わせる際に不要なトランジションや重複フレームを削除

    • TensorRTアップスケール — 4倍アップスケール。FlashVSR/SeedVR2よりもはるかに優れています。

    • リサイズ — TensorRTアップスケール後に単独でランコスでアップスケール、またはダウンスケール(例:720p → 1080p または 720p → 5K → 1080p)

    • RIFE補間または高速TensorRT RIFE

    • 複数の出力オプション:オリジナル動画、フレーム画像シーケンス、次のシーン用最終フレーム、ポストプロダクション版

ワークフローの使い方

ワークフローのデフォルト設定により、シーンをすぐに繰り返し処理できます。

設定オプション

ヒント:1を押して設定オプションに素早く移動

処理オプション(最初のセクション)

このセクションにはすべてのポストプロセッシング設定が含まれており、複数のオプションを同時に有効化できます。

  • 最初と最後のフレーム — 単一の開始画像または「最初と最後のフレーム」の2重ワークフローを切り替えます。シーン用にすでに2つの画像を持っている場合、または以前に生成したシーンの終了フレームを再利用してシードを変更し、物語を異なる方向に進めつつ希望する形で終了させたい場合に便利です。

  • フレームスキップ — 不要なカットやトランジションを削除します。たとえば、ミッションアリーのシナリオで被写体が座っている/横になっている状態から跪いてフェイシャルカムショットを行うトランジションがある場合、そのフレームをスキップすることで、トランジションをクリーンなシーンカットに変換できます。

  • TensorRTアップスケール — 多くのモデル(Remacri、ClearReality、UltraSharpなど)をサポートする高速4倍アップスケールです。結果は他のアップスケール手法よりも通常優れています。このノードはHD、FHD、2K、4K、2倍、3倍へのダウンスケールも可能ですが、デフォルトの「なし」を維持し、「0 4. リサイズ」を有効化するのが最良です。組み込みノードのリサイズはビキュービックを使用しますが、ワークフローのリサイズはランコスを使用します—これはしばしば顕著な改善です。出力寸法をより細かく制御できます。

  • リサイズ — TensorRTアップスケールの後または単独で適用可能なランコスによる単体のアップスケールまたはダウンスケール。

補間オプション(2番目のセクション)

補間方法は1つだけ有効化できます。補間を不要な場合は何も有効化しないでください。

  • RIFE

  • TensorRT最適化RIFE(超高速)

注:現在のRIFEノードは整数倍数のみを受け付けます。今後、分数倍数やGIMM補間を可能にする新しいRIFEノードを検討中です。

出力オプション(3番目のセクション)

オリジナル出力は、フレームスキップ、アップスケール、補間の前で生成されます。

処理済み出力は、すべてのポストプロセッシングステップの後で生成されます。

各オプションに対して:

  • すべてのフレームを画像として保存できます。

  • 最終フレームのみを保存できます(次のシーンの開始画像として役立ちます)。

  • 動画をエクスポートできます。

ポストプロセッシングを有効化していない場合、オリジナルと処理済みの両方を選択すると重複ファイルが生成されます。その場合、処理済みのみを保持してください(他のアプリで追加のアップスケールが必要な場合、またはLLM/オーディオ生成の効率化のために解像度を下げる必要がある場合を除く)。

I2Vエンコーダー選択(4番目のセクション)

1つのエンコーダーのみを有効化できます。

  • Painter I2V — モーションを改善する新しいエンコーダーですが、構成や解剖学的なアーティファクトを引き起こす可能性があります。

  • WanVideo I2V — デフォルトのエンコーダー。

高LORAバージョン(5番目のセクション)

1つの高LightX2V LORAのみを有効化できます。

  • 0.5強度の10/30 — モーションを強化しますが、Painter I2Vと同様に構成や解剖学に影響を与える可能性があります。

  • 0.8強度の10/22 — 確実なベースラインパフォーマンスを提供します。

デフォルト設定:10/22 LORA + Painter I2V。この組み合わせはすべてのシーンで一般的に最良の結果をもたらしますが、特定のシーンでは他の組み合わせが適している場合があります。試行錯誤して最適な組み合わせを見つけてください。

ワークフローヒント

最初にシードを探しているとき:

  • 処理、補間、出力オプションのうち、処理済み動画の有効化と、必要に応じて処理済み最終フレーム出力のみを有効化してください。

  • 満足のいくシードを見つけたら、それを固定します。

  • ポストプロセッシングを有効化してください。ワークフローはその後、ポストプロセッシングステップと出力のみを実行し、大幅な時間節約になります。

シナリオとプロンプティング

ヒント:2を押して入力ノードに素早く移動

設定オプションの隣に、利用可能なシーンの一覧があります。1つのシーンのみを同時に選択できます。

プロンプト入力の動作

  • シーンが選択されている場合、プロンプト上書きはシーンのテンプレートを置き換えます。

  • シーンが選択されていない場合、プロンプト上書きは単純なポジティブプロンプトとして機能します(プレースホルダーは依然として有効です)。

  • ネガティブプロンプトはデフォルトでWANリストを使用し、処理セクションで調整可能です。

各シーンには以下が含まれます:

  • プロンプトテンプレート — 編集または上書き可能な基本テンプレート。

  • プレースホルダー — シーン間で共通情報を共有するために使用。

サポートされるプレースホルダー:

  • :例「woman」

  • :例「beautiful, slender」

  • :例「she」

  • :例「her」

  • :例「wavy blonde hair in a ponytail, blue eyes」

  • :例「wide-brim hat, white dress」(通常最初のフレームに適用。被写体を服を着たまままたは部分的に着たままにしたい場合は上書き)

  • :例「large perky breasts with puffy nipples」

  • (責任を持って使用)

  • :例「at a beach」または「on a sofa in the living room」(活動に適用。必ずしも最初のフレームに適用されるわけではありません)

  • :例「standing」、「sitting」(再び、活動を指し、最初のフレームを指すわけではありません)

注:大文字で記述されたプレースホルダー(例:<Subject>)は、置換時に値の先頭文字を自動的に大文字にします。

LORA設定

ヒント:3を押してカスタムLORAスタックに素早く移動
  • 各シーンは、高LORAと低LORAのセットを定義しています。

  • シーンテンプレートに直接最大5セットを追加でき、さらにワークフローがシーン切り替え時に使用する追加のカスタムLORAスタック(緑色で表示)を追加できます。

  • シーンが選択されていない場合、緑色のLORAスタックを使用して独自の高/低LORAを指定できます。シーン固有のLORAは自動的にトグルされ、干渉しません。

キー入力パラメータ

短辺 / 長辺(動画寸法)

最良の品質を得るため:

  • 720 × 1280 → 16 : 9 または 9 : 16

  • 720 × 960 → 4 : 3 または 3 : 4

  • オリエンテーションはアップロードされた画像のアスペクト比によって決定されます。画像が選択した寸法と異なる場合、画像はリサイズされ、中央を切り抜いて一致させます。

  • 寸法は16で割り切れる必要があります。値は自動的に切り捨てられます(例:725 → 720)。

アップスケール倍率

入力された倍率に基づいてアスペクト比を維持するように寸法が計算されます。

再生時間とフレームレート

デフォルトは5秒、16fps。

長い動画は生成に時間がかかり、メモリ不足エラーを引き起こす可能性があります。WANモデルは5秒後に元の画像に戻る傾向があり、繰り返しの動作に役立ちます。滑らかな動きが必要な場合は24fpsを使用できます。特にデフォルトのWANエンコーダーと10/22 LORAを使用する場合におすすめです。

スキップフレーム

設定オプションで有効化されている場合、クリップの開始および/または終了からトリムするフレーム数を指定してください。

ステップ

8に維持してください。冒険的で他の値を試したい場合は変更してください。

Shift

8–10が適しています。

低いシフト値(例:5)はこの種の動画では一般的に不良な結果をもたらします。

その他の考慮事項

ネガティブプロンプト

処理セクション(赤ノード)で調整可能。

スケジューラ

青ノードを調整。実際には、Euler(安定)とUniPC(創造的)が最良の結果をもたらします。

プレースホルダーの追加

「Placeholder Replace」サブグラフを変更します。これは「String Capitalize」と「Replace」ノードの大きくてシンプルなスタックです。

シーンの追加

可能ですが、面倒です。各シーンはサブグラフであり、グループと共にコピーできます(グループはシーンスタックに表示されるために特定の色を持つ必要があります)。課題は、すでに大きく、シーンノードからやや離れた位置にあるプロンプトとLORAスイッチにそれを接続することです。

今後の計画

  • より多くのシーンとより良いテンプレート管理

    • テンプレートとLORAをより柔軟に管理する方法を検討中です。Boyonodesを検討しましたが、LORAの強度を扱えず、一部のシーンにとって重要な機能でした。プロンプトとLORAをより良く管理できるノードをご存知であれば、教えてください。
  • 追加のツール

    • 特定のオプション(例:LLMによる自動プロンプト生成、大規模動画のステッチング)は、イテレーションとクリップ編集が必要な場合にオールインワンワークフローが不十分であるため、意図的に除外しました。

    • 今後のリリースで、芸術的フィルター、カラーマッチング、オーディオ生成(mmaudio/Ovi)その他のツールを統合する予定です。特定の要望があれば、遠慮なく共有してください。

依存関係

カスタムノード

https://github.com/kijai/ComfyUI-WanVideoWrapper

https://github.com/rgthree/rgthree-comfy

https://github.com/kijai/ComfyUI-KJNodes

https://github.com/chflame163/ComfyUI_LayerStyle

https://github.com/Kosinkadink/ComfyUI-VideoHelperSuite

https://github.com/Fannovel16/ComfyUI-Frame-Interpolation

https://github.com/yuvraj108c/ComfyUI-Upscaler-Tensorrt

https://github.com/yuvraj108c/ComfyUI-Rife-Tensorrt

https://github.com/princepainter/ComfyUI-PainterI2VforKJ

TensorRTノードのインストールに苦労している場合は、このガイドをご利用ください:

/model/2122077/rifetensorrt-interpolation-using-tensortcore-and-upscaler?modelVersionId=2402144

TritonおよびSage Attentionのインストールに苦労している場合は、このガイドをご利用ください:

https://github.com/Tavris1/ComfyUI-Easy-Install

モデル

テキストエンコーダー

https://huggingface.co/eddy1111111/Wan_toolkit/tree/main

WAN 2.2 高・低モデル

https://huggingface.co/Kijai/WanVideo_comfy_fp8_scaled/tree/main/I2V

LORAs

LightX2V 10/30

https://huggingface.co/Kijai/WanVideo_comfy/tree/main/LoRAs/Wan22_Lightx2v

LightX2V 10/22

https://huggingface.co/lightx2v/Wan2.2-Distill-Loras/tree/main

LightX2V Seko v1
https://huggingface.co/lightx2v/Wan2.2-Lightning/tree/main/Wan2.2-I2V-A14B-4steps-lora-rank64-Seko-V1

シーン用LORAs

/model/1648982

/model/2048863

/model/2121111

/model/2007166

/model/1874811

/model/1986500

https://huggingface.co/JustAnotherCibrarian/base_wan22/tree/main/1879839?not-for-all-audiences=true

https://tensor.art/models/902621070467587542

/model/1811313?modelVersionId=2176505

/model/2048121

/model/2131565

/model/2118407

/model/1983608

/model/2031069

このモデルで生成された画像

画像が見つかりません。