Wan 2.2 img2img workflow for the GPU poor
詳細
ファイルをダウンロード
モデル説明
(ショーケースの画像は技術の比較です。左:オリジナル、右:Wan2.2)
マスキング技術の詳細については、フォーカルマスキング に関する記事をご覧ください。
(Redditで見つかった画像)
Wan 2.2はその前バージョンや既知のすべてのオープンソースモデルとは異なります。動画を生成する際に、2つの異なるモデルが互いに連携しながら使用され、処理が完了するまで繰り返されます。これらのモデルは「高ノイズ」と「低ノイズ」と呼ばれています。高ノイズモデルは構成を制御し、低ノイズモデルは詳細を担当します。140億パラメータを持つこれらのモデルはより強力ですが、同時にリソース消費も大幅に増加します。
量子化モデルは、低スペックGPU向けに最適化されていない通常のモデルの良い代替手段です。これらは古いGPUにとってしばしば唯一の適切なモデルとなります。Wan 2.2は量子化に非常に適した候補です。これらのモデルは画像ではなく動画で学習されているため、時間的空間(オブジェクトの位置関係)をより正確に理解し、詳細が一貫していて整合性があります。その結果、動画モデルは画像モデルよりも優れていることがしばしばあります。
このようなモデルを使用したimg2imgワークフローでは、画像の詳細を動画のフレームに適合させます。結局のところ、動画とは画像の連続に過ぎません。この場合、画像を生成するための潜在空間を作成する責任を負う低ノイズモデルを使用する必要があります。他のモデルはこのモデルほどうまく機能しません。img2imgワークフローの一般的な原則として、ノイズ除去レベルが低いほど出力の変化は小さくなります。したがって、望みの結果に応じて適切にレベルを調整してください。また、解像度は詳細に影響するため非常に重要です。しかし、解像度が高くなるほど生成にかかる時間が長くなり、Comfyではメモリが不足する可能性があります。
NSFW画像の場合、結果は予測可能です:性器が変形します。
私はNSFW画像でのワークフローを男性のもののみでテストしました。陰茎はしばしば足や他の曖昧な付属物に変化します。膣のクローズアップの詳細を保持できるかも疑問です。私が知る唯一の対処法は、インペイニングすることです。


















