Wan Video 2.2

詳細

ファイルをダウンロード

モデル説明

Wan Video

注意: Civitaiには他のWan Videoファイルもホストされていますが、これらは重複している可能性があります。本モデルカードは、Civitaiジェネレーターで使用されるWan Videoのファイルを主にホストすることを目的としています。

これらのファイルはComfyUI Repackです。元のファイルはこちらのDiffusers/multi-part safetensors形式で確認できます。

Wan2.2は、私たちの視覚的生成モデルに対する主要なアップグレードであり、今やオープンソース化され、より強力な機能、優れたパフォーマンス、 Superiorな視覚的品質を提供します。Wan2.2では、以下の技術的革新を導入することに重点を置いています:

👍 MoEアーキテクチャ: Wan2.2は、ビデオディフュージョンモデルにMixture-of-Experts(MoE)アーキテクチャを導入しました。タイムステップ間のノイズ除去プロセスを、専門の強力なエキスパートモデルで分離することで、計算コストをそのままに全体的なモデル容量を拡大しています。

💪🏻 データスケーリング: Wan2.1と比較して、Wan2.2は画像が+65.6%、動画が+83.2%多く使用してトレーニングされています。この拡張により、動き、意味論、審美性などの複数の次元におけるモデルの汎化能力が顕著に向上し、オープンソースおよびプロプライエタリモデルのすべての中でトップパフォーマンスを達成しています。

🎬 シネマティックな審美性: Wan2.2は、照明、構図、色に関する細かいラベル付けを施した特別に選別された審美データを組み込んでいます。これにより、照明・構図・色のスタイルをより正確かつ制御可能に生成でき、カスタマイズ可能な審美的な好みを持つ動画の作成を実現します。

🚀 効率的な高解像度ハイブリッドTI2V: Wan2.2は、先進的なWan2.2-VAEを用いて構築された5Bモデルをオープンソース化しました。このモデルは16×16×4の圧縮率を達成し、720P解像度で24fpsのテキストから動画、画像から動画の生成をサポートします。また、4090などの一般消費者向けグラフィックカードでも実行可能です。現在利用可能な最速の720P@24fpsモデルの一つであり、産業界と学術界の両方に対応しています。

Wan2.2-T2V-A14B

T2V-A14Bモデルは、480Pおよび720P解像度で5秒の動画生成をサポートしています。Mixture-of-Experts(MoE)アーキテクチャを採用し、優れた動画生成品質を実現しています。新しいベンチマークWan-Bench 2.0では、このモデルは主要な評価次元の多くで、既存の商業モデルを上回っています。

Wan2.2-I2V-A14B

I2V-A14Bモデルは、画像から動画への生成を目的としており、480Pと720Pの両方の解像度をサポートしています。Mixture-of-Experts(MoE)アーキテクチャを採用し、不自然なカメラ移動を削減してより安定した動画合成を実現し、多様なスタイリッシュなシーンへの対応を強化しています。

Wan2.2-TI2V-5B

TI2V-5Bモデルは、先進的なWan2.2-VAEを用いて構築され、16×16×4の圧縮率を達成しています。このモデルは720P解像度で24fpsのテキストから動画、画像から動画の生成をサポートし、4090のような単一の一般消費者向けGPU上で動作可能です。現在利用可能な最速の720P@24fpsモデルの一つであり、産業用途と学術研究の両方のニーズを満たします。

GitHub: https://github.com/Wan-Video/Wan2.2

元のHuggingFaceリポジトリ: https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/tree/main/split_files/diffusion_models

このモデルで生成された画像

画像が見つかりません。