ON-THE-FLY 实时生成!Wan-AI 万相/ Wan2.1 Video Model (multi-specs) - CausVid&Comfy&Kijai - workflow included

詳細

モデル説明

すべてをワンで、万ですべてを

私たちは、才能あるコミュニティのクリエイターたちに、最新モデルを紹介することを心より嬉しく思います:

Wan2.1-VACE、すべてを一つにまとめた動画作成および編集モデル。

モデルサイズ:1.3B14B ライセンス:Apache-2.0

もし私たちが万相世界にいるとしたら、どんな世界になるでしょう?

モデルは、2つのテキストから動画へのモデル(1.3B と 14B)と、2つの解像度(480P と 720P)をサポートしています。

WAN-VACET2Vモデルではなく、R(参照)2Vです。WANのためのVideo ControlNetと捉えることができます。したがって、T2Vワークフローを提供することはできません。CausVidアクセラレーターは、WAN-VACEで使用可能なディスティレーション加速技術であり、4〜8ステップの高速生成を実現します。

WAN-VACE本身不是T2V模型,而是R(参考)2V,可以理解为WAN的视频CN,因此无法提供T2V工作流程。CausVid加速器是一种蒸馏加速技术,可用于WAN-VACE,提供4-8步加速生成。

紹介

VACEは、動画作成および編集のためのオールインワンモデルです。参照から動画への生成(R2V)、動画から動画への編集(V2V)、マスク付き動画から動画への編集(MV2V)など、さまざまなタスクをカバーし、ユーザーがこれらのタスクを自由に組み合わせることができます。この機能により、ユーザーは多様な可能性を探索し、ワークフローを効率的に簡素化できます。Move-Anything、Swap-Anything、Reference-Anything、Expand-Anything、Animate-Anythingなどの幅広い機能を提供します。

VACE是一款专为视频创建和编辑而设计的一体化模型。它包括各种任务,包括视频生成(R2V)、视频到视频编辑(V2V)和屏蔽视频到视频剪辑(MV2V),允许用户自由组合这些任务。此功能使用户能够探索各种可能性,并有效地简化他们的工作流程,提供一系列功能,如移动任何内容、交换任何内容、引用任何内容、扩展任何内容、为任何内容设置动画等。


CausVid**-Wan2-1**について:

5-16 KijaiによるCausVidパーフェクトな解決策(ベストプラクティス)

Wan21_CausVid_14B_T2V_lora_rank32.safetensors · Kijai/WanVideo_comfy

重み抽出ブロック分離を通じて、

KJは、任意の14B WANモデル向けのユニバーサルなCausVid LoRA(ランク32)を提供しました。

FTモデルやI2Vモデルを含むすべてのモデルに適用可能!

この手法はCausVidの当初の意図とは異なるかもしれませんが、LoRAパラメータ(0.3〜0.5)を柔軟に調整することで、家庭用グラフィックカード上で前例のない可用性を実現しました!

KJ-神レベルの開発者は、1.3B双方向推論版のLoRAエクスポートファイルも提供しています。

Wan21_CausVid_bidirect2_T2V_1_3B_lora_rank32.safetensors

同時にxunhuang1995が、tianweiy/CausVidからWarp-4Step_cfg2の自己回帰版1.3B CausVidモデルをアップロードしていることも確認しました。

と為壹,全部在

WAN-VACE完全モデル向けの最適な適合

5/15 REDCausVid**-Wan2-1**-14B-DMD2-FP8をアップロード。8-15ステップCFG 1

このページの右側のダウンロードリストはSafetensors形式で、ワークフローはTraining data圧縮ファイル内に含まれています。

このページの右側にあるダウンロードリストはSafetensors形式で、ワークフローTraining data圧縮ファイルに含まれています。例示画像および動画にはワークフローも含まれています(はい元の動画ファイルComfyUI直接投入し、ワークフローをキャプチャすることができます)。

5/15 Aiwood WAN-ACE完全機能ワークフローをアップロード

5/15 ComfyUI KJ-WanVideoWrapperが更新されました

5/14 autoregressive_checkpoint.pt 1.3bアップロード、PT UNETローダー

5/14 bidirectional_checkpoint2.pt 1.3bアップロード、PT UNETローダー

サンプラー Flowmatch_causvidKJ-WanVideoWrapper に追加

リリース元:

kijai/ComfyUI-WanVideoWrapper

⭐スターを付けてください⭐

[VACE向けのWAN1.2 LoRAsの適合性テスト結果によると、約75%I2V/T2V LoRA重みが有効ですが、感度が低下します(LoRA重みを100%以上に上げることで、ときには役立つ場合があります)]

Aiwood WAN-ACE完全機能ワークフローの全体像:

出典:https://www.bilibili.com/video/BV1FGE6zGEDK ⭐スターを付けてください⭐

CausVid 加速器プロジェクトページ https://causvid.github.io/


WAN-VACEモデルのパラメータと設定:

📌 Wan2.1-VACEは、参照から動画生成(R2V)、動画から動画編集(V2V)、マスク付き動画から動画編集(MV2V)など、さまざまなタスクの解決策を提供し、クリエイターがこれらの機能を自由に組み合わせて複雑なタスクを実現できるようにします。

👉 マルチモーダル入力により、動画生成の制御性が向上します。

👉 タスク間の一貫した解決策を提供する単一モデル。

👉 機能の自由な組み合わせにより、より深い創造性を解放します。

📌 Wan2.1-VACE为各种任务提供解决方案,包括参考视频生成(R2V)、视频到视频编辑(V2V)和屏蔽视频到视频剪辑(MV2V),允许创作者自由组合这些功能来实现复杂的任务。

👉 多模态输入增强了视频生成的可控性。

👉 统一的单一模型,实现跨任务的一致解决方案。

👉 自由组合功能,释放更深层次的创造力


WANリアルタイム生成が登場!ハイブリッドAIモデルが数秒で滑らかで高品質な動画を生成

CausVid生成AIツールは、拡散モデルを使用して自己回帰(フレームごと)システムを学習させ、迅速に安定した高解像度動画を生成します。

Wan2.1ベースのハイブリッドAIモデルは、数秒(9フレーム/秒)で滑らかで高品質な動画を生成します。

CausVid生成AIツールは、拡散モデルを使用して自己回帰(フレームごと)システムを学習させ、迅速に安定した高解像度動画を生成します。

Hybrid AI model crafts smooth, high-quality videos in seconds | MIT News | Massachusetts Institute of Technology

遅い双方向から高速な自己回帰動画拡散モデルへ

CausVid https://causvid.github.io/

tianweiy (Tianwei Yin)

RedCaus/REDCausVid**-Wan2-1**-14B-DMD2-FP8アップロード / WAN-VACE14B 最適適合

CausVid**/autoregressive_checkpoint**アップロード / 自己回帰モデルはWAN1.3Bに基づく収録済み

CausVid**/bidirectional_checkpoint2**アップロード / 双方向推論モデルはWAN1.3Bに基づく収録済み

Kijai/Wan2_1-T2V-14B_CausVid_fp8_e4m3fn.safetensors / HFリポジトリ WanVideo_comfy

⭐スターを付けてください⭐

Brief computer-generated animation of a character in an old deep-sea diving suit walking on a leaf

Creative Commons Attribution Non Commercial 4.0ライセンス

この友人の追加コメントに感謝します。昨夜は興奮しすぎて眠れず、更新を途中で止めてしまいました:

公式のPythonベースの推論コードを使用する必要があります。

  1. https://github.com/tianweiy/CausVid をクローンし、要件のインストール手順に従ってください。

  2. https://huggingface.co/Wan-AI/Wan2.1-T2V-1.3B を wan_models/Wan2.1-T2V-1.3B にクローンしてください。

  3. ptファイルを checkpoint_folder/model.pt に配置してください。

  4. 推論コードを実行:python minimal_inference/autoregressive_inference.py --config_path configs/wan_causal_dmd.yaml --checkpoint_folder XXX --output_folder XXX --prompt_file_path XXX

CausVidに関するReddit投稿:https://www.reddit.com/r/StableDiffusion/comments/1khjy4o/causvid_generate_videos_in_seconds_not_minutes/

https://www.reddit.com/r/StableDiffusion/comments/1k0gxer/causvid_from_slow_bidirectional_to_fast/

Wan1.3b版のCausVidをテストしたところ、驚異的な速度を実現し、現在lightx2vが作成した14B版のテストを進めています。

LightX2V: Light Video Generation Inference Framework

対応モデル一覧

HunyuanVideo-T2V

HunyuanVideo-I2V

Wan2.1-T2V

Wan2.1-I2V

Wan2.1-T2V-CausVid

SkyReels-V2-DF

実行方法

lightx2vのドキュメントをご覧ください。

⭐スターを付けてください⭐


通義ラボ WAN 2.1 モデルズー

インテリジェントコンピューティング研究所は、各分野における大規模モデル技術の研究開発と応用イノベーションに注力しています。研究分野には自然言語処理、マルチモーダル、ビジョナルAIGC、音声など多岐にわたり、研究成果の産業化推進にも積極的に取り組んでいます。また、オープンソースコミュニティの構築にも積極的に参加し、AIモデルのオープン化と共同探求を全面的に推進しています。

開発者 / モデル名 / Kijai`s ComfyUI モデル


RedCaus/REDCausVid**-Wan2-1**-14B-DMD2-FP8アップロード / WAN-VACE14B 最適適合

CausVid**/autoregressive_checkpoint**収録済み / 自己回帰モデルはWAN1.3Bに基づく

CausVid**/bidirectional_checkpoint2**収録済み / 双方向推論モデルはWAN1.3Bに基づく

CausVid**/wan_causal_ode_checkpoint_model**テスト中 / 自己回帰因果推論 テスト中

CausVid**/wan_i2v_causal_ode_checkpoint_model**テスト中 / 文から画像モデル テスト中

lightx2v**/Wan2.1-T2V-14B-CausVid**不適合 / 自己回帰モデル14B、AiWood実測で不適格

lightx2v**/Wan2.1-T2V-14B-CausVid quant**不適合 / 自己回帰モデル14B量子化版、実測で不適格


Wan Team**/1.3B テキストから動画**収録済み / テキストから動画1.3B収録済み

Wan Team**/14B テキストから動画**収録済み / テキストから動画14B収録済み

Wan Team**/14B 画像から動画 480P**収録済み / 画像から動画14B収録済み

Wan Team**/14B 画像から動画 720P**収録済み / 画像から動画14B収録済み

Wan Team**/14B 最初と最後のフレームから動画 720P**収録済み / 動画の最初と最後のフレーム収録済み

Wan Team**/Wan2_1_VAE収録済み / KiJaiのWAN動画VAE**収録済み

ComfyORG**/Wan2.1_VAE収録済み / ComfyのWAN動画VAE**収録済み

google/umt5-xxl umt5-xxl-enc safetensors収録済み / TEエンコーダー収録済み

mlf/open-clip-xlm-roberta-large-vit-huge-14 safetensors収録済み / CLIPエンコーダー収録済み


DiffSynth-Studioチーム / 1.3B 美学 LoRA 美学蒸馏-通义万相2.1-1.3B-LoRA-v1

DiffSynth-Studioチーム / 1.3B 高解像度修復 LoRA 高分辨率修复-通义万相2.1-1.3B-LoRA-v1

DiffSynth-Studioチーム / 1.3B 動画長さ拡張 LoRA 长度扩展-通义万相2.1-1.3B-LoRA-v1

DiffSynth-Studioチーム / 1.3B 速度制御 アダプター 速度控制-通义万相2.1-1.3B-适配器-v1


PAIチーム / WAN2.1 Fun 1.3B InP 開始・終了フレーム対応 / Kijai/WanVideo_comfy

PAIチーム / WAN2.1 Fun 14B InP 開始・終了フレーム対応 / Kijai/WanVideo_comfy

PAIチーム / WAN2.1 Fun 1.3B Control コントローラー / Kijai/WanVideo_comfy

PAIチーム / WAN2.1 Fun 14B Control コントローラー / Kijai/WanVideo_comfy

PAIチーム / WAN2.1 Fun 14B Control コントローラー / Kijai/WanVideo_comfy

PAIチーム / WAN2.1-Fun-V1_1-14B-Control-Camera / Kijai/WanVideo_comfy

IICチーム / VACE-通义万相2.1-1.3B-Preview / Kijai/WanVideo_comfy


IC(文脈内)コントローラー:マルチモーダルコントローラー

ali-vilab/ VACE: All-in-One Video Creation and Editing / Kijai/WanVideo_comfy

Phantom-video/Phantom マルチモーダルアライメントによるサブジェクト一貫性

KwaiVGI/ ReCamMaster カメラ制御による多角度レンズ / Kijai/WanVideo_comfy


Wan2.1 を用いたデジタルキャラクター

ali-vilab/ UniAnimate-DiT 長シーケンス骨格キャラクター動画 / Kijai/WanVideo_comfy

Fantasy-AMAP/ 音声駆動デジタルキャラクター ファンタジー会話 / Kijai/WanVideo_comfy

Fantasy-AMAP/ キャラクターの一貫性とアイデンティティ保持 ファンタジーID / Fantasy-AMAP/fantasy-id


検閲解除されたNSFW版:

REDCraft AIGC / WAN2.1 720P NSFW 解鎖版 / 個人使用専用【非公開】

CubeyAI / WAN General NSFW model (FIXED) / 最高の汎用LoRA


崑崙萬維が発表した SkyReels(Wan2.1ベース)

Skywork / SkyReels-V2-I2V-14B-720P / 画像→動画 / Kijai/WanVideo_comfy

Skywork / SkyReels-V2-I2V-14B-540P / 画像→動画 / Kijai/WanVideo_comfy

Skywork / SkyReels-V2-T2V-14B-540P / テキスト→動画 / Kijai/WanVideo_comfy

Skywork / SkyReels-V2-T2V-14B-720P / テキスト→動画 / Kijai/WanVideo_comfy

Skywork / SkyReels-V2-I2V-1.3B-540P / 画像→動画 / Kijai/WanVideo_comfy


自己回帰ディフュージョン強制 無限長生成アーキテクチャ

Skywork / SkyReels-V2-DF-14B-720P / テキスト→動画 / Kijai/WanVideo_comfy

Skywork / SkyReels-V2-DF-14B-540P / テキスト→動画 / Kijai/WanVideo_comfy

Skywork / SkyReels-V2-DF-1.3B-540P / テキスト→動画 / Kijai/WanVideo_comfy


崑崙萬維が発表した SkyReels 動画キャプション生成モデル:

Skywork / SkyCaptioner-V1 Skywork (Skywork) / Skywork/SkyCaptioner-V1


Tiny AutoEncoder / taew2_1 safetensors / Kijai/WanVideo_comfy

画像を潜在空間にエンコードし、潜在表現を画像へデコードするための軽量なディストILLED VAEモデル


WAN Comfy-Org/Wan_2.1_ComfyUI_repackaged

【例示ページの青色ノードまたはwebpファイルのダウンロードで動画ワークフローを再現可能】

Gallery サンプル画像/動画(WEBP形式)には、ComfyUIネイティブワークフローが含まれています

以下は簡潔で明確なGGUFモデルの読み込みとタイルサンプリングワークフローです:

Wan 2.1 Low vram Comfy UI Workflow (GGUF) 4gb Vram - v1.1 | Wan Video Workflows | Civitai

ノード:(またはComfyUI Managerでカスタムノードをインストール)

https://github.com/city96/ComfyUI-GGUF

https://github.com/kijai/ComfyUI-WanVideoWrapper

https://github.com/BlenderNeko/ComfyUI_TiledKSampler

* 最新バージョンの comfyui-KJNodes への更新が必要です:GitHub - kijai/ComfyUI-KJNodes: Various custom nodes for ComfyUI ComfyUI KJNodes最新版にアップデートしてください


Kijai が提供する WanVideo 用 ComfyUI ワッパーノード

作業中

@kijaidesign による成果

Huggingface - Kijai/WanVideo_comfy

GitHub - kijai/ComfyUI-WanVideoWrapper

メイン動画は AiWood から

https://www.bilibili.com/video/BV1TKP3eVEue

Text encoders を ComfyUI/models/text_encoders

Transformer を ComfyUI/models/diffusion_models

Vae を ComfyUI/models/vae

現在、I2Vモデルのみ正常に動作しました。

フレーム数を81未満にすると動作しません。これは512x512x81でした

約16GB使用(20/40ブロックをオフロード)


DiffSynth-Studio 推論GUI

Wan-Video LoRA および微細調整トレーニング

DiffSynth-Studio/examples/wanvideo at main · modelscope/DiffSynth-Studio · GitHub


💜 Wan    |    🖥️ GitHub    |   🤗 Hugging Face   |   🤖 ModelScope   |    📑 論文(準備中)    |    📑 ブログ    |   💬 微信グループ   |    📖 Discord  


Wan: Open and Advanced Large-Scale Video Generative Models

通義萬相Wan2.1動画モデルオープンソース化!動画生成モデルの新基準、中国語テキスト対応+高品質動画生成

本リポジトリでは、動画生成の可能性を広げる包括的でオープンな動画基礎モデル Wan2.1 を発表します。Wan2.1 の主な特長:

  • 👍 最先端の性能Wan2.1 は複数のベンチマークで、既存のオープンソースモデルや最先端の商用ソリューションを一貫して上回ります。

  • 👍 一般消費者向けGPU対応:T2V-1.3Bモデルはわずか8.19GBのVRAMで動作可能であり、ほぼすべての一般消費者向けGPUと互換性があります。RTX 4090上で最適化(量子化など)なしで5秒間の480P動画を約4分で生成できます。その性能は一部の非オープンソースモデルと同等です。

  • 👍 複数タスク対応Wan2.1 はテキスト→動画、画像→動画、動画編集、テキスト→画像、動画→音声など、動画生成分野の幅広いタスクで優れた性能を発揮します。

  • 👍 視覚的テキスト生成Wan2.1 は中国語と英語の両方を生成可能な最初の動画モデルであり、堅牢なテキスト生成機能により実用性が飛躍的に向上します。

  • 👍 強力な動画VAEWan-VAE は優れた効率と性能を実現し、任意の長さの1080P動画を時間的情報を保持したままエンコード・デコード可能で、動画・画像生成の理想的な基盤となります。

本リポジトリでは、オープンソース・クローズドソースモデルの両方で新基準を打ち立てたT2V-14Bモデルを公開しています。このモデルは、豊かな動きを持つ高品質なビジュアルを生成する能力に優れており、中国語と英語の両方のテキスト生成を可能にし、480Pおよび720Pの解像度での動画生成をサポートしています。

このモデルで生成された画像

画像が見つかりません。