Optimised Hunyuan/Skyreels/Wan 2.1 GGUF I2V + Upscale (Hunyuan LORA Compatible) (3060 12GBVRAM + 32gbRAM)

詳細

ファイルをダウンロード

モデル説明

何か問題が発生した場合は、CivitAIやDiscordでPMしてください。

Hunyuan 720p I2V

1316.72s 73F 688x800 22ステップ dpmpp_2m simple

Hunyuan720pI2V Q6_K gguf(必要に応じて調整)
https://huggingface.co/city96/HunyuanVideo-I2V-gguf/tree/main

llava_llama3_vision
https://huggingface.co/Comfy-Org/HunyuanVideo_repackaged/blob/main/split_files/clip_vision/llava_llama3_vision.safetensors

clip_l(clip_hunyuanにリネーム)
https://huggingface.co/Comfy-Org/HunyuanVideo_repackaged/tree/main/split_files/text_encoders

hunyuan_video_vae_bf16
https://huggingface.co/Comfy-Org/HunyuanVideo_repackaged/tree/main/split_files/vae

Pythonバージョン 3.12.7、Cuda 12.6、Torch 2.6.0+cu126
Triton Windows: https://github.com/woct0rdho/triton-windows/releases

お使いのPythonバージョンに合ったwheelファイルをダウンロードしたら、コマンドプロンプトを開き、ダウンロードしたファイルが保存されているディレクトリに移動してください。その後、次のコマンドを実行してください:

python_embeded経由で:

python.exe -m pip install triton-3.2.0-(ファイル名)
python.exe -m pip install sageattention==1.0.6


Wan2.1

562.51s 512x512 uni_pc simple 33F
12step & 8stepの分割が意図通りに動作します
81F 1018.89s!
81F 573.99s!
8step分割 161F/10s (16fps) 512x512 uni_pc simple 6760.70秒かかりますが動作します!(メタデータが埋め込まれたPNGを投稿済み)

Buzzに感謝のチップをいただき、作成した作品をワークフローギャラリーに投稿したり、リソースを投稿に追加してください。楽しんでください!
Wan2.1 I2Vのアップデートを公開しました!
49F
512x512
12step(2段階:6+6)
Uni_pc
Simple
追加するLoRAごとに推論時間が+200-400秒ほど増えているようです
33F 700-900秒
49F 1000-1500秒

Wan2.1 480p I2V /unet(必要に応じて調整)
https://huggingface.co/city96/Wan2.1-I2V-14B-480P-gguf/blob/main/wan2.1-i2v-14b-480p-Q6_K.gguf

Clip vision /clip_vision
https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/blob/main/split_files/clip_vision/clip_vision_h.safetensors

Vae /vae
https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/blob/main/split_files/vae/wan_2.1_vae.safetensors

Text encoder /clip または /text_encoders
https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/blob/main/split_files/text_encoders/umt5_xxl_fp8_e4m3fn_scaled.safetensors

(オプション)Upscale /upscale_models

https://huggingface.co/lokCX/4x-Ultrasharp/blob/main/4x-UltraSharp.pth


Skyreels

最終的なベアボーンズ+テキスト重み付きHunyuan LoRA互換性アップデートを公開しました
831.61秒(アップスケーリングなし)
932.07秒(アップスケーリングなし)
ショーケースに動画を公開しました
UnetLoaderGGUFDisTorchMultiGPUカスタムノードのvirtual_vram_gbを調整すれば、8GB VRAM以下でも動作する可能性があります(十分なRAM GBがあれば)

ステージ1:415.369、ステージ2:315.937、VAE:70.838、合計:837.93秒。Q6+6stepLORA+SmoothLORA+DollyLORA
(私は人間中心でない場合、常にDPM++2M\Beta + Smooth LORAを使用しています。平均実行時間:700-900秒、73F、アップスケーリングなし)

Comfyui_MultiGPU = UnetLoaderGGUFDisTorchMultiGPU(イメージ潜在バッチ4 flux-finetune Q8、txt2imgワークフローのggufローダーを置き換え)
Comfyui_KJNodes = TorchCompileModelHyVideo、Patch Sage Attention KJ、Patch Model Patcher Order(ノード追加>KJNodes>実験的)

∨∨∨∨∨∨∨∨∨∨∨∨∨∨∨∨∨∨∨∨∨∨∨∨∨∨∨∨∨∨∨∨∨∨∨∨∨∨∨∨∨∨∨∨∨∨
https://huggingface.co/spacepxl/skyreels-i2v-smooth-lora
∧∧∧∧∧∧∧∧∧∧∧∧∧∧∧∧∧∧∧∧∧∧∧∧∧∧∧∧∧∧∧∧∧∧∧∧∧∧∧∧∧∧∧∧∧∧

ご自身の要件に合わせてvirtual_vram_gbを調整してください(モデルをSamplerCustomにロードした後にComfyuiコマンドで表示されるdistorch割り当て値を参照することをお勧めします)または、通常のUnet Loader(GGUF)とskyreels-hunyuan-I2V-Q?を併用してください。

最初のロード:
プロンプト実行時間:1662.22秒 - アップスケーリングに要した587.365秒 = 1075秒
640x864
73フレーム(安定した生成時間)
ステップ:6-12(ステージ1:6ステップ + ステージ2:6ステップ)
cfg:4.0
サンプラー:Euler
スケジューラ:Simple

(オリジナルのKijai WF:https://huggingface.co/Kijai/SkyReels-V1-Hunyuan_comfy/blob/main/skyreels_hunyuan_I2V_native_example_01.json

アップスケーラー付きのベアボーンズI2Vワークフロー。3060 12GB VRAM + 32GB RAMで最適化されています。
ComfyUI、Torch、CUDAを必ずアップデートしてください。

updateフォルダ内のupdate_comfyui.batを実行してください。

python_embededフォルダに戻り、
画面上部のファイルディレクトリバーをクリックし、「cmd」と入力してEnterを押してください。

cmdで「python.exe -m pip install --upgrade torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu126」と入力してください。

∨∨ 以前のワークフローに悪影響を与える可能性があります ∨∨

それでも動作しない場合は、もう1つのupdate.batを実行してください:update_comfyui_and_python_dependencies.bat

∧∧ 以前のワークフローに悪影響を与える可能性があります ∧∧

ワークフローリソース:
Fast_Hunyuan LoRA(models/lora):https://huggingface.co/Kijai/HunyuanVideo_comfy/blob/main/hyvideo_FastVideo_LoRA-fp8.safetensors

GGUFモデル(要件に応じてモデルを切り替え)(models/unet):
https://huggingface.co/Kijai/SkyReels-V1-Hunyuan_comfy/blob/main/skyreels-hunyuan-I2V-Q6_K.gguf

VAEモデル(models/vae):https://huggingface.co/Kijai/HunyuanVideo_comfy/blob/main/hunyuan_video_vae_bf16.safetensors

clip_lモデル(私はclip_hunyuanにリネームしました)(models/clip):
https://huggingface.co/Comfy-Org/HunyuanVideo_repackaged/blob/main/split_files/text_encoders/clip_l.safetensors

llava_llama3モデル(models/clip):https://huggingface.co/calcuis/hunyuan-gguf/blob/main/llava_llama3_fp8_scaled.safetensors

アップスケーリングモデル(models/upscale_models):https://huggingface.co/uwg/upscaler/blob/main/ESRGAN/4x-UltraSharp.pth

個人的な生成時間

初回ロード後のベース生成時間(2段階+VAEデコード):
758.173秒
704.589秒

初回ロード後の推奨LoRA使用時:
779.494秒

初回ロード後(ロードなしテスト)の169Fテスト:
OOM(メモリ不足)

初回ロード後+6stepLORA+SmoothLORA(ロードなしテスト)の121Fテスト:
ステージ1
525.14秒 1回目
729.66秒 2回目
736.19秒 3回目
645.15秒 4回目
665.55秒 5回目
764.12秒 6回目/平均
ステージ2
81.90秒 1回目+2回目
OOM
OOM発生後の即時再キュー(ステージ2から再開)
6.17秒 1回目
113.74秒 2回目+3回目
222.92秒 4回目
327.62秒 5回目
282.29秒 6回目/平均
VAE:128.309秒

97Fテスト I2V+6stepLora(ギャラリーに投稿済み)(まだOOMなし)
1123秒
1013秒

このモデルで生成された画像

画像が見つかりません。