Wan2.2 16GB Training

詳細

ファイルをダウンロード

モデル説明

★16GB VRAMでWan2.2 LoRAをトレーニング

!!! ダウンロード不要!これは技術的なデモです!!!

→→→元のデータセット/設定を提供するトレーニングデータ→→→ /model/1944129?modelVersionId=2200388

●元のモデルとの違い:

  • 4070 Ti Super 16GB / メモリ 64GB

  • これは私の初めてのトレーニング(本当に初めての実行)

  • (musubi_tuner_gui.py を置換)(これを忘れてしまったため、i2vが動作しませんでした)

  • t2v(I2Vトレーニングは無効)

  • モデルもi2vからt2vに変更

  • 他のモデルのパスを自分の環境に変更

  • dataset_bounce_test.toml内のvideo_directoryおよびcache_directory

  • TritonとSageattention2をインストール(SDPA / 効果は不明ですが、Xformersも良いと思います)

pip install -U "triton-windows<3.3"

python -s -m pip install .\triton-3.2.0-cp312-cp312-win_amd64.whl

→→→ガイドはこちら→→→https://civitai.com/articles/12848

  • スワップするブロック数(私が知る限り、このモデルは40ブロックあります)

35(元は10)

●トレーニングに必要なVRAM

全体の30%の時間で15GBを使用し、残りは約10GBでした。

この文を書いている現在、12GBでトレーニングできるか確認しようと40に設定しましたが、エラーが発生しました。

"AssertionError: 39ブロック以上をスワップできません。スワップを要求したブロック数: 40"

●トレーニングに必要なメモリ

システムメモリは約29GB使用されました。

したがって、32GBあれば十分だと考えます。

●トレーニングにかかる時間

最長は2時間19分、最短は2時間17分でした。

20エポックトレーニングしましたが、結果が見えるまで5エポックかかりました。

したがって、正しく行えば1時間ちょっとでトレーニングできます。(すごい!信じられない!)

●トレーニング解像度(dataset_bounce_test.toml)

素材の解像度ではなく、この仕様に基づいて学習すると思われます。

resolution = [256, 512]

「source_fps = 64.0」の意味がわからないと思っていましたが、元の動画が実際には64FPSだったことがわかりました。

●トレーニング画面

●設定

●ソフトウェアとバージョン

PS D:\sd\git\PGCRT\musubi-tuner_Wan2.2_GUI\venv\Scripts> .\activate

(venv) PS D:\sd\git\PGCRT\musubi-tuner_Wan2.2_GUI\venv\Scripts> pip list

Package Version Editable project location

----------------------- ------------ ---------------------------------------

absl-py 2.3.1

accelerate 1.6.0

av 14.0.1

bitsandbytes 0.45.4

certifi 2025.8.3

charset-normalizer 3.4.3

colorama 0.4.6

contourpy 1.3.2

cycler 0.12.1

diffusers 0.32.1

easydict 1.13

einops 0.7.0

filelock 3.13.1

fonttools 4.60.0

fsspec 2024.6.1

ftfy 6.3.1

grpcio 1.75.0

huggingface-hub 0.34.3

idna 3.10

importlib_metadata 8.7.0

Jinja2 3.1.4

kiwisolver 1.4.9

Markdown 3.9

MarkupSafe 2.1.5

matplotlib 3.10.6

mpmath 1.3.0

musubi-tuner 0.1.0 D:\sd\git\PGCRT\musubi-tuner_Wan2.2_GUI

networkx 3.3

numpy 2.1.2

nvidia-ml-py 13.580.82

opencv-python 4.10.0.84

packaging 25.0

pillow 11.0.0

pip 22.2.1

protobuf 6.32.1

psutil 7.0.0

pynvml 13.0.1

pyparsing 3.2.4

python-dateutil 2.9.0.post0

PyYAML 6.0.2

regex 2025.9.1

requests 2.32.5

safetensors 0.4.5

sageattention 2.2.0

sentencepiece 0.2.0

setuptools 63.2.0

six 1.17.0

sympy 1.13.1

tensorboard 2.20.0

tensorboard-data-server 0.7.2

tokenizers 0.21.4

toml 0.10.2

torch 2.6.0+cu124

torchvision 0.21.0+cu124

tqdm 4.67.1

transformers 4.54.1

triton-windows 3.2.0.post19

typing_extensions 4.12.2

urllib3 2.5.0

voluptuous 0.15.2

wcwidth 0.2.13

Werkzeug 3.1.3

zipp 3.23.0

●必要なクリップ数と長さは?

/model/1454728/blowjobs-man-in-frame

20クリップ、3秒、16fps、512px×512px

/model/1962482/wan22-t2v-14b-prone-bone-sex

12クリップ、3〜6秒、RTX4080

/model/1954733/asshole-wan-22-t2vi2v-14b

259本の512×512動画、各3秒、単一の5090

/model/1953874/twerking

20動画、3秒

/model/1953467/licking-breasts

23動画、512×512、3秒

/model/1953632/reverseanalcowgirlwan22t2v14b

7クリップ、各3〜4秒、RTX 3090および32GB RAM

/model/1343431/bouncing-boobs-wan-14b

7動画、各約4秒、4090、約35分で完了

/model/1934246/standing-sex

19クリップ、5秒、16fps

/model/1930903/blowbang

21クリップ、5秒、16fps

/model/1930239/missionary-anal-trans

20クリップ、5秒、16fps

/model/1929589/kissing-tongue-action

25クリップ、5秒、16fps

/model/1927742/side-sexspooning-trans

29クリップ、3秒、16fps

/model/1916746/walking

10秒以上

/model/1927612/reverse-cowgirl-trans

41クリップ、3秒、24fps(16fpsにすべきでした)、次回用

/model/1894970/wan-22-reverse-suspended-congress-i2vt2v

23クリップ、各3秒、主に3Dアニメーション

/model/1869475/wan-22-anime-cumshot-aesthetics-precision-load-i2v-beta-version

39本のオリジナルアニメーションクリップ、長さ:各3秒、FPS:16 ↑トレーニング詳細↑

/model/1944129/slop-bounce-wan-22-i2v

私の3090で生成した古いAI動画7本 ↑トレーニングデータに含まれます↑

/model/1941041/facefuck-t2v-wan22-video-lora

12クリップ、256×256ピクセル、3〜8秒

/model/1874811/ultimate-deepthroat-i2v-wan22-video-lora-k3nk

複数の解像度、1〜3秒の593クリップ

/model/1852647/m4crom4sti4-huge-natural-breasts-physics-wan22-video-lora-k3nk

889クリップのデータセットから211リゾルーション、1〜3秒(複数のソース動画は16fps)

/model/1858645/facial-cumshot-wan-22-video-lora

307クリップ、211リゾルーション、1〜3秒

/model/1845306/sideview-deepthroat-wan22-video-lora

複数の解像度、1〜3秒の700クリップ

/model/1969272/4n4l-pl4y-i2v-anal-didlo-lora-wan22

98クリップ、256×256リゾルーション、1〜3秒

/model/1960102/self-nipple-sucking-lora-i2v-wan22-k3nk

5つの異なるシーン、複数の解像度、1〜5秒、211リゾルーションの319クリップ

/model/1954774/cunnilingus-pussy-licking-lora-i2v-wan22-k3nk

複数の解像度、1〜5秒、256リゾルーションの121クリップ

●動画ファイルからキャプション(txt)を作成(1フレームを画像として分析)

これは最善の方法とは思いませんが、誰かの役に立てばと思います。

この画像をダウンロードしてComfyUIの画面にドラッグすることで読み込めます。

ごめんなさい、アップロード後にワークフローが消えてしまいました。

キャプションテキストは、動画ファイルと同じファイル名で保存されます。

●次のトレーニングを試しました

32動画、20エポック、resolution = [512, 288]、blockswap=36

しかし、何らかの理由で649個の動画キャッシュが作成され、最終的に12,340ステップに達しました…(39時間54分 / 1LoRA)

このモデルで生成された画像

画像が見つかりません。