Wan2.2 16GB Training
詳細
ファイルをダウンロード
このバージョンについて
モデル説明
★16GB VRAMでWan2.2 LoRAをトレーニング
!!! ダウンロード不要!これは技術的なデモです!!!
→→→元のデータセット/設定を提供するトレーニングデータ→→→ /model/1944129?modelVersionId=2200388
●元のモデルとの違い:
4070 Ti Super 16GB / メモリ 64GB
これは私の初めてのトレーニング(本当に初めての実行)
(musubi_tuner_gui.py を置換)(これを忘れてしまったため、i2vが動作しませんでした)
t2v(I2Vトレーニングは無効)
モデルもi2vからt2vに変更
他のモデルのパスを自分の環境に変更
dataset_bounce_test.toml内のvideo_directoryおよびcache_directory
TritonとSageattention2をインストール(SDPA / 効果は不明ですが、Xformersも良いと思います)
pip install -U "triton-windows<3.3"
python -s -m pip install .\triton-3.2.0-cp312-cp312-win_amd64.whl
→→→ガイドはこちら→→→https://civitai.com/articles/12848
- スワップするブロック数(私が知る限り、このモデルは40ブロックあります)
35(元は10)
●トレーニングに必要なVRAM
全体の30%の時間で15GBを使用し、残りは約10GBでした。

この文を書いている現在、12GBでトレーニングできるか確認しようと40に設定しましたが、エラーが発生しました。
"AssertionError: 39ブロック以上をスワップできません。スワップを要求したブロック数: 40"
●トレーニングに必要なメモリ
システムメモリは約29GB使用されました。
したがって、32GBあれば十分だと考えます。
●トレーニングにかかる時間
最長は2時間19分、最短は2時間17分でした。
20エポックトレーニングしましたが、結果が見えるまで5エポックかかりました。
したがって、正しく行えば1時間ちょっとでトレーニングできます。(すごい!信じられない!)
●トレーニング解像度(dataset_bounce_test.toml)
素材の解像度ではなく、この仕様に基づいて学習すると思われます。
resolution = [256, 512]
「source_fps = 64.0」の意味がわからないと思っていましたが、元の動画が実際には64FPSだったことがわかりました。

●トレーニング画面


●設定




●ソフトウェアとバージョン
PS D:\sd\git\PGCRT\musubi-tuner_Wan2.2_GUI\venv\Scripts> .\activate
(venv) PS D:\sd\git\PGCRT\musubi-tuner_Wan2.2_GUI\venv\Scripts> pip list
Package Version Editable project location
----------------------- ------------ ---------------------------------------
absl-py 2.3.1
accelerate 1.6.0
av 14.0.1
bitsandbytes 0.45.4
certifi 2025.8.3
charset-normalizer 3.4.3
colorama 0.4.6
contourpy 1.3.2
cycler 0.12.1
diffusers 0.32.1
easydict 1.13
einops 0.7.0
filelock 3.13.1
fonttools 4.60.0
fsspec 2024.6.1
ftfy 6.3.1
grpcio 1.75.0
huggingface-hub 0.34.3
idna 3.10
importlib_metadata 8.7.0
Jinja2 3.1.4
kiwisolver 1.4.9
Markdown 3.9
MarkupSafe 2.1.5
matplotlib 3.10.6
mpmath 1.3.0
musubi-tuner 0.1.0 D:\sd\git\PGCRT\musubi-tuner_Wan2.2_GUI
networkx 3.3
numpy 2.1.2
nvidia-ml-py 13.580.82
opencv-python 4.10.0.84
packaging 25.0
pillow 11.0.0
pip 22.2.1
protobuf 6.32.1
psutil 7.0.0
pynvml 13.0.1
pyparsing 3.2.4
python-dateutil 2.9.0.post0
PyYAML 6.0.2
regex 2025.9.1
requests 2.32.5
safetensors 0.4.5
sageattention 2.2.0
sentencepiece 0.2.0
setuptools 63.2.0
six 1.17.0
sympy 1.13.1
tensorboard 2.20.0
tensorboard-data-server 0.7.2
tokenizers 0.21.4
toml 0.10.2
torch 2.6.0+cu124
torchvision 0.21.0+cu124
tqdm 4.67.1
transformers 4.54.1
triton-windows 3.2.0.post19
typing_extensions 4.12.2
urllib3 2.5.0
voluptuous 0.15.2
wcwidth 0.2.13
Werkzeug 3.1.3
zipp 3.23.0
●必要なクリップ数と長さは?
/model/1454728/blowjobs-man-in-frame
20クリップ、3秒、16fps、512px×512px
/model/1962482/wan22-t2v-14b-prone-bone-sex
12クリップ、3〜6秒、RTX4080
/model/1954733/asshole-wan-22-t2vi2v-14b
259本の512×512動画、各3秒、単一の5090
20動画、3秒
/model/1953467/licking-breasts
23動画、512×512、3秒
/model/1953632/reverseanalcowgirlwan22t2v14b
7クリップ、各3〜4秒、RTX 3090および32GB RAM
/model/1343431/bouncing-boobs-wan-14b
7動画、各約4秒、4090、約35分で完了
19クリップ、5秒、16fps
21クリップ、5秒、16fps
/model/1930239/missionary-anal-trans
20クリップ、5秒、16fps
/model/1929589/kissing-tongue-action
25クリップ、5秒、16fps
/model/1927742/side-sexspooning-trans
29クリップ、3秒、16fps
10秒以上
/model/1927612/reverse-cowgirl-trans
41クリップ、3秒、24fps(16fpsにすべきでした)、次回用
/model/1894970/wan-22-reverse-suspended-congress-i2vt2v
23クリップ、各3秒、主に3Dアニメーション
/model/1869475/wan-22-anime-cumshot-aesthetics-precision-load-i2v-beta-version
39本のオリジナルアニメーションクリップ、長さ:各3秒、FPS:16 ↑トレーニング詳細↑
/model/1944129/slop-bounce-wan-22-i2v
私の3090で生成した古いAI動画7本 ↑トレーニングデータに含まれます↑
/model/1941041/facefuck-t2v-wan22-video-lora
12クリップ、256×256ピクセル、3〜8秒
/model/1874811/ultimate-deepthroat-i2v-wan22-video-lora-k3nk
複数の解像度、1〜3秒の593クリップ
/model/1852647/m4crom4sti4-huge-natural-breasts-physics-wan22-video-lora-k3nk
889クリップのデータセットから211リゾルーション、1〜3秒(複数のソース動画は16fps)
/model/1858645/facial-cumshot-wan-22-video-lora
307クリップ、211リゾルーション、1〜3秒
/model/1845306/sideview-deepthroat-wan22-video-lora
複数の解像度、1〜3秒の700クリップ
/model/1969272/4n4l-pl4y-i2v-anal-didlo-lora-wan22
98クリップ、256×256リゾルーション、1〜3秒
/model/1960102/self-nipple-sucking-lora-i2v-wan22-k3nk
5つの異なるシーン、複数の解像度、1〜5秒、211リゾルーションの319クリップ
/model/1954774/cunnilingus-pussy-licking-lora-i2v-wan22-k3nk
複数の解像度、1〜5秒、256リゾルーションの121クリップ
●動画ファイルからキャプション(txt)を作成(1フレームを画像として分析)
これは最善の方法とは思いませんが、誰かの役に立てばと思います。
この画像をダウンロードしてComfyUIの画面にドラッグすることで読み込めます。
ごめんなさい、アップロード後にワークフローが消えてしまいました。
キャプションテキストは、動画ファイルと同じファイル名で保存されます。
●次のトレーニングを試しました
32動画、20エポック、resolution = [512, 288]、blockswap=36
しかし、何らかの理由で649個の動画キャッシュが作成され、最終的に12,340ステップに達しました…(39時間54分 / 1LoRA)



