Wan2.2 16GB Training
세부 정보
파일 다운로드
이 버전에 대해
모델 설명
★16GB VRAM으로 Wan2.2 LoRA 학습
!!! 다운로드 불필요! 이는 기술 데모입니다! !!!
→→→구성 파일을 포함한 원본/학습 데이터셋→→→ /model/1944129?modelVersionId=2200388
●원본과의 차이점:
4070 Ti Super 16GB / 메모리 64GB
이는 제 첫 번째 학습입니다 (정말 처음 시도)
(musubi_tuner_gui.py 교체) (이걸 하지 않아서 i2v가 작동하지 않았습니다)
t2v (I2V 학습 비활성화)
모델도 i2v에서 t2v로 변경됨
다른 모델의 경로를 제 환경에 맞게 수정
dataset_bounce_test.toml 내의 video_directory 및 cache_directory
Triton 및 Sageattention2 설치 (SDPA / 효과는 확신하지 못하나, Xformers도 좋을 것 같습니다.)
pip install -U "triton-windows<3.3"
python -s -m pip install .\triton-3.2.0-cp312-cp312-win_amd64.whl
→→→가이드는 여기→→→https://civitai.com/articles/12848
- 교체할 블록 수 (제가 알기로 이 모델은 40개의 블록을 가집니다)
35 (원본은 10)
●학습에 필요한 VRAM
총 시간의 30%는 15GB를 사용했고, 나머지 시간은 약 10GB였습니다.

이 글을 작성하는 시점에서 12GB로 학습할 수 있는지 40으로 설정해보았으나 오류가 발생했습니다.
"AssertionError: 39개 이상의 블록을 교체할 수 없습니다. 요청된 교체 블록 수: 40"
●학습에 필요한 메모리
시스템 메모리는 약 29GB 사용되었습니다.
따라서 32GB가 충분할 것 같습니다.
●학습에 소요된 시간
최고 2시간 19분, 최저 2시간 17분 소요되었습니다.
20 에포크 동안 학습했지만, 결과가 나타나기까지는 5 에포크가 필요했습니다.
따라서 제대로 하면 1시간 넘게 걸리지 않고 학습할 수 있습니다. (정말 놀라워요!)
●학습 해상도 (dataset_bounce_test.toml)
자료의 해상도가 아니라 이 사양을 기반으로 학습될 것입니다.
resolution = [256, 512]
"source_fps = 64.0"의 의미를 아직 몰랐습니다.
아, 원본 동영상이 실제로 64FPS였군요.

●학습 화면


●환경 설정




●소프트웨어 및 버전
PS D:\sd\git\PGCRT\musubi-tuner_Wan2.2_GUI\venv\Scripts> .\activate
(venv) PS D:\sd\git\PGCRT\musubi-tuner_Wan2.2_GUI\venv\Scripts> pip list
Package Version Editable project location
----------------------- ------------ ---------------------------------------
absl-py 2.3.1
accelerate 1.6.0
av 14.0.1
bitsandbytes 0.45.4
certifi 2025.8.3
charset-normalizer 3.4.3
colorama 0.4.6
contourpy 1.3.2
cycler 0.12.1
diffusers 0.32.1
easydict 1.13
einops 0.7.0
filelock 3.13.1
fonttools 4.60.0
fsspec 2024.6.1
ftfy 6.3.1
grpcio 1.75.0
huggingface-hub 0.34.3
idna 3.10
importlib_metadata 8.7.0
Jinja2 3.1.4
kiwisolver 1.4.9
Markdown 3.9
MarkupSafe 2.1.5
matplotlib 3.10.6
mpmath 1.3.0
musubi-tuner 0.1.0 D:\sd\git\PGCRT\musubi-tuner_Wan2.2_GUI
networkx 3.3
numpy 2.1.2
nvidia-ml-py 13.580.82
opencv-python 4.10.0.84
packaging 25.0
pillow 11.0.0
pip 22.2.1
protobuf 6.32.1
psutil 7.0.0
pynvml 13.0.1
pyparsing 3.2.4
python-dateutil 2.9.0.post0
PyYAML 6.0.2
regex 2025.9.1
requests 2.32.5
safetensors 0.4.5
sageattention 2.2.0
sentencepiece 0.2.0
setuptools 63.2.0
six 1.17.0
sympy 1.13.1
tensorboard 2.20.0
tensorboard-data-server 0.7.2
tokenizers 0.21.4
toml 0.10.2
torch 2.6.0+cu124
torchvision 0.21.0+cu124
tqdm 4.67.1
transformers 4.54.1
triton-windows 3.2.0.post19
typing_extensions 4.12.2
urllib3 2.5.0
voluptuous 0.15.2
wcwidth 0.2.13
Werkzeug 3.1.3
zipp 3.23.0
●몇 개의 클립과 어느 정도 길이가 필요할까요?
/model/1454728/blowjobs-man-in-frame
3초, 16fps, 512px×512px 클립 20개
/model/1962482/wan22-t2v-14b-prone-bone-sex
3초~6초 클립 12개, RTX4080
/model/1954733/asshole-wan-22-t2vi2v-14b
5090 호환, 3초 클립 259개
3초 동영상 20개
/model/1953467/licking-breasts
23개 동영상 - 512×512 - 3초
/model/1953632/reverseanalcowgirlwan22t2v14b
RTX 3090 및 32GB RAM으로 약 3~4초 클립 7개 사용
/model/1343431/bouncing-boobs-wan-14b
4초 정도 동영상 7개, 4090으로 약 35분 소요
5초 클립 19개, 16fps
5초 클립 21개, 16fps
/model/1930239/missionary-anal-trans
5초 클립 20개, 16fps
/model/1929589/kissing-tongue-action
5초 클립 25개, 16fps
/model/1927742/side-sexspooning-trans
3초 클립 29개, 16fps
10초 이상
/model/1927612/reverse-cowgirl-trans
3초 클립 41개, 24fps (16fps로 했어야 했는데, 다음엔 그렇게 하겠습니다)
/model/1894970/wan-22-reverse-suspended-congress-i2vt2v
3초 동영상 23개, 주로 3D 애니메이션
/model/1869475/wan-22-anime-cumshot-aesthetics-precision-load-i2v-beta-version
39개 원본 애니메이션 클립, 각 3초, FPS: 16 ↑학습 세부사항↑
/model/1944129/slop-bounce-wan-22-i2v
3090에서 생성한 제 이전 AI 영상 7개 ↑학습 데이터 포함↑
/model/1941041/facefuck-t2v-wan22-video-lora
256×256 픽셀, 3초~8초 클립 12개
/model/1874811/ultimate-deepthroat-i2v-wan22-video-lora-k3nk
해상도 다양, 1초~3초 클립 593개
/model/1852647/m4crom4sti4-huge-natural-breasts-physics-wan22-video-lora-k3nk
889개 클립 중 211개 해상도, 1초~3초 (몇몇 소스 동영상은 16fps)
/model/1858645/facial-cumshot-wan-22-video-lora
211 해상도, 1초~3초 클립 307개
/model/1845306/sideview-deepthroat-wan22-video-lora
해상도 다양, 1초~3초 클립 700개
/model/1969272/4n4l-pl4y-i2v-anal-didlo-lora-wan22
256×256 해상도, 1초~3초 클립 98개
/model/1960102/self-nipple-sucking-lora-i2v-wan22-k3nk
5가지 장면, 다양한 해상도, 1초~5초 클립 319개 (해상도 211)
/model/1954774/cunnilingus-pussy-licking-lora-i2v-wan22-k3nk
해상도 다양, 1초~5초 클립 121개 (해상도 256)
●비디오 파일에서 캡션(txt) 생성 (한 프레임을 이미지로 분석)
이 방법이 가장 현명한 것은 아닐 수 있지만, 누군가에 도움이 되길 바랍니다.
이 이미지를 다운로드하여 ComfyUI 화면에 드래그하면 로드할 수 있습니다.
업로드 후 워크플로우가 사라졌네요.
캡션 텍스트는 비디오 파일과 동일한 이름으로 저장됩니다.
●다음 학습 시도
32개 비디오, 20에포크, resolution = [512, 288], blockswap=36
그런데 이유는 모르겠지만 649개의 비디오 캐시가 생성되어 최종 스텝 총합이 12,340개가 되었습니다...(39시간 54분 / 1LoRA)



