Wan2.2 16GB Training

세부 정보

모델 설명

★16GB VRAM으로 Wan2.2 LoRA 학습

!!! 다운로드 불필요! 이는 기술 데모입니다! !!!

→→→구성 파일을 포함한 원본/학습 데이터셋→→→ /model/1944129?modelVersionId=2200388

●원본과의 차이점:

  • 4070 Ti Super 16GB / 메모리 64GB

  • 이는 제 첫 번째 학습입니다 (정말 처음 시도)

  • (musubi_tuner_gui.py 교체) (이걸 하지 않아서 i2v가 작동하지 않았습니다)

  • t2v (I2V 학습 비활성화)

  • 모델도 i2v에서 t2v로 변경됨

  • 다른 모델의 경로를 제 환경에 맞게 수정

  • dataset_bounce_test.toml 내의 video_directory 및 cache_directory

  • Triton 및 Sageattention2 설치 (SDPA / 효과는 확신하지 못하나, Xformers도 좋을 것 같습니다.)

pip install -U "triton-windows<3.3"

python -s -m pip install .\triton-3.2.0-cp312-cp312-win_amd64.whl

→→→가이드는 여기→→→https://civitai.com/articles/12848

  • 교체할 블록 수 (제가 알기로 이 모델은 40개의 블록을 가집니다)

35 (원본은 10)

●학습에 필요한 VRAM

총 시간의 30%는 15GB를 사용했고, 나머지 시간은 약 10GB였습니다.

이 글을 작성하는 시점에서 12GB로 학습할 수 있는지 40으로 설정해보았으나 오류가 발생했습니다.

"AssertionError: 39개 이상의 블록을 교체할 수 없습니다. 요청된 교체 블록 수: 40"

●학습에 필요한 메모리

시스템 메모리는 약 29GB 사용되었습니다.

따라서 32GB가 충분할 것 같습니다.

●학습에 소요된 시간

최고 2시간 19분, 최저 2시간 17분 소요되었습니다.

20 에포크 동안 학습했지만, 결과가 나타나기까지는 5 에포크가 필요했습니다.

따라서 제대로 하면 1시간 넘게 걸리지 않고 학습할 수 있습니다. (정말 놀라워요!)

●학습 해상도 (dataset_bounce_test.toml)

자료의 해상도가 아니라 이 사양을 기반으로 학습될 것입니다.

resolution = [256, 512]

"source_fps = 64.0"의 의미를 아직 몰랐습니다.

아, 원본 동영상이 실제로 64FPS였군요.

●학습 화면

●환경 설정

●소프트웨어 및 버전

PS D:\sd\git\PGCRT\musubi-tuner_Wan2.2_GUI\venv\Scripts> .\activate

(venv) PS D:\sd\git\PGCRT\musubi-tuner_Wan2.2_GUI\venv\Scripts> pip list

Package Version Editable project location

----------------------- ------------ ---------------------------------------

absl-py 2.3.1

accelerate 1.6.0

av 14.0.1

bitsandbytes 0.45.4

certifi 2025.8.3

charset-normalizer 3.4.3

colorama 0.4.6

contourpy 1.3.2

cycler 0.12.1

diffusers 0.32.1

easydict 1.13

einops 0.7.0

filelock 3.13.1

fonttools 4.60.0

fsspec 2024.6.1

ftfy 6.3.1

grpcio 1.75.0

huggingface-hub 0.34.3

idna 3.10

importlib_metadata 8.7.0

Jinja2 3.1.4

kiwisolver 1.4.9

Markdown 3.9

MarkupSafe 2.1.5

matplotlib 3.10.6

mpmath 1.3.0

musubi-tuner 0.1.0 D:\sd\git\PGCRT\musubi-tuner_Wan2.2_GUI

networkx 3.3

numpy 2.1.2

nvidia-ml-py 13.580.82

opencv-python 4.10.0.84

packaging 25.0

pillow 11.0.0

pip 22.2.1

protobuf 6.32.1

psutil 7.0.0

pynvml 13.0.1

pyparsing 3.2.4

python-dateutil 2.9.0.post0

PyYAML 6.0.2

regex 2025.9.1

requests 2.32.5

safetensors 0.4.5

sageattention 2.2.0

sentencepiece 0.2.0

setuptools 63.2.0

six 1.17.0

sympy 1.13.1

tensorboard 2.20.0

tensorboard-data-server 0.7.2

tokenizers 0.21.4

toml 0.10.2

torch 2.6.0+cu124

torchvision 0.21.0+cu124

tqdm 4.67.1

transformers 4.54.1

triton-windows 3.2.0.post19

typing_extensions 4.12.2

urllib3 2.5.0

voluptuous 0.15.2

wcwidth 0.2.13

Werkzeug 3.1.3

zipp 3.23.0

●몇 개의 클립과 어느 정도 길이가 필요할까요?

/model/1454728/blowjobs-man-in-frame

3초, 16fps, 512px×512px 클립 20개

/model/1962482/wan22-t2v-14b-prone-bone-sex

3초~6초 클립 12개, RTX4080

/model/1954733/asshole-wan-22-t2vi2v-14b

5090 호환, 3초 클립 259개

/model/1953874/twerking

3초 동영상 20개

/model/1953467/licking-breasts

23개 동영상 - 512×512 - 3초

/model/1953632/reverseanalcowgirlwan22t2v14b

RTX 3090 및 32GB RAM으로 약 3~4초 클립 7개 사용

/model/1343431/bouncing-boobs-wan-14b

4초 정도 동영상 7개, 4090으로 약 35분 소요

/model/1934246/standing-sex

5초 클립 19개, 16fps

/model/1930903/blowbang

5초 클립 21개, 16fps

/model/1930239/missionary-anal-trans

5초 클립 20개, 16fps

/model/1929589/kissing-tongue-action

5초 클립 25개, 16fps

/model/1927742/side-sexspooning-trans

3초 클립 29개, 16fps

/model/1916746/walking

10초 이상

/model/1927612/reverse-cowgirl-trans

3초 클립 41개, 24fps (16fps로 했어야 했는데, 다음엔 그렇게 하겠습니다)

/model/1894970/wan-22-reverse-suspended-congress-i2vt2v

3초 동영상 23개, 주로 3D 애니메이션

/model/1869475/wan-22-anime-cumshot-aesthetics-precision-load-i2v-beta-version

39개 원본 애니메이션 클립, 각 3초, FPS: 16 ↑학습 세부사항↑

/model/1944129/slop-bounce-wan-22-i2v

3090에서 생성한 제 이전 AI 영상 7개 ↑학습 데이터 포함↑

/model/1941041/facefuck-t2v-wan22-video-lora

256×256 픽셀, 3초~8초 클립 12개

/model/1874811/ultimate-deepthroat-i2v-wan22-video-lora-k3nk

해상도 다양, 1초~3초 클립 593개

/model/1852647/m4crom4sti4-huge-natural-breasts-physics-wan22-video-lora-k3nk

889개 클립 중 211개 해상도, 1초~3초 (몇몇 소스 동영상은 16fps)

/model/1858645/facial-cumshot-wan-22-video-lora

211 해상도, 1초~3초 클립 307개

/model/1845306/sideview-deepthroat-wan22-video-lora

해상도 다양, 1초~3초 클립 700개

/model/1969272/4n4l-pl4y-i2v-anal-didlo-lora-wan22

256×256 해상도, 1초~3초 클립 98개

/model/1960102/self-nipple-sucking-lora-i2v-wan22-k3nk

5가지 장면, 다양한 해상도, 1초~5초 클립 319개 (해상도 211)

/model/1954774/cunnilingus-pussy-licking-lora-i2v-wan22-k3nk

해상도 다양, 1초~5초 클립 121개 (해상도 256)

●비디오 파일에서 캡션(txt) 생성 (한 프레임을 이미지로 분석)

이 방법이 가장 현명한 것은 아닐 수 있지만, 누군가에 도움이 되길 바랍니다.

이 이미지를 다운로드하여 ComfyUI 화면에 드래그하면 로드할 수 있습니다.

업로드 후 워크플로우가 사라졌네요.

캡션 텍스트는 비디오 파일과 동일한 이름으로 저장됩니다.

●다음 학습 시도

32개 비디오, 20에포크, resolution = [512, 288], blockswap=36

그런데 이유는 모르겠지만 649개의 비디오 캐시가 생성되어 최종 스텝 총합이 12,340개가 되었습니다...(39시간 54분 / 1LoRA)

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.