Penis Lora (+Blowjob, +Cumshot) [Taz] - WAN 2.2 14b / 5B / 1.3b T2V & I2V (Wan 2.1 & 2.2) + Qwen
세부 정보
파일 다운로드
이 버전에 대해
모델 설명
이 버전에 대해
나는 5B 모델에서 새로 재캡션된 데이터셋을 사용하여 학습했습니다. 결과는 놀라울 정도로 훌륭합니다. 처음으로 결과에 매우 만족합니다. 시도해 보세요. 대부분의 예시는 라이트닝 스피드 LoRA와 저해상도(480x832)를 사용했습니다. 또한 I2V 버전도 공개했습니다. I2V를 사용할 때는 t2v를 0.5 스트렝스로, i2v LoRA를 1 스트렝스로 사용해 보세요.
트리거 단어: PENISLORA
이 LoRA는 무엇을 할 수 있나요?
이 LoRA는 앞쪽이나 측면에서 보이는 남성 또는 여성에게 발기된 음경을 추가할 수 있습니다. POV와 같은 다른 각도에서는 뒤집힌 음경 머리가 나타날 수 있습니다.
또한 이제 다음과 같은 작업도 가능합니다:
음경의 측면 보기
사정 / 사정 장면
페티스(트레이닝 데이터에는 "blowjob"과 "deepthroat"라는 단어가 캡션으로 포함되어 있습니다)
어떤 것들은 할 수 없나요?
훈련 데이터에 삽입 장면은 없습니다. POV 각도의 장면도 없지만, 위에서 본 이미지 몇 장과 POV 동영상 1개는 훈련 데이터에 포함되어 있습니다.
가끔 사정이 일어나는 페티스에서는 음경이 닫힌 입에서 미끄러져 나갈 수 있습니다.
권장 설정
이 LoRA는 새로운 라이트닝 다이나모 하이 모델과 매우 잘 어울립니다. 예제 워크플로우에서 해당 모델의 링크를 제공하겠습니다. 저는 보통 다이나모 하이 모델(라이트닝 LoRA 없음)을 사용하고, 저해상도에서는 정규 2.2 로우 베이스 모델에 라이트닝 v2 LoRA를 적용합니다.
데이터셋
512x 해상도의 84장의 이미지
256x 해상도의 43개의 동영상
(저는 DP가 자동으로 비율을 선택하도록 했습니다)
이 데이터셋은 2.2 5B 모델과 동일한 데이터셋입니다. 아무런 변경을 가하지 않았습니다.
학습
기본적인 디퓨전 파이프 설정을 사용했습니다.
[옵티마이저]
type = 'adamw_optimi'
lr = 2e-5
betas = [0.9, 0.99]
weight_decay = 0.01
eps = 1e-8
고해상도 학습이 왜 이렇게 오래 걸리는지 이해하지 못했지만, 60시간 이상 학습한 후 비디오를 이미지 디렉토리에 넣었음을 깨달았습니다. 그 결과 고해상도 모델은 오직 비디오만으로 학습되었고, 두 번(한 번은 매우 높은 해상도로) 학습되었습니다. 이 문제를 해결한 후, 학습 데이터에 이미지를 포함시켜 11K 스텝부터 약 13K 스텝까지 다시 학습했습니다. 사실 고해상도 모델은 이 과정 없이도 괜찮았습니다.
저해상도 모델은 비디오와 이미지를 모두 사용하여 정확히 학습했습니다. 약 6K 스텝에서 이미지 해상도를 512에서 1024로 증가시켰는데, OOM이 발생하지 않았습니다(정확히 24GB 메모리에 맞았습니다). 약 10.5K 스텝까지 학습했습니다. 또한, 일부 조언에 따라 저해상도 모델은 전체 타임스텝 범위(0에서 0.85 대신 0에서 1)로 학습했습니다. 이렇게 하면 라이트닝 LoRA를 사용할 때 고해상도에서 저해상도로 더 잘 전환될 수 있습니다.
기회가 된다면 POV나 뒤에서 본 각도를 포함한 더 다양한 각도를 추가한 버전을 만들 계획입니다. 그 경우, 한 번의 학습 세션에 10K 스텝이 필요하지는 않다고 생각합니다. 약 5K 스텝의 에포크도 충분해 보였습니다.
결과
향상된 캡싱과 2.2 베이스 모델의 개선이 조합된 결과라고 생각합니다. 이 LoRA는 정말 훌륭하게 나왔습니다.
