80's porn centerfold
세부 정보
파일 다운로드
이 버전에 대해
모델 설명
단지 너무 많은 시간을 투자한 재미있는 작은 LoRA 실험일 뿐입니다. 이 모델을 세 번이나 학습시켰는데, 처음엔 단 한 번만 학습할 계획이었기 때문에 정말 이상하죠. 하지만 그 과정에서 많은 정보를 얻었습니다.
1980년대 포르노 센터페이드 모델들의 정지 이미지 54장을 기반으로 학습했습니다. 의도는 다음과 같았습니다: 1. 그 시대의 여성들의 일반적인 외모를 포착하고, 2. 당시 포르노 잡지에서 사용된 비디오/사진의 조명과 분위기를 재현하는 것.
빠른 부가 LoRA(또는 빠르게 끝내려 했던 것)으로서, 저는 이 LoRA가 충분히 잘 작동한다고 생각합니다.
정지 이미지만 사용했기 때문에, 이 LoRA는 높은 프레임 수와 잘 어울리지 않는다는 것을 발견했습니다. 89프레임이 가장 적절한 지점입니다. 121프레임은 여전히 움직임이 있지만 약해집니다. 145프레임은 거의 항상 정지 이미지만 생성합니다. 시간 낭비하지 마세요.
캡션은 매우 간단했습니다:
A 1980's porn centerfold woman
위의 캡션에 일반적인 자세와 장소를 추가해서 프롬프트를 작성하면, LoRA는 머리카락과 하체 모두에 큰 헤어스타일을 가진 여성을 꽤 잘 생성합니다.
시도해보세요. 즐겁게 사용하세요.
학습 데이터에 관심이 없는 분들은 여기서 읽기를 멈추세요.
V1 - 총 8개의 에포크를 사용하여 1600스텝을 목표로, 학습률(LR) 8e-5로 학습했습니다.

손실 그래프를 보면, 에포크 2에서 급격히 하락한 후, 에포크 4에서는 천천히 다시 상승하고 하락한 뒤, 에포크 5-8에서 급격히 상승하며 과적합되었습니다.
V2 - 이전 결과를 즉시 버리고, 과적합을 방지하기 위해 학습률을 7e-5로 낮추고 10 에포크로 학습했습니다.

낮은 학습률이 더 나은 결과를 가져왔지만, 에포크 6에서 급격히 하락한 후 다시 상승하고, 또 하락한 뒤 점진적으로 과적합으로 향했습니다.
에포크 6~8을 비교 테스트한 결과, 에포크 8이 프롬프트에 더 잘 부합하고 학습된 주제에 대해 일반적인 일관성을 보였으며, 움직임에 눈에 띄는 손상을 주지 않았습니다. 이 테스트 중에, 높은 프레임 수에서 움직임이 줄어드는 것을 확인했습니다.
V3 - 실험적으로 캡션을 "An image of..."로 시작하도록 수정하고, 이전과 동일한 설정으로 학습했습니다. 디스코드에서 이 방식이 모델이 정지 이미지에서 학습된 개념을 이해하도록 도와, 과적합된 LoRA가 움직임과 충돌하는 것을 줄일 수 있다고 했습니다.

이 경우 손실은 빠르고 안정적으로 하락한 후, 천천히 과적합이 진행되고, 다시 긴 곡선으로 하락했습니다. 테스트 결과, V3의 에포크 2와 10은 일관성이 부족해 V2의 에포크 8보다 훨씬 더 많은 아티팩트를 생성했습니다.
따라서 저는 V2의 에포크 8을 최종 승자로 선택했습니다.
이 실험을 통해, LoRA 학습에서 캡션의 중요성이 적어도 제 관점에서는 매우 크다는 점을 확인했습니다. 그리고 이중 이미지/비디오 데이터셋에서 "an image of"와 "a video of"를 사용하는 것도 의미가 있습니다. 단일 미디어만 사용할 때는 그다지 필요하지 않을 수 있습니다.
또 다른 교훈은, 손실이 약간 상승한 후에도 에포크를 버리지 말라는 것입니다. 때로는 그 다음 에포크가 여전히 유용할 수 있습니다.
결론적으로, 학습 도중 손실이 중간에 상승한다면, 학습률을 낮춰 안정화를 도와보는 것이 좋습니다.
