데이터셋: 현실적인으로 태그된 26장의 사진. 대부분 클로즈업 또는 하반신. 배꼽/무릎은 보이지 않음. 많은 사진이 AI로 저해상도를 업스케일링한 것임.
8/8 dim/alpha, adafactor 1040 스텝/20 에포크, 학습률 0.0005, 코사인 스케줄러(3회 재시작), 5 snr 감마, 노이즈 오프셋 없음, 토큰 셔플/이미지 플립 적용.
학습률을 더 낮게 설정해야 했다. 0.0001은 너무 낮고, 0.0005는 너무 높았다. 아마도 3이 적절했을 것 같다. 또한 업스케일링이 좋지 않았을 수도 있다. 더 많이 자르고 제거해야 했다.
너무 강하게 잘라서 1의 가중치에서 애니메이션 스타일을 크게 훼손하지는 않지만 여전히 약간은 영향을 준다. 그러나 낮은 가중치는 세부사항을 심하게 잃는다. 좋은 각도의 사진이 많지 않았다. 하지만 POV는 꽤 잘 처리할 수 있다. ㅋㅋ