Wan 2.2 img2img workflow for the GPU poor
세부 정보
파일 다운로드
모델 설명
(쇼인 이미지는 기술 비교로, 왼쪽: 원본, 오른쪽: Wan2.2입니다)
마스킹 기술에 대한 더 많은 정보는 포커스 마스킹에 대한 기사를 읽어주세요.
(레딧에서 발견된 이미지)
Wan 2.2는 이전 버전과 알려진 대부분의 오픈소스 모델과 다릅니다. 동영상을 생성할 때 서로를 주고받으며 프로세스를 완료하기 위해 두 가지 다른 모델이 사용됩니다. 이 모델들은 각각 고노이즈 및 _저노이즈_라고 불립니다. 고노이즈는 구성 요소를 제어하고, 저노이즈는 세부 사항을 처리합니다. 140억 개의 매개변수를 가진 이 모델들은 더 강력하지만 동시에 더 많은 리소스를 소모합니다.
양자화된 모델은 일반적으로 저사양 GPU에 최적화되지 않은 일반 모델에 대한 좋은 대안입니다. 이들은 종종 오래된 GPU에 유일하게 적합한 모델입니다. Wan 2.2는 양자화에 매우 적합한 후보입니다. 이 모델들은 이미지가 아닌 동영상에서 학습되기 때문에 시간적 공간(개체 위치 간의 관계)을 더 잘 이해하며, 세부 사항이 일관되고 통합됩니다. 따라서 동영상 모델은 일반적으로 이미지 모델보다 우수합니다.
이러한 모델을 사용하는 img2img 워크플로는 이미지의 세부 사항을 동영상의 프레임에 맞춥니다. 결국 동영상은 단순히 이미지의 시퀀스일 뿐입니다. 이 경우 이미지를 생성하기 위한 잠재 공간을 생성하는 역할을 하는 저노이즈 텍스트 모델을 사용해야 합니다. 다른 모델들은 이 모델만큼 잘 작동하지 않습니다. img2img 워크플로와 마찬가지로, 노이즈 제거 수준이 낮을수록 출력에서 변화가 적어집니다. 따라서 원하는 결과에 따라 적절히 수준을 조정하세요. 또한 해상도는 세부 사항에 영향을 주기 때문에 매우 중요합니다. 그러나 해상도가 높아질수록 생성 시간이 증가하여 Comfy가 메모리 부족에 빠질 수 있습니다.
NSFW 이미지의 경우 결과는 예측 가능합니다: 생식기 부분이 왜곡됩니다.
저는 NSFW 이미지에 대한 워크플로를 남성에 대해서만 테스트해 보았습니다. 종종 남성의 음경이 발 또는 다른 모호한 부위로 변형됩니다. 여성이 촬영된 음순 클로즈업도 세부 사항을 잘 보존할 수 있을지 의심스럽습니다. 제가 알고 있는 유일한 해결책은 인페인팅입니다.


















