Hunyuan video t2v with facedetailer POC
세부 정보
파일 다운로드
이 버전에 대해
모델 설명
HUNYUAN VIDEO FACEDETAILER 업데이트 V1.2
버그 수정. latent 크기 가져오기 노드가 Hunyuan 잠재적 비디오와 호환되지 않아 다른 비디오 너비를 출력하며 이미지 W/H 비율을 깨뜨립니다. GoonyBird 님의 지적에 감사드립니다.
HUNYUAN VIDEO FACEDETAILER 업데이트 V1.1
여러 상황(작은 얼굴, 슬로우 모션 등)에서 많은 사용자(저도 포함)를 괴롭히던 번쩍임 문제를 주로 해결하기 위해, facedetailer 그룹에 몇 가지 개선을 시도했습니다.
BBOX를 위해 Animatediff 검출기를 사용하여 이웃 프레임 간 BBOX를 평균화하고, BBOX 확장량을 증가시키며, 이동, 조건부 처리 및 노이즈 제거량을 줄였습니다.
V1 버전보다 약간 더 나은 성능을 기대할 수 있지만, 얼굴 정의도는 약간 낮아집니다.
추가 최적화는 첫 번째 단계에서 생성된 비디오에 크게 의존합니다. 번쩍임 문제가 발생할 경우 facedetailer 모듈에서 다음을 조정해 보세요:
Animatediff용 간단한 검출기 사용
bbox_dilation 증가 (최대 100)Modelsampling
shift 감소 (최소 0)Fluxguidance
guidance 감소 (최소 1)Basicscheduler
denoise를 0.4 미만으로 감소
번쩍임을 완전히 제거할 수 없다면, 대안으로 정적 BBOX facedetailer를 만들었습니다. 이 방법은 비디오 내 얼굴의 가능한 모든 위치를 결합하여 정적 BBOX를 생성합니다. 이 옵션은 비디오 내 얼굴의 움직임이 제한적인 경우에만 유용합니다. 제 의견으로는 동적 BBOX보다 품질은 약간 낮지만, 번쩍임이 없고 얼굴 사라짐, 측면 시점 등 다양한 조건에 더 강력합니다.
또한 다음 사항들도 개선했습니다:
- 샘플러를 TTP_teachache로 변경. 초고속 샘플러는 중간 V2V 또는 facedetailer 단계에서 미세 조정에 사용할 수 있으며, 품질은 약간 저하되지만 속도는 크게 향상됩니다.
- 업스케일을 Hunyuan 비디오의 x16 요구 사항에 맞게 개선했습니다.
- 최신 facedetailer 샘플러 박스에서 처리할 얼굴의 크기를 약 368x5xx로 고정했습니다. 12GB 이상의 GPU를 사용하면 조정 가능합니다.
- 업스케일, 두 가지 facedetailer 유형, 보간기를 별도로 선택할 수 있도록 흐름을 최적화했습니다.
- 조정할 가능성이 높은 노드를 초록색으로 강조표시했습니다.
즐겁게 사용하세요!
우수한 bonetrousles t2v 워크플로우를 기반으로:
/model/1092466/hunyuan-2step-t2v-and-upscale?modelVersionId=1294744
마지막 단계로 단순한 업스케일 대신 더 나은 방법이 없을까 고민했습니다.
facedetailer 원리를 참고하여, 일반적으로 크기가 작고 해상도가 낮으며 흔들리는 얼굴의 업스케일링에 더 세심한 처리가 필요하다고 판단했습니다. 이 경우 단순한 업스케일링은 별다른 도움이 되지 않습니다.
제 아이디어는 얼굴을 BBOX로 추출한 후 잘라내고, 별도의 Hunyuan 디테일러 워크플로우(얼굴 전용 추가 프롬프트 포함)로 전달한 후, 원본 이미지에 다시 붙이는 것입니다.


이미지 리사이징은 Hunyuan 잠재 공간 크기에 맞추기 위해 VAE 인코더 및 샘플러에 전달하기 전에 수행하며, HunYuan 리파이너에 고해상도 이미지를 입력하기 위함입니다. VAE 인코딩, Hunyuan 샘플링 및 VAE 디코딩 후, 잘라낸 부분을 복원하고 다음 단계에 전달합니다. 이것이 전부입니다.

첨부된 워크플로우로 기본 테스트를 진행해 보았으며(개념 증명용), 결과가 매우 기대됩니다.


물론 얼굴 크기에 크게 의존합니다(얼굴이 매우 작으면 별다른 해결책이 없습니다). 정적인 피사체에는 워크플로우가 잘 작동하지 않지만, 결국 우리는 애니메이션에 대해 이야기하고 있는 것이므로 그럴 수 있겠죠?


피사체 세부사항이 훨씬 향상되었고, 흐릿함이나 흔들림도 줄어들었습니다. 이 게시물에 몇 가지 예시를 소개합니다(마지막 것만 보간 적용).

저는 ComfyUI 초보자이며, 이미지 리스트와 배치 처리에 몇 시간을 고심했습니다. 제 워크플로우는 매우 기본적이며, 세밀한 튜닝도 거의 하지 않았기 때문에 전문가 사용자들이 더 나은 개선을 할 수 있는 여지가 충분하다고 생각합니다. 예를 들어, BBOX 크기에 따라 리파이너 비디오 크기를 결정하거나, Hunyuan 전용 facedetailer 노드를 구축하는 등의 작업이 가능합니다.
시간이 허락한다면 다음 주말에 이를 개선해 보려 합니다. 예를 들어, 우수한 LatentDream 올인원 워크플로우에 통합하는 방식으로요.
언제나 커피는 환영입니다!




