welcome to test this Elsa (Qwen,HiDream,Wan,Hunyuan,Flux)

세부 정보

파일 다운로드

모델 설명

Qwen-Image:

Qwen-image는 분명히 또 다른 도약이다. 마치 다시 "SDXL"이 등장한 것처럼. 진심으로, 돈이나 하드웨어가 있다면 꼭 이 모델을 미세 조정해 보세요!!!

다음 "Pony" 열풍을 일으킬 모델이 있다면, Qwen이 정말 그 가능성을 가지고 있습니다!

세부적인 표현과 의상의 정확성을 한번 확인해 보세요!

Qwen-image는 진짜 뭔가를 배웠습니다. 거의 영화 수준입니다.

지금까지 제 학습 능력에 이 정도로 인상 깊었던 마지막 모델은 hunyuanvideo였습니다. 하지만 그 모델의 이미지 품질은 Wan보다 떨어졌죠.

그러나 Qwen-image는 둘 다 뛰어납니다.

(아직도 hunyuan이 일관된 캐릭터 유사성에서는 최고라고 생각합니다—Qwen과 비교하면 99점 대 95점 같은 느낌이죠.)

솔직히 말해, 여기서 진정한 가치는 숙련된 트레이너만이 이해할 수 있는 것입니다.

Wan2.2_9-outfit (고노이즈+저노이즈):

동일한 데이터셋을 사용했지만, 이번에는 학습 캡션을 강화했습니다. Wan 2.1과 같은 문제: 의상 변형이 여전히 잘 정착되지 않습니다. 제가 보고 있는 개선점은 모델 업그레이드보다 더 청정한 데이터셋의 영향이 큽니다. 테스트 중에는 Wan 2.2 이미지가 약간 부드럽게 나온다는 점도 확인했습니다. 이는 KSampler(고급)의 “step 시작/종료” 트릭의 부작용입니다.

Wan2.2_T2V_14B의 저노이즈 체크포인트와 일반적인 Wan2.1_T2V_14B 체크포인트는 많은 가중치를 공유하므로 LoRA는 거의 상호 호환됩니다. (결국 Wan 2.2의 고노이즈 체크포인트는 전혀 step_distill LoRA가 필요하지 않았습니다. 진정한 차이를 만든 것은 저노이즈 체크포인트의 step_distill LoRA였습니다.)

Wan2.1_9-outfit:

이 모델을 공개할 계획이 없었습니다. 지난 달 이전에 학습했지만, 기대한 대로 나오지 않아 누가 관심을 가질지 몰랐습니다.
이 버전은 태그 TXT 파일을 만들지 않았습니다.

HiDream:

놀라워요! HiDream은 Flux의 다음 버전처럼 느껴집니다—학습이 쉽고 세부 사항을 뛰어나게 포착합니다! 외형의 일부 불안정성은 여전히 존재하지만, 그 성능을 가리지 않습니다.

불행히도 HiDream을 실행하는 것은 하드웨어에 매우 큰 부담을 줍니다. 세 가지 버전이 있으며, 심지어 'Fast' 버전도 제게는 여전히 매우 느립니다.

게다가 사전 학습 준비가 정말 귀찮았습니다. 이 LoRA는 단순 테스트용이므로 최고 성능을 위해 최적화되지 않았고, 학습 데이터셋도 불완전했습니다(비교 실험용).

이 모델은 우리가 기대할 다음 세대 모델 중 하나일 수 있다고 생각합니다!

자세한 소개: https://comfyui-wiki.com/en/tutorial/advanced/image/hidream/i1-t2i

Wan2.1-14B (T2V)

체크포인트를 저장하지 않고 너무 일찍 학습을 중단했습니다. 지속했다면 더 나은 성능을 냈을 것입니다. 하지만 이 버전으로도 Wan2.1-14B의 품질을 평가할 수 있을 것입니다. 공유가 늦지 않았기를 바랍니다. 제가 이전에 14B를 학습하지 않았던 이유는 가중치 파일이 엄청나게 크고 테스트가 극도로 느렸기 때문입니다. 그래서 처음에는 이미지만 업로드했습니다. 기술적으로 이미지를 1프레임 영상으로 처리한다는 것을 아십니까? 클라우드상에서 이중 4090X2로도 1단계당 3초가 걸립니다(반면 HunyuanVideo는 1초/단계).

테스트 중 14B의 두 가지 핵심 특징을 발견했습니다:

  1. 다른 모델들에 비해 과적합에 훨씬 더 강합니다.

  2. 출력이 HunyuanVideo보다 깨끗하고 노이즈가 적습니다.

Wan2.1-1.3B

모든 예시는 wan2.1-1.3B를 사용해 생성되었으며, 공식 1.3B 가중치 모델로 학습했습니다. 네, 아마도 왜 이렇게 많은 엘사 LoRA가 있는지 궁금하실 겁니다. 그녀는 새로운 모델을 테스트할 때 저의 고정 캐릭터입니다—그 외에도 개인적, 기술적 이유가 더 있지만, 아마 관심 없으실 거라 생각합니다.

결론적으로, Hunyuan은 학습 이미지에서 캐릭터의 얼굴과 옷을 포착하는 데 일반적으로 Wan보다 더 뛰어납니다. T2V(텍스트-비디오)에서는 보통 매우 잘 수행합니다.

Wan은 주로 I2V(이미지-비디오)에 사용됩니다.

Flux-Elsa, 겨울 옷차림

Flux의 LoRA가 엘사의 다양한 옷차림에 잘 작동하지 않는다는 것을 깨달았고, 따로 학습을 시도했습니다. 하지만 결과는 기대만큼 좋지 않았습니다. Flux는 제가 혼란스럽게 만듭니다—캐릭터 유사성을 저해하는 무언가가 있습니다.

Flux-test 이건 Civitai 플랫폼 문제일 수 있습니다—업로드한 업데이트 버전이 404 오류를 반환했습니다(업데이트 중 손실된 것으로 보임).

이 Flux 개발 버전을 테스트해보세요. 일정 시간 후 삭제할 수도 있습니다.

정말 거친 시도였지만, Civitai의 온라인 생성 기능을 사용하기 위해 테스트할 시간 없이 최종 모델을 공개했습니다.

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.