Z-Image Image Alchemy

세부 정보

파일 다운로드

모델 설명

이 워크플로우는 비전-언어 모델과 창의적인 프롬프트 생성을 위한 대형 언어 모델을 사용하여 두 개의 입력 이미지에서 시각적 요소를 융합하여 새로운 이미지를 생성합니다.

먼저, 이미지 스타일을 선택합니다. 스타일은 사전 정의된 스타일 목록에서 무작위로 선택하거나 고정 입력으로 수동으로 제공할 수 있습니다.

다음으로, 두 개의 QwenVL-4B 노드를 사용하여 두 입력 이미지를 독립적으로 처리합니다. 각 QwenVL 노드는 입력 이미지를 분석하여 시각적 콘텐츠에 대한 상세한 텍스트 설명을 생성합니다.

생성된 이미지 설명과 선택된 이미지 스타일은 이후 Ollama 노드로 전달됩니다. 이 노드는 대형 언어 모델을 사용하여 두 설명에서 핵심 시각적 요소를 추출하고 병합하며 창의적으로 재조합하여 단일하고 일관된 이미지 프롬프트를 생성합니다. 출력 프롬프트는 선택된 스타일을 주요かつ 유일한 스타일로 사용하여 프롬프트의 시작 부분에 배치합니다.
기본 요약 및 융합 모델은 gpt-oss:120b이지만, VRAM 요구 사항을 줄이기 위해 더 작은 모델을 사용할 수 있습니다. Aya, Llama 3, Qwen 3에서도 우수한 결과가 도출되었습니다.

이미지 생성을 위해 출력 해상도는 동적으로 결정됩니다. 워크플로우는 첫 번째 입력 이미지에서 파생된 total_pixels 값을 사용하여 생성된 이미지를 확대/축소하여 상대적인 이미지 크기와 세부 사항을 유지합니다.

마지막으로, 생성된 프롬프트, 선택된 스타일 및 계산된 이미지 해상도가 이미지 생성 노드(Z-Image)에 전달되어 최종 융합 이미지가 생성됩니다.

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.