The Snap Machine
세부 정보
파일 다운로드
모델 설명
Snap Machine은 이미지와 적합한 소셜 미디어 캡션을 생성하는 완전히 자율적인 ComfyUI 워크플로우입니다. 먼저 이미지를 생성한 후, BLIP을 사용하여 분석하고, 마지막으로 LLM을 이용해 이미지의 내용을 기반으로 캡션을 작성합니다.
Snap Machine 사용 방법
1️⃣ 이미지 생성 – 먼저, Snap Machine을 비활성화한 상태에서 이미지를 생성하여 깨끗한 기본 출력을 얻으세요.
2️⃣ 시드 고정 – 원하는 이미지를 얻었으면, 시드를 고정하여 동일한 이미지를 계속 사용할 수 있게 하세요.
3️⃣ 캡션 생성 – Snap Machine을 활성화하여 BLIP이 이미지를 분석하고, LLM이 사용자 지정 프롬프트를 기반으로 더 자연스럽고 매력적인 캡션으로 정제합니다. 다양한 옵션을 탐색하려면 계속 생성하세요. 캡션이 잘려나가거나 잘리면 일부 세부 조정이 필요할 수 있습니다. 토큰 제한을 조정하거나 LLM 설정을 변경하면 출력을 더 정교하게 개선할 수 있습니다.
4️⃣ 위치 조정 – 캡션이 얼굴 위나 부적절한 위치에 나타나면, Snap Machine의 시드를 고정하고 계속 생성하세요. 이렇게 하면 캡션이 다양한 위치에 무작위로 배치되며, 적절한 위치를 찾을 때까지 반복할 수 있습니다.
작동 원리
Snap Machine은 LLM이 BLIP의 출력을 기반으로 최종 캡션을 생성하도록 안내하는 사전 프롬프트를 사용합니다.
1️⃣ BLIP이 이미지를 분석하고, 그 안에 무엇이 있는지 기본적인 설명을 생성합니다.
2️⃣ 사전 프롬프트는 LLM이 BLIP 출력을 자연스러운 캡션으로 재작성할 때 사용할 스타일과 톤을 설정합니다.
3️⃣ BLIP 설명과 사전 프롬프트가 모두 LLM 노드로 전달되어 최종 캡션으로 정제됩니다.
결과를 세부 조정하려면 세 가지 핵심 영역을 조정할 수 있습니다:
사전 프롬프트 (LLM이 BLIP 출력을 사용하는 방식 변경)
BLIP 설정 (이미지 설명 방식 제어)
LLM 매개변수 (길이, 무작위성, 문장 구성 조정)
이로써 캡션의 느낌과 어조를 완전히 컨트롤할 수 있으며, 다양한 스타일에 맞게 맞춤화할 수 있습니다.
자원
Comfy에서 LLM 설정 방법:
저가 사용하는 LLM은 다음에서 다운로드할 수 있는 Toppy-M-7B.q4_k_s입니다: https://huggingface.co/TheBloke/Toppy-M-7B-GGUF/tree/main
참고 사항
긍정적 프롬프트 섹션은 세 개의 노드로 구성되어 중간에 와일드카드 프로세서를 사용할 수 있도록 설계되었습니다. 이 구성을 통해 프롬프트의 구조를 유연하고 역동적으로 유지하면서도 제어된 변이를 도입할 수 있습니다.





