Dataset Caption Tool for Comfyui
세부 정보
파일 다운로드
모델 설명
13.08.
작은 버그 수정
업데이트: 2025년 8월 9일
이전 워크플로우에서 이미지 로더에 문제가 있어, 오류 없이 이미지를 로드하는 사용자 정의 노드를 직접 작성했습니다.
이번에는 GPT를 사용하여 캡션을 생성하며, 맞춤형 지시문도 함께 사용합니다.
오픈소스 VLM으로 교체할 수도 있지만, 전반적으로 GPT가 가장 잘 작동합니다.
업데이트 2024년 10월 24일: Joytag 캡션 추가
업데이트 2024년 4월 29일: 비전 모델을 Moondream2에서 llava로 변경했습니다.
llava 모델을 사용하려면 Ollama가 설치되어 있어야 합니다. 이를 통해 llava가 로컬에서 실행되고, ComfyUI는 로컬 API를 통해 llava와 통신할 수 있습니다.
Ollama GitHub:
업데이트 2024년 3월 25일: 잘못된 카운팅을 유발하던 버그가 수정되었습니다.
Comfy Moondream Caption (ComfyUI용 데이터셋 캡션 도구)
로컬 LMM을 사용하여 이미지에 캡션을 생성하는 도구, Comfy Moondream Caption에 오신 것을 환영합니다. 아래 단계를 따라 시작하세요:

이 워크플로우는 최대 9,999장의 이미지를 포함하는 데이터셋에 사용할 수 있습니다.
이미지 폴더 선택:
"folder_path" 옵션으로 이동하여 이미지가 저장된 폴더를 선택하세요. 이미지가 지원되는 형식(PNG, JPEG 등)인지 확인하세요.
이름 지정 규칙:
선택한 폴더의 이미지가 "0001.png", "0002.png"와 같이 순차적으로 번호가 매겨져 있는지 확인하세요. 이 번호 매기기는 정확한 처리에 필수적입니다.
배치 캡션 생성 활성화:
배치 캡션 생성을 활성화하려면 Comfy UI의 "Extra Options" 섹션으로 이동하세요.
"Auto Queue"를 선택하여 선택한 폴더의 모든 이미지에 대해 캡션을 생성하도록 하세요.

캡션 생성:
폴더 및 옵션을 설정한 후, "Que Prompt" 버튼을 클릭하여 캡션 생성 프로세스를 시작하세요.
Comfy Moondream Caption은 폴더의 각 이미지를 분석하여 캡션을 생성합니다.
후처리:
캡션 생성 프로세스가 완료되면, 시작 인덱스를 수동으로 0으로 재설정해야 합니다. 이렇게 하면 다음 데이터셋을 처리할 때 도구가 처음부터 처리를 시작합니다.


추가 데이터셋 반복 사용:
분석할 추가 데이터셋이 있는 경우, 이미지가 포함된 새로운 폴더를 선택하여 위 과정을 반복하세요.
설치:
이 워크플로우를 설정하려면 Kijai가 개발한 ComfyUI Moondream 사용자 정의 노드가 필요합니다. 다음 링크에서 확인하실 수 있습니다: https://github.com/kijai/ComfyUI-moondream



