Workflow to generate image descriptions on Apple Silicon Mac

세부 정보

파일 다운로드

모델 설명

개요

이 워크플로우는 여러 이미지-텍스트 도구와 LLM을 사용하여 폴더 내 일괄 이미지에 대한 최종 이미지 설명을 생성하고 해당 .txt 파일을 작성합니다.

이것은 특히 LoRA 학습 또는 미세 조정을 위해 NSFW 이미지에 캡션을 부여할 때 유용하며, 아래 3개의 VLM을 선택했습니다:

  • Florence2, WD1.4 tagger

  • JoyCaption alpha 2

  • huihui-ai/Qwen2-VL-7B-Instruct-abliterated

최종 이미지 설명 구성은 ollama 노드를 통해 수행됩니다. 로컬 LLM을 사용하는 가장 간단한 방법 중 하나라고 할 수 있습니다.

huihui-ai/Llama-3.3-70B-Instruct-abliterated 같은 검열되지 않은 대형 모델을 사용하면 뛰어난 결과를 얻을 수 있습니다.

(최상의 결과를 얻기 위해 Qwen2-VL 및 LLM 모두에 abliterated/검열되지 않은 모델을 사용해야 합니다. NSFW 여부와 관계없이요.)

설치

ComfyUI_Qwen2-VL-InstructComfyui_JC2 노드를 제외하고, 나머지 누락된 노드는 ComfyUI 매니저를 사용하여 설치하세요.

ComfyUI_Qwen2-VL-Instruct

이 워크플로우를 실행하려면 다음 포크에서 Qwen2-VL-Instruct 노드를 사용해야 합니다:

https://github.com/edwios/ComfyUI_Qwen2-VL-Instruct

이 포크는 두 가지 주요 변경 사항을 포함합니다: 다른 VLM 도구와 동일하게 이미지 입력을 허용하며, Python 3.12 이상 및 PyTorch 2.6까지 Mac GPU(mps)를 사용합니다.

Comfyui_JC2

JoyCaption: Alpha 2에 Mac GPU를 사용하려면 다음 ComfyUI_JC2 포크를 사용하는 것도 좋습니다.

사용 방법

이 워크플로우와 상호작용하는 데 필요한 모든 설정은 가장 왼쪽에 있습니다.

가장 간단한 시작 방법은 이미지가 포함된 디렉토리 경로를 입력하는 것입니다. 결과는 동일한 디렉토리에 이미지 이름과 동일하지만 .txt 확장자를 가진 파일로 저장됩니다.

선택적으로 다음을 수행할 수 있습니다:

  • Qwen2-VL가 이미지의 특정 측면에 초점을 맞추도록 VLM 프롬프트를 변경하세요.

  • 더 나은 추론을 위해 또는 SFW 방식으로 설명을 작성하려면 LLM 프롬프트를 변경하세요(이를 위해 최소한 70B 인스트럭션 모델을 사용하세요). [아니요, 이는 '안전한' 모델을 사용하는 것과 동일하지 않습니다.]

크레딧

이 모든 노드와 ComfyUI를 가능하게 한 모든 기여자들에게 감사드립니다.

특히 ComfyUI_Qwen-VL-Instruct, ComfyUI_JC2, ComfyUI-WD14-Tagger, ComfyUI-Ollama, ComfyUI-Florence2Ollama는 이러한 놀라운 머신러닝 모델을 MPS에서 사용 가능하게 하거나, 최소한 NVIDIA 전용 솔루션으로 제한하지 않은 점에 감사드립니다.

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.