LlavaVision
세부 정보
파일 다운로드
모델 설명
이것은 Ollama를 사용하여 상세한 이미지 설명을 생성하는 ComfyUI 워크플로우입니다. Ollama를 다운로드하고 설치하면, 자동으로 트레이/백그라운드에서 실행됩니다. Ollama가 백그라운드에서 실행 중이면 CMD 또는 터미널에서 호출할 수 있습니다.
ollama run llava
🌋 LLaVA는 시각 인코더와 Vicuna를 결합하여 일반적인 시각 및 언어 이해를 위한 새로운 종단 간 훈련된 다중 모달 모델입니다. 버전 1.6으로 업데이트되었습니다.
또는
ollama run bakllava
BakLLaVA는 Mistral 7B 기본 모델에 LLaVA 아키텍처를 추가한 다중 모달 모델입니다.
비교해 봅시다.
이 이미지를 사용하여.
llava:
"이 이미지는 스타일리시한 머리카락을 가진 여성을 상징하는 흉상이 옆을 바라보고 있는 모습을 보여줍니다. 그녀는 볼록한 칼라가 있는 밝은 색상의 옷을 입고 있으며, 이는 고전적이거나 역사적인 패션 스타일을 암시합니다. 흉상은 나무 받침대 위에 놓여 있습니다. 배경에는 파란색과 흰색 계열의 수평 줄무늬가 있는 문양 벽지가 있어 해양적인 분위기를 연출합니다. 흉상 왼쪽에는 비슷한 줄무늬 디자인을 가진 가구의 일부가 보입니다. 이미지의 조명은 부드럽고 균일하게 분포되어 흉상의 얼굴과 머리카락 세부 사항을 강조합니다. 이 사진의 전체적인 스타일은 배경 요소들을 장식적인 맥락으로 사용하면서 흉상 자체에 초점을 맞추고 있습니다."
Bakllava:
"크고 흰색의 타원형 여성 흉상이 나무 캐비닛 위에 놓여 있습니다. 캐비닛은 서랍이 있는 오래된 나무 가구처럼 보입니다. 흉상과 캐비닛 뒤에는 선명한 줄무늬 벽이 장면에 시각적 흥미를 더합니다. 생생한 여성 머리 조각상이 전경에 두드러지게 위치하여 세부 사항과 사실성을 강조합니다."
제 주관적이고 겸손하지 않은 의견으로는, Bakllava가 더 간결하고 환상이 적으며 전반적으로 더 우수한 모델입니다.
그러나 Llava는 Bakllava가 놓친 몇 가지 핵심 요소, 즉 해양적인 분위기와 부드러운 조명을 정확히 포착합니다.
제로 샷 신뢰도가 필요하다면, 단번에 보기만 해도 Bakllava가 더 적합한 선택입니다. 생성된 결과를 직접 사용하려면 두 모델 모두 실행하여 더 완전한 설명을 얻는 것이 유용할 수 있습니다.
따라서 한 개 또는 두 개의 모델을 Ollama를 통해 한 번만 실행하여 설치할 수 있습니다. 설치가 완료되면 콘솔에서 바로 테스트할 수 있으며, 그 후 닫아도 됩니다.
ComfyUI에 Json을 불러오려면 몇 가지 커스텀 노드가 필요합니다.
다음의 두 가지를 ComfyUI 설치 폴더의 커스텀 노드 폴더에 git clone하세요:
pythongosssss/ComfyUI-Custom-Scripts
및
stavsap/comfyui-ollama
해당 도구가 없다면 git 또는 ComfyUI-Manager를 설치할 수 있습니다.
행운을 빕니다. 즐거운 시각 경험 되시길!

