Deepseek Janus Pro 1B / 7B [Safetensors]

세부 정보

파일 다운로드

모델 설명

https://huggingface.co/deepseek-ai/Janus-Pro-1B

https://huggingface.co/deepseek-ai/Janus-Pro-7B

참고: CY-CHENYUE/ComfyUI-Janus-Pro 노드는 .safetensors를 지원하지 않습니다.

따라서 저는 model_loader.py업데이트/포크하여 자동으로 다운로드하고 .safetensors를 지원하도록 수정했습니다. 파일 이름을 바꾸는 것을 허용하지 않아, 파일을 model.safetensors로 유지해야 합니다.

7B 버전의 경우, 셰이드 병합을 성공적으로 실행할 수 없었습니다. 따라서 파일은 3개의 셰이드로 나뉘어 있습니다.

설치 지침

  • ComfyUI를 설치하세요.

  • CY-CHENYUE/ComfyUI-Janus-Pro 노드 팩을 설치하세요.

  • ComfyUI\custom_nodes\ComfyUI-Janus-Pro\nodes\model_loader.py위의 파일로 수동으로 덮어쓰세요.

  • 위의 ComfyUI 워크플로우를 사용할 수 있습니다.

  • 업데이트된 model_loader 스크립트는 모델을 자동으로 다운로드하여 올바른 폴더에 저장합니다.

  • 수동으로 설치하려면 위 모델 목록에서 원하는 버전의 파일을 압축 해제하여 폴더 구조가 아래 스크린샷과 유사하게 되도록 하세요.

따라서 1B 버전의 모델 경로는 다음과 같아야 합니다:

ComfyUI/models/Janus-Pro/Janus-Pro-1B/model.safetensors

단, config 및 기타 파일도 필요하므로 .zip 형식으로 업로드되었습니다.

또한, 원래 .bin 체크포인트 모델과 결합하려는 경우 지원 파일만 포함한 버전도 제공됩니다.

축하합니다!

3090, 24GB GPU를 사용하면 384x384 이미지 생성에 약 8분이 걸리며, 이는 Stable Diffusion 1.5가 0.5초 안에 생성하는 결과보다 훨씬 열악한 품질입니다.

Janus-Pro는 멀티모달 이해 및 생성을 통합하는 혁신적인 자기회귀 프레임워크입니다. 이는 이전 접근 방식의 한계를 극복하기 위해 시각적 인코딩을 별도의 경로로 분리하면서도 처리를 위한 단일 통합 트랜스포머 아키텍처를 활용합니다. 이 분리는 시각 인코더의 이해 및 생성 역할 간의 충돌을 완화할 뿐만 아니라 프레임워크의 유연성을 향상시킵니다. Janus-Pro는 이전의 통합 모델을 능가하고, 작업 특화 모델의 성능과 동등하거나 이를 초월합니다. Janus-Pro의 단순성, 높은 유연성 및 효과성은 차세대 통합 멀티모달 모델로 강력한 후보가 됩니다.
Janus-Pro는 멀티모달 이해와 생성을 통합하는 MLLM으로, 멀티모달 이해 및 생성을 위한 시각적 인코딩을 분리합니다. Janus-Pro는 DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base를 기반으로 구축되었습니다.
멀티모달 이해를 위해 SigLIP-L을 시각 인코더로 사용하며, 384 x 384 이미지 입력을 지원합니다. 이미지 생성을 위해 Janus-Pro는 여기서 제공되는 토크나이저를 사용하며, 다운샘플링 비율은 16입니다.

이것은 모델의 변환된 .safetensors 버전입니다.

원래 7B 버전은 다음에서 확인할 수 있습니다: https://huggingface.co/deepseek-ai/Janus-Pro-7B/tree/e6ac502c7931490e5b56b0ff2d30413f2a21b887

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.