Deepseek Janus Pro 1B / 7B [Safetensors]
详情
下载文件
模型描述
https://huggingface.co/deepseek-ai/Janus-Pro-1B
https://huggingface.co/deepseek-ai/Janus-Pro-7B
注意: CY-CHENYUE/ComfyUI-Janus-Pro 节点不支持 .safetensors 格式。
因此,我更新/分叉了 model_loader.py,使其能够自动下载并支持 .safetensors 格式。系统拒绝让我重命名文件,因此你必须保留文件名为 model.safetensors。
对于 7B 版本,我未能成功实现分片合并。因此,它将被分为三个分片。
安装说明
安装 ComfyUI
安装 CY-CHENYUE/ComfyUI-Janus-Pro 节点包
手动将
ComfyUI\custom_nodes\ComfyUI-Janus-Pro\nodes\model_loader.py中的文件用上述版本覆盖你可以使用上方的 ComfyUI 工作流
更新后的 model_loader 脚本将自动下载模型并将其放置在正确文件夹中
若要手动操作,请将上述模型列表中你所需版本的文件解压,使文件夹结构类似于下方截图所示。

因此,1B 版本的模型路径应为:
ComfyUI/models/Janus-Pro/Janus-Pro-1B/model.safetensors
但请注意,你还需保留配置文件及其他文件,这就是为何上传的是 .zip 格式的原因。
此外,还有一个仅包含支持文件的版本,如果你希望将其与原始的 .bin 检查点模型合并,可以使用该版本。
恭喜你!
使用 3090(24GB 显存),你可以获得大约 8 分钟生成一张 384x384 图像的速度——但其效果远不如 Stable Diffusion 1.5 在 0.5 秒内生成的图像。
Janus-Pro 是一种新颖的自回归框架,统一了多模态理解与生成。它通过将视觉编码解耦为独立路径,同时仍采用单一统一的 Transformer 架构进行处理,解决了以往方法的局限性。这种解耦不仅缓解了视觉编码器在理解与生成任务中的角色冲突,还提升了框架的灵活性。Janus-Pro 的性能超越了之前的统一模型,并达到或超越了专用任务模型的表现。Janus-Pro 的简洁性、高灵活性与高效性使其成为下一代统一多模态模型的有力候选者。
Janus-Pro 是一种统一的多模态理解与生成 MLLM,通过解耦视觉编码来分别支持多模态理解与生成。Janus-Pro 基于 DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base 构建。
在多模态理解方面,它使用 SigLIP-L 作为视觉编码器,支持 384 x 384 的图像输入;在图像生成方面,Janus-Pro 使用此处提供的 tokenizer,下采样率为 16。
这是该模型的 .safetensors 转换版本。
原始的 7B 版本可在此处找到:https://huggingface.co/deepseek-ai/Janus-Pro-7B/tree/e6ac502c7931490e5b56b0ff2d30413f2a21b887



















