zer0int's Long CLIP_L-Registers-Gated_MLP-ViT-L-14

详情

模型描述

所有功劳归Huggingface上的zer0int。我仅将其放在这里,以便在图像生成中将其标记为资源。- Huggingface链接 - https://huggingface.co/zer0int/LongCLIP-Registers-Gated_MLP-ViT-L-14 - 如zer0int要求,将立即移除。

注意:不推荐用于SDXL——快速查阅问题后发现,目前尚未发布兼容的CLIP_G,因此它可能在SDXL上表现不佳。若你需要CLIP_G,最好避免使用此版本。

“Long-CLIP_L”与“CLIP_L”的主要区别在于token长度。

CLIP_L = 来自提示数据的77个token。

Long-CLIP_L = 来自提示数据的248个token。

由于我几乎只进行Flux生成,并有时使用LLM,更大的token长度确实有帮助。既然能用248个token,为何要限制在77个呢?

仅TE = 仅文本编码器,大多数情况下你只需要这个。

完整模型 = 完整版本,如果你需要做超出文本到图像之外的更多任务。

此特定Long-CLIP_L是“Registers-Gated”版本,为经过微调的版本。zer0int提供了一张清晰的图表,展示了该微调的差异。若我没记错,这基本上意味着文本到文本和图像到文本的对齐更紧密,错误数据的出现频率也大大降低。简而言之——越短越宽越好!

此模型生成的图像

未找到图像。