zer0int's Long CLIP_L-Registers-Gated_MLP-ViT-L-14
详情
下载文件
关于此版本
模型描述
所有功劳归Huggingface上的zer0int。我仅将其放在这里,以便在图像生成中将其标记为资源。- Huggingface链接 - https://huggingface.co/zer0int/LongCLIP-Registers-Gated_MLP-ViT-L-14 - 如zer0int要求,将立即移除。
注意:不推荐用于SDXL——快速查阅问题后发现,目前尚未发布兼容的CLIP_G,因此它可能在SDXL上表现不佳。若你需要CLIP_G,最好避免使用此版本。
“Long-CLIP_L”与“CLIP_L”的主要区别在于token长度。
CLIP_L = 来自提示数据的77个token。
Long-CLIP_L = 来自提示数据的248个token。
由于我几乎只进行Flux生成,并有时使用LLM,更大的token长度确实有帮助。既然能用248个token,为何要限制在77个呢?
仅TE = 仅文本编码器,大多数情况下你只需要这个。
完整模型 = 完整版本,如果你需要做超出文本到图像之外的更多任务。
此特定Long-CLIP_L是“Registers-Gated”版本,为经过微调的版本。zer0int提供了一张清晰的图表,展示了该微调的差异。若我没记错,这基本上意味着文本到文本和图像到文本的对齐更紧密,错误数据的出现频率也大大降低。简而言之——越短越宽越好!


