zer0int's Long CLIP_L-Registers-Gated_MLP-ViT-L-14

所有功劳归Huggingface上的zer0int。我仅将其放在这里，以便在图像生成中将其标记为资源。- Huggingface链接 - https://huggingface.co/zer0int/LongCLIP-Registers-Gated_MLP-ViT-L-14 - 如zer0int要求，将立即移除。

注意：不推荐用于SDXL——快速查阅问题后发现，目前尚未发布兼容的CLIP_G，因此它可能在SDXL上表现不佳。若你需要CLIP_G，最好避免使用此版本。

“Long-CLIP_L”与“CLIP_L”的主要区别在于token长度。

CLIP_L = 来自提示数据的77个token。

Long-CLIP_L = 来自提示数据的248个token。

由于我几乎只进行Flux生成，并有时使用LLM，更大的token长度确实有帮助。既然能用248个token，为何要限制在77个呢？

仅TE = 仅文本编码器，大多数情况下你只需要这个。

完整模型 = 完整版本，如果你需要做超出文本到图像之外的更多任务。

此特定Long-CLIP_L是“Registers-Gated”版本，为经过微调的版本。zer0int提供了一张清晰的图表，展示了该微调的差异。若我没记错，这基本上意味着文本到文本和图像到文本的对齐更紧密，错误数据的出现频率也大大降低。简而言之——越短越宽越好！