zer0int's Long CLIP_L-Registers-Gated_MLP-ViT-L-14

세부 정보

모델 설명

이 모델의 모든 크레딧은 Huggingface의 zer0int에게 돌아갑니다. 저는 이 모델을 이미지 생성에 대한 자원으로 표시하기 위해 여기에 올릴 뿐입니다. - Huggingface 링크 - https://huggingface.co/zer0int/LongCLIP-Registers-Gated_MLP-ViT-L-14 - 만약 zer0int가 요청하면 이 내용을 삭제하겠습니다.

참고: 이 모델은 SDXL에는 권장되지 않습니다. 이슈를 빠르게 확인해보면, 아직 호환 가능한 CLIP_G가 출시되지 않은 것으로 보입니다. 따라서 SDXL에서는 잘 작동하지 않을 수 있습니다. CLIP_G가 필요하다면, 이 모델을 사용하지 않는 것이 가장 좋습니다.

"Long-CLIP_L"과 "CLIP_L"의 주요 차이점은 토큰 길이입니다.

CLIP_L = 프롬프트 데이터에서의 77 토큰 길이.

Long-CLIP_L = 프롬프트 데이터에서의 248 토큰 길이.

저는 주로 Flux 생성만 수행하며 때때로 LLM을 활용하기 때문에 더 긴 토큰 길이가 도움이 됩니다. 왜 77 토큰에 제한되려고 하죠? 248 토큰을 쓸 수 있는데 말이죠!

TE Only = 텍스트 인코더만 사용, 대부분의 경우 이 것만으로 충분합니다.

Full Model = 전체 모델로, 텍스트에서 이미지로 생성하는 것 이상의 작업을 하고 싶을 때 사용합니다.

이 Long-CLIP_L은 Registers-Gated 버전으로, 세밀하게 조정된 버전입니다. zer0int는 이 조정 버전의 차이점을 보여주는 멋진 차트를 제공했습니다. 제 기억이 맞다면, 이는 텍스트-텍스트 및 이미지-텍스트 간의 일치도가 훨씬 더 향상되었고, 오류 데이터의 발생 빈도가 훨씬 줄었다는 의미입니다. 요약하면, 짧고 넓은 것이 더 좋습니다!

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.